SPSS分析技术：多重线性回归模型；极端值与多重共线性的识别与处理 -CDA数据分析师官网

SPSS分析技术：多重线性回归模型；极端值与多重共线性的识别与处理

2017-05-28

SPSS分析技术：多重线性回归模型；极端值与多重共线性的识别与处理

如果拟合质量不好，可能存在的问题主要有以下两个方面：

极端值（强点）的影响。我们都知道，在线性回归分析中，自变量回归系数的确定主要采用最小二乘法，而最小二乘法的原理就是兼顾每个数据点的影响，使得最后的离差平方和最小。最小二乘法就好比生活中的老好人，谁都不得罪，与某些小团体内的人人或者特别有个性的离群者都保持相同程度的联系，这时小团体的人很可能因为看到其与离群者的关系而刻意疏远他。用最小二乘法拟合得到的多重线性回归模型同样如此，会极大的受到极端值的影响而失去客观和准确性。

自变量间的多重共线性问题。多重共线性指自变量间存在线性相关关系，也就是说自变量间可以互相建立线性回归方程。若自变量间存在多重共线性关系，那么得到的多重线性回归模型也是不准确和不可用的。

案例分析

本篇采用的案例依旧是上篇文章：SPSS分析技术：回归模型的自变量筛选方法；全军出击OR稳扎稳打步步为营的内容。下面我们还是以上篇文章的数据来判断和解决极端值和多重共线性问题。文章的数据都已经上传到QQ群中，大家可以前往QQ群的群文件中下载，跟随学习。案例的研究背景是固体垃圾的产生量与城市不同用途土地面积之间的多重线性回归模型的建立。

极端值检查过程和结果

极端值可以用两种指标来检查：残差和极端值统计量。SPSS软件利用残差进行极端值检查需要在【分析】-【回归】-【线性】-【统计】中选择下图残差区域的个案诊断，系统默认的离群值为3个标准差（注意，这里将残差进行标准化处理）。

除此之外，还可以选择【保存】按钮，在影响统计中，将DfBeta、标准化DfBeta、DfFit、标准化DfFit和协方差比例选中。以上这些指标的分析逻辑都是比较删除某个记录前后，偏回归系数或残差的差异情况，以此来判断极端值（离群值），值越大，极端值的可能性越大。为了便于比较，其中两个标准差指标如果大于2，可以认为是极端值。

案例的分析结果

个案诊断结果，可以发现，第8个数据点的标准化残差值达到2.105，大于2，可以认为该数据点是极端值（离群值）。结合第8个数据点的标准化DfFit值1.42，虽然小于2，但是大于1。综合两个结果，可以认为该数据点是极端值。

对于极端值，我们不能盲目的直接删除了事。应该找到该值，考虑是否是录入错误或者是某些特殊情况导致该值的离群，如果是以上两种情况导致的，那么可以修改和删除该数据点。如果以上两种情况都不符合，那么需要考虑是否采用加权最小二乘法进行多重线性回归，或者增加样本量，看是否是样本量过小导致该值类似的情况出现较少，使得该值成为极端值。

多重共线性的检查与处理

自变量的多重共线性会导致得到的多重回归模型存在错误，不能显示自变量与因变量之间真实的相互关系情况。如果自变量间存在多重共线性关系，那么在用SPSS进行多重线性回归分析时，可能会出现以下这些违反逻辑的情况：

整个回归模型的假设检验是通过的，但是个别自变量的检验却无法通过。

专业上认为应该有统计学意义的自变量检验结果却是没有统计学意义。

有些自变量的回归系数大小或符号与实际情况相违背，难以解释。

增加或删除一个自变量，有些自变量的回归系数出现大的变动。

如果多重回归模型出现以上情况，那么就应该考虑自变量存在多重共线性问题。SPSS对于多重共线性的判断指标有以下几种：容忍度（Tolerance）、方差膨胀因子（VIF，Variance Inflation Factor）、特征根（Eigenvalue）、条件指数（Condition Index）和变异构成（Variance Proportion）。

容忍度（Tolerance）等于1减去以该自变量为因变量，其它自变量依旧为自变量的线性回归模型的决定系数的剩余值（1-R方）。显然，容忍度越小，共线性越严重。一般的认识是，当容忍度小于0.1时，存在严重的多重共线性。

方差膨胀系数（VIF）等于容忍度的倒数。一般情况下，VIF的值不应该大于5，放宽到容忍度的水平，就是不应该大于10。

特征根（Eigenvalue）对模型中常数项及所有自变量计算主成分，如果自变量间存在较强的线性相关关系，则前面的几个主成分数值较大，而后面的几个主成分较小，甚至接近于0。

条件指数（Condition Index）等于最大的主成分与当前主成分的比值的算数平方根。第一个主成分被定义为1。如果有几个条件指数较大，那么就提示存在多重共线性关系。

变异构成（Variance Proportion）是指回归模型中常数项和自变量项被主成分解释的比例。如果某个主成分对两个或多个自变量的解释的比例都较大，说明这几个自变量间存在一定的共线性。

在SPSS中选中【统计】按钮中的共线性诊断，就会输出上面的结果。

我们依旧使用上面的例题为例，介绍各种共线性诊断指标的作用。我们首先看容忍度和方差膨胀系数（VIF）的结果。可以看到在全部生成的四个线性回归模型中，只有最后一个模型的宾馆、餐饮用地和零售业用地这两个自变量的容差小于0.2，VIF值大于7，说明这两个自变量间存在共线性关系。

再结合特征根、条件指数和变异构成这三个指标。前面三个模型的特征根差距不大，第四个模型的前四个特征根与最后一个存在较大的差异，说明该模型可能存在共线性情况。再看条件指标，第四个模型的最后一个公因子的条件指标达到8.642，同样说明了这个可能性。最后看变异构成，最后一个公因子中，宾馆餐饮用地与零售业用地的公因子方差解释比例都达到0.96，说明它们之间存在共线性。

结合以上五个因子，我们可以认为宾馆餐饮用地与零售业用地这两个自变量间存在共线性情况。需要做进一步处理。

除了以上这五个指标以外，还可以使用前面提高过的散点图举证和简单线性相关系数矩阵来判断它们之间是否存在多重共线性关系。如果发现自变量间存在多重共线性时，可以采用以下方法解决：

逐步回归：逐步回归能够在一定程度上对多重共线性的自变量组合进行筛选，将对因变量变异解释较大的自变量保留，而将解释较小的自变量删除。遗憾的是，对于共线性较为严重时，逐步回归的变量自动筛选方法就显得无力了。

岭回归：岭回归是一种专门用于共线性数据分析的有偏估计回归方法，它实际上是一种改良的最下二乘法，通过放弃最小二乘法的无偏性，以损失部分信息，降低精度为代价来寻求效果稍差但是回归系数更符合实际的回归方程。

主成分回归：主成分回归能够对存在多重多重共线性的自变量提取主成分，提取出来的主成分之间是完全互相独立的，然后再用提取出来的主成分与其它的自变量一起进行多重线性回归。

路径分析：如果自变量之间的联系规律比较清楚，比如很多实证研究中的变量情况。那么可以考虑使用路径分析模型。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

线性回归最小二乘特征散点图假设检验数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

SPSS分析技术：多重线性回归模型；极端值与多重共线性的识别与处理

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...