共线性及危害_CDA答疑社区

有福有德

2018-10-08 阅读量: 3272

共线性及危害

广义上说共线性指的自变量之间的相关性，那么相关性有双变量间的相关，也有多变量间的相关，由此可以进一步区分为共线性和多重共线性。下文首先从共线性的阐述逐步过渡到多重共线性。假设我们需要拟合包含了两个影响因素线性回归，并且假设x_1和x_2的相关系数为r_12，

k 表示自变量数。可见参与β ̂计算的是由3部分统计量组成，分子的残差平方和、分母的自变量方差、自变量间的相关性。残差平方和可以看成是来自于因变量的信息，方差可以看成是来自于自变量的信息，相关系数来自于自变量之间的信息。

如果我们假设变量之间的相关性为0，回归系数β ̂的方差是最小的。当然，这在数学上看起来很完美，但并不符合实际应用，因为在回归分析中，所有影响因素可以看成是共享同一个因变量，如果能够共享同一个潜在的因变量，影响因素之间没有任何关系，则违反普通的理论或业务假定，所以相关系数为零，表示完全无共线性，在理论上行得通，但实际应用比较少。

如果相关系数取最大值1，会导致整个回归系数方差变得不可估计，我们把这种现象称之为完全共线性。完全共线性的场景，在小数据中极为少见，甚至不会出现，但在大数据中，由于数据链的存在，几乎不可避免，但常见的方法论可以事先筛选掉这类问题。不过一旦出现完全共线性问题，并不会同时将涉及共线性的变量放入方程，因为这样仍会带来如过拟合、速度、冗余等问题。总体来说无需倾注太多关注。

因此我们最常见的场景是介于0到1之间的相关性。理论统计研究显示变量间出现适度的相关性，不会带来严重的统计估计问题，但如果相关性很高，严重的估计问题就会出现，这是不容忽视的。如下图所示，R方取值越大，对应的系数估计方差的倍数越大，如果R方等于0.9，系数方差是原来（R方取值0）的10倍，0.95对应的是20倍的方差。理论研究显示系数方差超出10倍，则对系数估计稳定性造成一定程度的影响。由此得出的结论是将R方为0.9视作为出现共线性诊断的标准之一，如果R方超过0.95则存在严重的共线性。

833.0373

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子