广义上说共线性指的自变量之间的相关性,那么相关性有双变量间的相关,也有多变量间的相关,由此可以进一步区分为共线性和多重共线性。下文首先从共线性的阐述逐步过渡到多重共线性。假设我们需要拟合包含了两个影响因素线性回归,并且假设x_1和x_2的相关系数为r_12,

k 表示自变量数。可见参与β ̂计算的是由3部分统计量组成,分子的残差平方和、分母的自变量方差、自变量间的相关性。残差平方和可以看成是来自于因变量的信息,方差可以看成是来自于自变量的信息,相关系数来自于自变量之间的信息。
如果我们假设变量之间的相关性为0,回归系数β ̂的方差是最小的。当然,这在数学上看起来很完美,但并不符合实际应用,因为在回归分析中,所有影响因素可以看成是共享同一个因变量,如果能够共享同一个潜在的因变量,影响因素之间没有任何关系,则违反普通的理论或业务假定,所以相关系数为零,表示完全无共线性,在理论上行得通,但实际应用比较少。
如果相关系数取最大值1,会导致整个回归系数方差变得不可估计,我们把这种现象称之为完全共线性。完全共线性的场景,在小数据中极为少见,甚至不会出现,但在大数据中,由于数据链的存在,几乎不可避免,但常见的方法论可以事先筛选掉这类问题。不过一旦出现完全共线性问题,并不会同时将涉及共线性的变量放入方程,因为这样仍会带来如过拟合、速度、冗余等问题。总体来说无需倾注太多关注。
因此我们最常见的场景是介于0到1之间的相关性。理论统计研究显示变量间出现适度的相关性,不会带来严重的统计估计问题,但如果相关性很高,严重的估计问题就会出现,这是不容忽视的。如下图所示,R方取值越大,对应的系数估计方差的倍数越大,如果R方等于0.9,系数方差是原来(R方取值0)的10倍,0.95对应的是20倍的方差。理论研究显示 系数方差超出10倍,则对系数估计稳定性造成一定程度的影响。由此得出的结论是将R方为0.9视作为出现共线性诊断的标准之一,如果R方超过0.95则存在严重的共线性。









暂无数据