机器学习中岭回归、L2正则化（ridge regression）的区别

2020-06-02 阅读量: 1653

机器学习

扫码加入数据分析学习群

岭回归是一种可用于共线性数据分析的有偏估计回归方法，它是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法，对条件数很大（病态数据）的拟合要强于最小二乘法。
在线性回归问题中，最小二乘法实际上是最小化问题：

$\hat{\theta}=\arg_{\theta}\min||X\theta-y||^2_2$

而岭回归则是加入了L2惩罚项：

$\hat{\theta}=\arg_{\theta}\min||X\theta-y||^2_2+C||\theta||^2_2$

这样参数的方差不会过大，且随着惩罚项系数C的增大，共线性的影响将越来也小。在这个过程中，可以记录$\theta(k)$(岭迹)的变化情况，通过对岭迹的波动来判断我们是否要剔除该变量。
那为什么说岭回归能解决共线性问题呢？从矩阵计算的角度来看，L2正则化下方程的解为：

$\hat{\theta}=$X^{T}X+CI$^{-1}X^{T}y$

共线性代表正定矩阵X^TX的条件数很大:

$\kappa$X^{T}X$=\frac{\lambda_{max}(X^{T}X)}{\lambda_{min}(X^{T}X)}$

而当条件数很大时，矩阵的逆的数值计算也是非常不准确的，但是当我们给矩阵加上一个单位矩阵时，奇异性（不可逆）问题就完全没有啦。
进一步考虑对惩罚项对奇异值的影响，假设X的奇异值（SVD）分解为：

$X=U\Sigma V^{T}$

则容易证明

$\hat{\theta}=$X^{T}X+CI$^{-1}X^{T}y=VDU^{T}y$

其中D是对角矩阵，且满足

$D_{ii}=\frac{\sigma_i}{\sigma_i^2+C}$

其反应了惩罚项是如何影响到条件数的。

添加CDA数据分析金老师，微信号：CDALS06，提供数据分析及CDA考试指导交流！

19.3658 9 3 踩关注作者收藏

暂无数据

评论(0)