赵娜0418

2020-06-02   阅读量: 1653

机器学习

机器学习中岭回归、L2正则化(ridge regression)的区别

扫码加入数据分析学习群

岭回归是一种可用于共线性数据分析的有偏估计回归方法,它是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对条件数很大(病态数据)的拟合要强于最小二乘法。
在线性回归问题中,最小二乘法实际上是最小化问题:



而岭回归则是加入了L2惩罚项:



这样参数的方差不会过大,且随着惩罚项系数C的增大,共线性的影响将越来也小。在这个过程中,可以记录$\theta(k)$(岭迹)的变化情况,通过对岭迹的波动来判断我们是否要剔除该变量。
那为什么说岭回归能解决共线性问题呢?从矩阵计算的角度来看,L2正则化下方程的解为:



共线性代表正定矩阵XTX的条件数很大:



而当条件数很大时,矩阵的逆的数值计算也是非常不准确的,但是当我们给矩阵加上一个单位矩阵时,奇异性(不可逆)问题就完全没有啦。
进一步考虑对惩罚项对奇异值的影响,假设X的奇异值(SVD)分解为:



则容易证明



其中D是对角矩阵,且满足



其反应了惩罚项是如何影响到条件数的。

添加CDA数据分析金老师,微信号:CDALS06,提供数据分析及CDA考试指导交流!
19.3658 9 3 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子