热线电话:13121318867

登录
2020-08-18 阅读量: 767
数据分析Python统计

算法特征汇总

最小二乘法

(1)多元回归中,ols 可以处理多个自变量的情况,寻求残差平方和最小化;

(2)将数据视为矩阵,利用线性代数寻求系数最优化,对内存要求很高;

(3)大数据场景下,存在线性和内存约束问题。

(4)小数据情况的常用算法;

正则化法——约束

(1)一方面寻求最小化模型误差,另一方面可以减少模型复杂度(取 L1 绝对值),如自 变量个数很多的时候,选择较少的重要变量来表示模型。

(2)有利于消除共线性和过拟合现象。

(3)高维及数据稀疏问题得以极大的缓解,但内存问题仍然是主要的缺点;

(4)lasso、岭回归和弹性网模型是经常使用的机器学习模型。一般避免使用普通的线性 回归;岭回归和弹性网模型较为常用(共线稀疏等问题),lasso 在特征选择上侧重较少的重 要变量的场景。

梯度下降法——迭代

(1)以迭代的方式,最小化模型误差,有效处理多维问题;

(2)参数学习率 alpha 控制每次迭代的步长;

(3)大型的行和列不会写入内存,极大地缓解内存压力。

(4)擅长结合正则功能处理稀疏数据问题。

(5)机器学习算法需要面对的问题:稀疏、过拟合、大型行列的速度问题、数据质量等 问题,往往需要梯度下降及其拓展的各种算法。

24.4183
0
关注作者
收藏
评论(0)

发表评论

暂无数据