2020-08-18
阅读量:
818
数据分析Python统计
算法特征汇总
最小二乘法
(1)多元回归中,ols 可以处理多个自变量的情况,寻求残差平方和最小化;
(2)将数据视为矩阵,利用线性代数寻求系数最优化,对内存要求很高;
(3)大数据场景下,存在线性和内存约束问题。
(4)小数据情况的常用算法;
正则化法——约束
(1)一方面寻求最小化模型误差,另一方面可以减少模型复杂度(取 L1 绝对值),如自 变量个数很多的时候,选择较少的重要变量来表示模型。
(2)有利于消除共线性和过拟合现象。
(3)高维及数据稀疏问题得以极大的缓解,但内存问题仍然是主要的缺点;
(4)lasso、岭回归和弹性网模型是经常使用的机器学习模型。一般避免使用普通的线性 回归;岭回归和弹性网模型较为常用(共线稀疏等问题),lasso 在特征选择上侧重较少的重 要变量的场景。
梯度下降法——迭代
(1)以迭代的方式,最小化模型误差,有效处理多维问题;
(2)参数学习率 alpha 控制每次迭代的步长;
(3)大型的行和列不会写入内存,极大地缓解内存压力。
(4)擅长结合正则功能处理稀疏数据问题。
(5)机器学习算法需要面对的问题:稀疏、过拟合、大型行列的速度问题、数据质量等 问题,往往需要梯度下降及其拓展的各种算法。






评论(0)


暂无数据