梯度下降算法_CDA答疑社区

图片.png

梯度向量的方向一直是损失函数增长的方向
梯度向量的值是损失函数增长的趋势
离最低点越远，增长的趋势就越大，计算出来的梯度的值就越大

图片.png

多元状态梯度下降的损失函数

图片.png

多元状态梯度下降更新函数

图片.png

三种梯度下降算法

批量梯度下降具体做法就是在更新参数时使用所有的样本来进行更新，也就是说X和Y用的就是整个数据集
随机梯度下降和批量梯度下降法原理类似，区别在仅仅选取一个样本j来求梯度，对应的更新公式是：
对数据量的大小来说
1）数据集特别大的时候，会有以下结果
批量梯度下降速度很慢，随机梯度下降速度很快
2）数据集小的时候，会有以下结果
批量梯度下降速度快，结果容易收敛；随机下降速度也快，但结果很难收敛
对精确度来说

1）批量梯度下降，容易收敛，但是很容易陷入局部最优

2）随机梯度下降法在处理非凸函数优化的过程中有非常好的表现，由于其下降方向具有一定随机性，因此能很好地绕开局部最优解，从而逼近全局最优解

3. 小批量梯度下降

小批量梯度下降法是批量梯度下降法和随机梯度下降法的折中，采用m个样本进行更新，一般m=10，或者可以用0.1*n

在使用梯度下降的时候，需要做的是要保证它所有的特征有着相近的尺度范围。也就是说，如果有的特征是以100为单位的，有的特征是以1为单位的，如果不做归一化处理的话，并且选取步长为0.1的话，以100为单位的特征需要很长时间才能达到真实的点，这样会拖累整个迭代用的时间，如果做了归一化处理，所有值的特征都在0到1的范围内，用0.1作为步长的话，很合理。