2020-06-10
阅读量:
2520
GD(梯度下降)和SGD(随机梯度下降)有什么区别?
- 相同点
在GD和SGD中,都会在每次迭代中更新模型的参数,使得代价函数变小。
- 不同点:
GD(梯度下降)
在GD中,每次迭代都要用到全部训练数据。
SGD(随机梯度下降)
在SGD中,每次迭代可以只用一个训练数据来更新参数。
- 总结
当训练数据过大时,用GD可能造成内存不够用,那么就可以用SGD了,SGD其实可以算作是一种online-learning。另外SGD收敛会比GD快,但是对于代价函数求最小值还是GD做的比较好,不过SGD也够用了。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论