热线电话:13121318867

登录
2020-06-10 阅读量: 2520
GD(梯度下降)和SGD(随机梯度下降)有什么区别?
  • 相同点

在GD和SGD中,都会在每次迭代中更新模型的参数,使得代价函数变小。

  • 不同点:

GD(梯度下降)

在GD中,每次迭代都要用到全部训练数据。

SGD(随机梯度下降)

在SGD中,每次迭代可以只用一个训练数据来更新参数。

  • 总结
    当训练数据过大时,用GD可能造成内存不够用,那么就可以用SGD了,SGD其实可以算作是一种online-learning。另外SGD收敛会比GD快,但是对于代价函数求最小值还是GD做的比较好,不过SGD也够用了。

17.4582
2
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子