梯度下降法的理解

LXM21

2020-06-10 阅读量: 880

梯度下降法的理解

梯度下降：

首先来看看梯度下降的一个直观的解释。比如我们在一座大山上的某处位置，由于我们不知道怎么下山，于是决定走一步算一步，也就是在每走到一个位置的时候，求解当前位置的梯度，沿着梯度的负方向，也就是当前最陡峭的位置向下走一步，然后继续求解当前位置梯度，向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去，一直走到觉得我们已经到了山脚。当然这样走下去，有可能我们不能走到山脚，而是到了某一个局部的山峰低处。

从上面的解释可以看出，梯度下降不一定能够找到全局的最优解，有可能是一个局部最优解。当然，如果损失函数是凸函数，梯度下降法得到的解就一定是全局最优解。

这一过程形象的描述了梯度下降法求解无约束最优化问题的过程，下面我们将例子里的关键信息与梯度下降法中的关键信息对应起来：山代表了需要优化的函数表达式；山的最低点就是该函数的最优值，也就是我们的目标；每次下山的距离代表后面要解释的学习率；寻找方向利用的信息即为样本数据；最陡峭的下山方向则与函数表达式梯度的方向有关，之所以要寻找最陡峭的方向，是为了满足最快到达山底的限制条件；细心的读者可能已经发现上面还有一处加粗的词组：某处——代表了我们给优化函数设置的初始值，算法后面正是利用这个初始值进行不断的迭代求出最优解。
看到这里大家应该会发现这样一个问题：在选择每次行动的距离时，如果所选择的距离过大，则有可能偏离最陡峭的方向，甚至已经到达了最低点却没有停下来，从而跨过最低点而不自知，一直无法到达山底；如果距离过小，则需要频繁寻找最陡峭的方向，会非常耗时。要知道，每次寻找最陡峭的方向是非常复杂的！同样的，梯度下降法也会面临这个问题，因此需要我们找到最佳的学习率，在不偏离方向的同时耗时最短。