2019-01-19

2019-01-19 本文已影响7人快去上自习吧

'2019/Jan/18/Fri 17:48:26'

机器学习100天——第5天：梯度下降(Gradient descent)

求最优解的一个过程

梯度下降是一个用来求函数最小值的算法，我们将使用梯度下降算法来求出代价函数𝐽(𝜃0, 𝜃1) 的最小值。
梯度下降背后的思想是：开始时我们随机选择一个参数的组合(𝜃0,𝜃1, . . . . . . , 𝜃𝑛)，计算代价函数，然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到得到一个局部最小值（local minimum），因为我们并没有尝试完所有的参数组合，所以不能确定我们得到的局部最小值是否便是全局最小值（global minimum），选择不同的初始参数组合，可能会找到不同的局部最小值

α 学习率

梯度下降算法通常指的是同步更新所有参数

在这里插入图片描述

导数,切线斜率,反方向,最优点
α太小,要很久才能达到,浪费时间
太大,可能超过,永远到不了,导致无法收敛,甚至发散

假设你将𝜃1初始化在局部最低点，在这儿，它已经在一个局部的最优处或局部最低点。
结果是局部最优点的导数将等于零，因为它是那条切线的斜率。这意味着你已经在局部最优
点，它使得𝜃1不再改变，也就是新的𝜃1等于原来的𝜃1，因此，如果你的参数已经处于局部最
低点，那么梯度下降法更新其实什么都没做，它不会改变参数的值。这也解释了为什么即使
学习速率𝑎保持不变时，梯度下降也可以收敛到局部最低点。

在这里插入图片描述

在梯度下降法中，当我们接近局部最低点时，梯度下降法会自动采取更小的
幅度，这是因为当我们接近局部最低点时，很显然在局部最低时导数等于零，所以当我们接
近局部最低时，导数值会自动变得越来越小，所以梯度下降将自动采取较小的幅度，这就是
梯度下降的做法。所以实际上没有必要再另外减小α.

在这里插入图片描述

batch gradient descent
批量梯度下降
每次都是使用整个数据集

梯度下降,重在理解,使用时可直接调用.

2019-01-19

'2019/Jan/18/Fri 17:48:26'

机器学习100天——第5天：梯度下降(Gradient descent)

猜你喜欢

热点阅读