数据蛙数据分析每周作业

2019-01-19

2019-01-19  本文已影响7人  快去上自习吧

'2019/Jan/18/Fri 17:48:26'

机器学习100天——第5天:梯度下降(Gradient descent)

求最优解的一个过程

梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求出代价函数𝐽(𝜃0, 𝜃1) 的最小值。
梯度下降背后的思想是:开始时我们随机选择一个参数的组合(𝜃0,𝜃1, . . . . . . , 𝜃𝑛),计算代价函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到得到一个局部最小值(local minimum),因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小值是否便是全局最小值(global minimum),选择不同的初始参数组合,可能会找到不同的局部最小值

α 学习率

梯度下降算法通常指的是同步更新所有参数


在这里插入图片描述

导数,切线斜率,反方向,最优点
α太小,要很久才能达到,浪费时间
太大,可能超过,永远到不了,导致无法收敛,甚至发散

假设你将𝜃1初始化在局部最低点,在这儿,它已经在一个局部的最优处或局部最低点。
结果是局部最优点的导数将等于零,因为它是那条切线的斜率。这意味着你已经在局部最优
点,它使得𝜃1不再改变,也就是新的𝜃1等于原来的𝜃1,因此,如果你的参数已经处于局部最
低点,那么梯度下降法更新其实什么都没做,它不会改变参数的值。这也解释了为什么即使
学习速率𝑎保持不变时,梯度下降也可以收敛到局部最低点。

在这里插入图片描述

在梯度下降法中,当我们接近局部最低点时,梯度下降法会自动采取更小的
幅度,这是因为当我们接近局部最低点时,很显然在局部最低时导数等于零,所以当我们接
近局部最低时,导数值会自动变得越来越小,所以梯度下降将自动采取较小的幅度,这就是
梯度下降的做法。所以实际上没有必要再另外减小α.


在这里插入图片描述

batch gradient descent
批量梯度下降
每次都是使用整个数据集

梯度下降,重在理解,使用时可直接调用.

上一篇 下一篇

猜你喜欢

热点阅读