Lecture 3 Gradient Descent

2019-11-06  本文已影响0人  带带吴腾跃

先来复习一下梯度下降法。

image.png
θ代表参数(lecture1中的一次方程的参数),θ*代表使得L取得最小值的解。
假设现在θ set 里有两个参数{θ1,θ2},随机选取一个起始的参数 image.png
由梯度下降法知,我们更新后的第二个参数的值就应该为
image.png
η·▽L 为θ移动的距离
最终也可以写成如下公式:(上标数字为第几次更新后的参数)
image.png

一张图复习一下Lecture1 的 gradient descent:


image.png

每次移动的方向都是Loss的等高线的法线方向的反方向。

Tip1.Tuning your learning rate

Learning rate就是Lecture1中的η,控制每次移动的步长,如何调整这个η参数呢?
举例来说,假设下图是我们的Loss function。如果你的η太小,那么他每次移动的距离都太小,如果你的η太大,那么他步长太大,永远没法走到小的低谷中,如果η再大一些,那直接就爆炸飞走了。只有当你的参数是一维或者二维的时候,Loss的函数图像才能可视化,如果变成高维的话就无法可视化了。但是有另外一个东西可以可视化,你可以visualize参数的更新与Loss的变化的图像

image.png

有没有办法自动调整learning rate?

思路是这样的,开始我们需要设定的learning rate最好是大一些,尽快达到局部最优解的邻近区域,然后learning rate每走一步都变得比之前更小,这样就更容易找到局部最优解。
举个例子,我们可以把η设为

image.png
每到走一次η都会变得更小。但是光这样是不够的,每个不同的参数都应该给他一个不同的learning rate。这里需要一个小技巧,那就是Adagrad。(详见文章Adagrad)

Tip2 Stochastic Gradient Descent 随机梯度下降(make the training faster)

与gradient descent不同的是,gradient descent考虑的是所有的训练输入,意思是θ要适合所有的训练输入,使总的L取得最小值。而stochastic gradient descent 仅仅只考虑一个训练输入。此时参数θ只要使L达到最小值就ok。


image.png
image.png

Tip3 Feature Scaling 特征缩放

假设我们要做regression,model如下,x代表特征(例如lecture1中宝可梦的cp值,hp等)

image.png
如果你发现特征x1,x2的分布如下图这种模式:
image.png
那么就可以考虑Feature Scaling 特征缩放,把x2的值缩小,我们希望不同的feature他们的scale相同,变成下图这个样子:
image.png

这样做有什么好处呢?
我们画个更容易明白的图:

image.png
此时,如果x1很小,x2很大,w1的变化对y的值影响很小,w2的变化对y的值影响会很大。如果你把Loss函数图像画出来的话,那么会出现这种结果 image.png
但如果你做了feature scaling后,你的Loss函数图像是这样的: image.png
这两个对于做gradient descent会有什么样的影响呢?如果第一种情况下,你每次更新θ,那么他会是这种情况: image.png
他做gradient descent时并不是向着最低点走,而做了feature scaling的Loss L做gradient descent时,你不管在哪个点,他都会朝着最低点走。 image.png
所以该怎么做scaling?做法有很多,常见的做法如下:
假设我有一组训练集,每个训练样本有n个特征 component,我们对每一个component都加起来取平均值mi,再求出第i行的所有component的标准方差σi,之后把第r个样本第第i个特征值做如下变换。
image.png
最终每一维第平均值都为0,方差都为1。

Limitation of Gradient Descent

你有可能会卡在局部最小值第地方,或者卡在微分值为0但不是最小值的地方。但是这些都是幻想!真正的问题是,如果你真的算出来微分值为0的情况就以为接近local minima,准备停下来,但是不见得这个地方就是local minima 局部最小值啊,有可能这个点还处在离local minima 很远的地方,所以为什么要停下来?


image.png

tips:你永远不知道你当前的局部最小值是不是全局最小值,除非像玩游戏一样开了全图。

上一篇 下一篇

猜你喜欢

热点阅读