Lecture 3 Gradient Descent

2019-11-06 本文已影响0人带带吴腾跃

先来复习一下梯度下降法。

image.png
θ代表参数（lecture1中的一次方程的参数），θ*代表使得L取得最小值的解。
假设现在θ set 里有两个参数{θ1，θ2}，随机选取一个起始的参数

image.png
由梯度下降法知，我们更新后的第二个参数的值就应该为

image.png
（ η·▽L 为θ移动的距离）
最终也可以写成如下公式：（上标数字为第几次更新后的参数）

image.png

一张图复习一下Lecture1 的 gradient descent：

image.png

每次移动的方向都是Loss的等高线的法线方向的反方向。

Tip1.Tuning your learning rate

Learning rate就是Lecture1中的η，控制每次移动的步长，如何调整这个η参数呢？
举例来说，假设下图是我们的Loss function。如果你的η太小，那么他每次移动的距离都太小，如果你的η太大，那么他步长太大，永远没法走到小的低谷中，如果η再大一些，那直接就爆炸飞走了。只有当你的参数是一维或者二维的时候，Loss的函数图像才能可视化，如果变成高维的话就无法可视化了。但是有另外一个东西可以可视化，你可以visualize参数的更新与Loss的变化的图像。

image.png

有没有办法自动调整learning rate？

思路是这样的，开始我们需要设定的learning rate最好是大一些，尽快达到局部最优解的邻近区域，然后learning rate每走一步都变得比之前更小，这样就更容易找到局部最优解。
举个例子，我们可以把η设为

image.png
每到走一次η都会变得更小。但是光这样是不够的，每个不同的参数都应该给他一个不同的learning rate。这里需要一个小技巧，那就是Adagrad。（详见文章Adagrad）

Tip2 Stochastic Gradient Descent 随机梯度下降（make the training faster）

与gradient descent不同的是，gradient descent考虑的是所有的训练输入，意思是θ要适合所有的训练输入，使总的L取得最小值。而stochastic gradient descent 仅仅只考虑一个训练输入。此时参数θ只要使L达到最小值就ok。

image.png

Tip3 Feature Scaling 特征缩放

假设我们要做regression，model如下，x代表特征（例如lecture1中宝可梦的cp值，hp等）

image.png
如果你发现特征x1，x2的分布如下图这种模式：

image.png
那么就可以考虑Feature Scaling 特征缩放，把x2的值缩小，我们希望不同的feature他们的scale相同，变成下图这个样子：

image.png

这样做有什么好处呢？
我们画个更容易明白的图：

image.png
此时，如果x1很小，x2很大，w1的变化对y的值影响很小，w2的变化对y的值影响会很大。如果你把Loss函数图像画出来的话，那么会出现这种结果

image.png
但如果你做了feature scaling后，你的Loss函数图像是这样的：

image.png
这两个对于做gradient descent会有什么样的影响呢？如果第一种情况下，你每次更新θ，那么他会是这种情况：

image.png
他做gradient descent时并不是向着最低点走，而做了feature scaling的Loss L做gradient descent时，你不管在哪个点，他都会朝着最低点走。

image.png
所以该怎么做scaling？做法有很多，常见的做法如下：
假设我有一组训练集，每个训练样本有n个特征 component，我们对每一个component都加起来取平均值mi，再求出第i行的所有component的标准方差σi，之后把第r个样本第第i个特征值做如下变换。

image.png
最终每一维第平均值都为0，方差都为1。

Limitation of Gradient Descent

你有可能会卡在局部最小值第地方，或者卡在微分值为0但不是最小值的地方。但是这些都是幻想！真正的问题是，如果你真的算出来微分值为0的情况就以为接近local minima，准备停下来，但是不见得这个地方就是local minima 局部最小值啊，有可能这个点还处在离local minima 很远的地方，所以为什么要停下来？

image.png

tips：你永远不知道你当前的局部最小值是不是全局最小值，除非像玩游戏一样开了全图。

Lecture 3 Gradient Descent

Tip1.Tuning your learning rate

有没有办法自动调整learning rate？

Tip2 Stochastic Gradient Descent 随机梯度下降（make the training faster）

Tip3 Feature Scaling 特征缩放

Limitation of Gradient Descent

猜你喜欢

热点阅读