Optimizer and BN

2019-03-18 本文已影响0人 MadCoder

Deep Learning

optimizers 通用参数

待优化参数： $w$ , 目标函数： $f(w)$ , 初始learning rate： $a$
在每一个epoch t 中：
1. 计算目标函数关于当前参数的梯度： [图片上传失败...(image-33816e-1552923429589)]
2. 根据历史梯度计算一阶动量和二阶动量：[图片上传失败...(image-9748e9-1552923429589)]，
3. 计算当前时刻的下降梯度： [图片上传失败...(image-8ac494-1552923429589)]
4. 根据下降梯度进行更新： [图片上传失败...(image-1a5e0a-1552923429589)]

现在通用的SGD通常指代mini-batch SGD，其迭代次数为每个batch的个数 $n$ 。对于每次迭代，SGD对每个batch求样本的梯度均值然后进行梯度更新。

                    $$w_{t+1} = w_t - a \cdot \frac {1} {n} \sum \nabla f(w_t)$$

自适应学习率

实质上，learning rate 由 $a$ 变成了 $\frac{a} {\sqrt{V_t}}$ 随着迭代时候二阶动量越大，学习率越小

只关注过去一段时间的梯度变化而非全部变化，这里区别于AdaGrad。避免二阶动量持续累积，导致训练提前结束。

adaptive + Momentum

结合了一阶动量和二阶动量

实际使用过程，参数默认： $\beta_1 = 0.9;\beta_2 = 0.999$

Adam收敛问题
- 由于RMSProp和Adam的二阶动量是固定时间窗口的累积，随着时间窗口变化，遇到的数据可能发生巨变，是的可能会时大时小，不是单调变化。这在后期的训练有可能导致模型无法收敛。
  - 修正方法： $V_t = max(\beta_2 \cdot V_{t-1} + (1 - \beta_2) \cdot g_t^2, V_{t-1})$
错过全剧最优解问题
- 自适应学习率算法可能会对前期的特征过拟合，后期才出现的特征难以纠正前期的拟合效果
  - 修正方法：充分shuffle数据集
- 尽管收敛速度快，但是收敛的效果没有SGD好。主要因为后期的学习速率太低了，影响有效收敛。
  - 修正方法：对Adam的学习率下界做约束。
核心差异：下降方向
- SGD下降方向就是该位置的梯度的反方向
- 带一阶动量的SGD下降方向就是该位置一阶动量的方向
- 自适应学习率算法每个参数设定了不同的学习率，在不同维度上设定不同的步长。因此其下降方向为scaled的一阶动量方向
Adam + SGD组合策略
- 继承了Adam的快速收敛和SGD的精度收敛
数据是稀疏的(分类问题)，可以优先考虑自适应学习率算法。回归问题SGD通常更好