2019-04-28 梯度下降

2019-04-28 本文已影响0人卢晨耀

首先定义：待优化参数： $w$ ，目标函数： $f(w)$ ，初始学习率： $\alpha$

而后，开始进行迭代优化。在每个epoch $t$

计算目标函数关于当前参数的梯度： $g_{t}={\Delta f(w_{t})}$

根据历史梯度计算一阶动量和二阶动量：

$m_{t}=\phi (g_1,g_2,…,g_t)$ ， $V_t=\psi (g_1,g_2,...,g_t)$

计算当前时刻的下降梯度： $\eta =\alpha \cdot m_{t}/\sqrt{V_t}$

根据下降梯度进行更新： $w_{t+1}=w_{t}-\eta$

掌握了这个框架，你可以轻轻松松设计自己的优化算法。步骤3、4对于各个算法都是一致的，主要的差别就体现在1和2上