Adam优化方法

2021-10-12  本文已影响0人  噗嗤噗哩噗通

整理动量梯度下降算法的时候,这一类大概有3种:

  1. 动量梯度下降
  2. RMSprop
  3. Adam 优化算法

这里主要记录一下这3个算法的优化过程


动量梯度下降

v_{dW}= \beta * v_{dW} + (1- \beta ) *dW
v_{db}= \beta * v_{db} + (1- \beta ) *db
W= W - \alpha *dW = W - \alpha * v_{dW}
b= b - \alpha *db = b - \alpha * v_{db}

RMSprop

S_{dW}= \beta_{2} * v_{dW} + (1- \beta_{2} ) *dW^{2}
S_{db}= \beta_{2} * v_{db} + (1- \beta_{2} ) *db^{2}
W= W - \alpha * \frac{dW}{ \sqrt {S_{dW} } + \epsilon }
b= b - \alpha * \frac{db}{ \sqrt {S_{db} } + \epsilon }
\epsilon = 10^{-8}

Adam 优化算法

v_{dW}= \beta_{1} * v_{dW} + (1- \beta_{1} ) *dW
v_{db}= \beta_{1} * v_{db} + (1- \beta_{1} ) *db
S_{dW}= \beta_{2} * v_{dW} + (1- \beta_{2} ) *dW^{2}
S_{db}= \beta_{2} * v_{db} + (1- \beta_{2} ) *db^{2}

v^{corrected}_{dW} = \frac {v_{dW} }{1-\beta^t_{1} }
v^{corrected}_{db} = \frac {v_{db} }{1-\beta^t_{1} }
t为迭代次数

S^{corrected}_{dW} = \frac {S_{dW} }{1-\beta^t_{2} }
S^{corrected}_{db} = \frac {S_{db} }{1- \beta^t_{2} }
t为迭代次数

W= W - \alpha * \frac {v^{corrected}_{dW} } {\sqrt{S^{corrected}_{dW} } + \epsilon }
b= b - \alpha * \frac {v^{corrected}_{db} } {\sqrt{S^{corrected}_{db} } + \epsilon }


上一篇下一篇

猜你喜欢

热点阅读