语义分割

深度学习中的优化器

2019-12-23  本文已影响0人  自由调优师_大废废

Batch Gradient Descent (BGD) 批梯度下降

Stochastic Gradient Descent (SGD) 随机梯度下降

Mini-batch Gradient Descent (MBGD) 小批次梯度下降

通过前面的 SGD 算法我们知道,我们的学习速率太大、太小都会影响到我们模型的迭代,所以我们期望可以有更加科学的方法帮助我们自动的改变 learning rate 的大小。

Momentum

AdaGrad

其实这里有个问题可以探讨:我们从上面更新公式可以发现,当前微分值越大,参数变化值越大。当前微分值越大,分母项越大,参数变化值越小。如何解释矛盾分母项的意义或者这样做的目的?
解释:首先,我们要知道,最优的步长不仅和当前函数的一次微分值成正比,而且还和当前函数的二次微分值成反比。由于计算二次微分代价较高,我们这里其实就是想用分母项来预估我们当前函数的二次微分值。


image.png
image.png

RMSProp

Adam

总结

自适应学习率方法中,RMSprop 是 AdaGrad 的延伸,它解决了其学习速度急剧下降的问题,Adam 最后为 RMSprop 增加了偏差修正和动力。就此而言,RMSprop 和 Adam 是非常相似的算法,在相似的情况下,偏差修正有助于 Adam 在优化结束时略微优于 RMSprop ,因为梯度变得更加稀疏。就目前而言,Adam 可能是最好的整体选择。

上一篇下一篇

猜你喜欢

热点阅读