深度学习的优化:理论和算法《Optimization for d

2020-01-21  本文已影响0人  数据小新手

3 梯度下降,使用和基本分析

大量的神经网络的优化算法是基于梯度下降方法的。但是在通常使用过程中,更加常见的方法是SGD(随机梯度下降)每次随机选取样本i,然后更新参数。

3.1 计算梯度(BP)

BP算法是神经网络的重要算法。从最优化的视角来看,这是计算梯度的有效方法。

loss function
F(\theta) = ||y-W^L\phi(W^{L-1}...W^2\phi(W^1x))||^2
其中
z^{L-1}=\phi(h^{L-1}),h^L=W^Lx^{L-1}
其中h^l 称为pre-activation, z^l 称为post-activation.

3.2 Basic Convergence Analysis of GD

关于convergence有很多标准,虽然我们想要迭代收敛的全局最小值,,一个更加通用的描述是每个有限点都是stationary point。 Stationary points 和全局最小点的差异不包括以下情况。序列有超过一个的限制点,限制点不存在。另一个标准是收敛的函数值,如果函数值下届是0并且序列F 是下降,序列肯定会收敛到一个值。

收敛理论:

Lipschitz smooth gradient

如果所有的迭代是有界的,那么合适常有线次迭代部步数会收敛。

bounded Lipschitz constants只能保证收敛,但不能保证收敛速度。一个更严重的问题是Lipschitz 常数可能非常大或者非常小,即使bounded.

上一篇下一篇

猜你喜欢

热点阅读