什么是梯度消失或爆炸

2022-06-15  本文已影响0人  鹤子青云上

根据反向传播算法和链式法则, 梯度的计算可以简化为以下公式:

其中sigmoid的导数值域是固定的, 在[0, 0.25]之间, 而一旦公式中的w也小于1, 那么通过这样的公式连乘后, 最终的梯度就会变得非常非常小, 这种现象称作梯度消失. 反之, 如果我们人为的增大w的值, 使其大于1, 那么连乘够就可能造成梯度过大, 称作梯度爆炸。

梯度消失或爆炸的危害:

如果在训练过程中发生了梯度消失,权重无法被更新,最终导致训练失败; 梯度爆炸所带来的梯度过大,大幅度更新网络参数,在极端情况下,结果会溢出(NaN值)。

上一篇下一篇

猜你喜欢

热点阅读