AI数学基础20——梯度消失/爆炸及权重初始化
2018-05-24 本文已影响17人
LabVIEW_Python
梯度消失(Gradient Vanishing)就是梯度指数方式变小;梯度爆炸(Gradient Exploding)就是梯度指数方式变大,这都会加大训练难度。
从直观上理解,若权重W只比1略大一点,经过L层网络,激活函数将指数型变大;其相关导数或梯度也会指数型变大;若权重W只比1略小一点,经过L层网络,激活函数将指数型变小;其相关导数或梯度也会指数型变小;
由于

为防止z过大,或过小,一个合理的方法就是每个权重除以一个调整参数,如下

W[l]是指第l层的权重,n[l-1]是指输入给l层的神经元数量,即[l-1]层神经元的数量