论文阅读笔记:How to strat training: th

2020-05-22  本文已影响0人  抄书侠

摘要

本文研究了深度ReLU网络早期训练中出现的两种常见失败模式。对每个失败模式,我们都给了严谨的证明何时和为何会发生,包括全连接、卷积神经网络和残差网络。我们表明第一种失败模式,可以通过初始化具有方差为2/fan-in的对称分布的权重,并通过对ResNets正确缩放残差模块来避免第一个故障模式。我们证明一旦避免了第一种故障模式,第二种故障模式即激活长度的指数变化就不会发生在剩余网络中。相反,对于完全连接的网络,我们证明可以通过保持层宽度的倒数和不变而避免这种故障模式。我们通过实验证明了我们的理论结果在预测网络何时能够开始训练方面的有效性。特别的,我们注意到很多流行的初始化都无法满足我们的标准,而正确的初始化和体系结构则允许训练更深层次的网络。

引言

本文研究的是达到 better-than-chance的表现问题:
(FM1):最后一层的平均长度尺度随着深度指数增长/减小
(FM2):实验中长度尺度经过层后方差随着深度增长

我们主要的贡献和结论如下:

全连接的FM1在之前的文献中已经被研究过了。训练可能会很难启动,在这种失败的模式中,因为网络输出的区别可能会超过机器精度。对于ReLU激活值,FM1被观测到可以通过He的初始化方式所克服。我们严格证明了这一事实(见实验5,6).我们通过实验发现对于不好的初始化,训练随着网络加深更容易失败。

很少有文献研究残差网络中的FM1.我们证明对于残差网络来说,避免FM1的关键是正确的缩放每一块残差块的贡献。没有这一步,我们发现在实验上来说是很难训练深层的残差网络的。

FM2更加微妙,似乎还没得到广泛研究。我们发现FM2的确会妨碍早期训练。让我们提到两种可能的解释。第一,如果在不同层的激活值的方差很大,那么有些层将可能会有超越机器精度的特别大或者特别小的激活值。其次,SGD反向传播在指定层更新权重时包括一个依赖于之前层的因子。一个非常小的权重更新实际将其保持在其随机初始化的值。一个非常大的更新实际上会重新随机化W。因此我们推测FM2会导致参数更新的随机性超过训练损失的影响。

上一篇 下一篇

猜你喜欢

热点阅读