Identity Mappings in Deep Residu

2018-01-16 本文已影响0人梅八哥

https://arxiv.org/pdf/1603.05027.pdf

本文是对于ResNet进一步的分析，并且做了结构上的小小改动，使模型的性能更好。先看一下做的小小改动吧：

文中先是解释了一下ResNet之所以work的原因是因为由于Residual Unit的存在，feature间数值的传递可以表达为以下的形式：

所以在梯度传递时，表达形式为：

这样保证了梯度可以被传递到任意的浅层。而不会在经过重重weights的剥削后消失。

而当identity shortcut有其他参数介入的情况下，梯度传播就会变为：

这样又会导致梯度的指数倍的膨胀和消失，是不利于梯度传导的。

除了理论上的推导意外，作者当然也尝试了不同的connect方法来做实验，模型结构变化如下：

不同的连接结构

不同连接的error

可以看出新的connect结构的效果都不如原有的结果，这也和理论推导的结论是相同的。

此外，作者继续探索了activation对于模型的影响，不同尝试如下：

不同的activation

不同activation的实验结果

可以看出full pre-activation的结构效果超过了原有结构。作者认为是因为原始结构中每个Unit的输出在进入到weights层之前没有经过BN。