paper note

Identity Mappings in Deep Residu

2018-01-16  本文已影响0人  梅八哥

https://arxiv.org/pdf/1603.05027.pdf

本文是对于ResNet进一步的分析,并且做了结构上的小小改动,使模型的性能更好。先看一下做的小小改动吧:

    文中先是解释了一下ResNet之所以work的原因是因为由于Residual Unit的存在,feature间数值的传递可以表达为以下的形式:

    所以在梯度传递时,表达形式为:

    这样保证了梯度可以被传递到任意的浅层。而不会在经过重重weights的剥削后消失。

    而当identity shortcut有其他参数介入的情况下,梯度传播就会变为:

这样又会导致梯度的指数倍的膨胀和消失,是不利于梯度传导的。

除了理论上的推导意外,作者当然也尝试了不同的connect方法来做实验,模型结构变化如下:

不同的连接结构 不同连接的error

可以看出新的connect结构的效果都不如原有的结果,这也和理论推导的结论是相同的。

此外,作者继续探索了activation对于模型的影响,不同尝试如下:

不同的activation 不同activation的实验结果

可以看出full pre-activation的结构效果超过了原有结构。作者认为是因为原始结构中每个Unit的输出在进入到weights层之前没有经过BN。

上一篇 下一篇

猜你喜欢

热点阅读