网络学习系列(四)ResNet

2018-12-19  本文已影响0人  叶天羽

要解决的问题:

更深的网络难以训练。对于深层的网络可能会出现的梯度消失与梯度爆炸的问题,但是随着初始标准化与中间层标准化操作的出现,已经得到了很好的解决,然而,实验结果表明,深层网络与浅层网络相比误差还要要高,所以文章重点在于使网络变得更深而结果不至于比原来还差。

相关信息:

1、理论上来说,深层网络结果不应该比浅层网络的效果还差。假设浅层的网络已经优化的不错了,那么此时更深的隐藏层只要做一个恒等映射即可。实验结果显示,深层的网络效果反而更差,说明传统网络结构很难学习到恒等映射。

2、对于优化问题来说,学习残差映射要比直接学习映射要更加容易优化。假设输入是x,要学习的理想映射为H(x),现在想要用一些堆叠的非线性层F(x)来直接拟合H(x)
可能会存在困难,但如果来拟合H(x)-x就要容易的多,所以有F(x):=H(x)-x,残差结构的输出为F(x)+x

解决方法:

1、设计的残差结构如下所示:

2、残差块可以如下表示:y = F(x,{W_i}) + x,我们必须保持F函数输出的维度跟x的一致,不过不一致也没有关系,我们可以通过如下的映射将x转变为跟F一样的维度:y = F(x,{W_i}) + {W_s}x,这里文中用的是一种线性变换,即使用了1*1的卷积核来进行改变维度。

一般来说,残差结构包含两个或三个卷积块,如果只有一个文章没有发现优势。

3、网络结构示意:

上一篇 下一篇

猜你喜欢

热点阅读