残差神经网络 - ResNet50

2019-11-21  本文已影响0人  是风车大渣渣啊

上周写论文的时候,引用了一下恺明大神的ResNet,发现引用量已经到了32888了。柠檬精附体了……现在来回味经典~

万能近似定理已经说明了深度神经网络的强大之处,只要有一个足够宽足够神的非线性神经网络,可以以任意精度的近似模拟一个可测映射函数。然而,臭名昭著的梯度消失(爆炸)问题,让我们认识到现实:随着深度的增加,网络表示能力增强的同时,训练的难度也在增加。于是,恺明大神为我们带来了ResNet

ResNet v1

paper在这里

shortcut

ResNet的贡献之一,就是残差结构H(x)=F(x)+x

Res block.png

上图中,假设拟合目标函数为H(x),非线性的叠加层为F(x),一般的做法是,使F(x)逼近H(x)。而残差结构中,使用F(x)的方式,逼近H(x)-x

在反向传播过程中,求解每层参数的梯度,需要通过链式求导法则由深层到浅层,浅层参数的梯度中包含深层梯度的累乘。而在深度较大的神经网络中,连续的累乘极易导致梯度过小或者过大,造成浅层网络的权重难以正常更新。造成深度网络的学习能力退化的现象。
为了解决网络退化,恺明大神提出了残差结构,这种结构有两个好处:

Identity 和 Bottleneck

含有shortcut的残差结构可以解决在深度增加时的网络退化问题。在进行shortcut连接时,需要保证张量xF(x)具有相同的尺寸,然而,我们在进行网络结构设计时,倾向于在浅层网络使用较少的通道,在深层网络,采用更大的通道提取更加抽象的特征。为了在网络中使用不同的通道数,恺明大神带来了两种可选的结构:Identity 和 Bottleneck。

ResNet v2

待定。

上一篇 下一篇

猜你喜欢

热点阅读