CVPR2016:ResNet 从根本上解决深度网络退化问题

2020-02-13 本文已影响0人 CristianoC

深度残差网络（Deep residual network, ResNet）的提出是CNN图像史上的一件里程碑事件，在2015年提出的时候便取得了五项第一，而何恺明大神也凭借这一paper斩获CVPR 2016 Best Paper Honorable Mention。

对于卷积神经网络，深度是一个很重要的因素。深度卷积网络自然的整合了低中高不同层次的特征，特征的层次可以靠加深网络的层次来丰富。因此在构建卷积网络时，网络的深度越高，可抽取的特征层次就越丰富越抽象。所以一般我们会倾向于使用更深层次的网络结构，以便取得更高层次的特征。但是更深层的网络结构真的带来了更好的表现吗？我们看下面这张图：
image
可以看到，拥有56层数的网络结构表现明显差于拥有20层数的网络结构，造成这一现象的原因大概有：过拟合、梯度消失/爆炸和深度网络的退化，我们来一一剖析。

过拟合

对于这一点答案是显然的，因为过拟合会让网络在训练集上表现得很好，而从上图我们可以看出，无论是在训练集还是测试集中，拥有更深层次的网络表现均比浅层次的网络差，那显然就不是过拟合导致的。

我们先简单回顾一下概念：梯度消失/爆炸是因为神经网络在反向传播的时候，反向连乘的梯度小于1（或大于1），导致连乘的次数多了之后（网络层数加深），传回首层的梯度过小甚至为0（过大甚至无穷大），这就是梯度消失/爆炸的概念。
但我们知道，如今我们已经习惯加入BN层（Batch Normalize），他可以通过规整数据的分布基本解决梯度消失/爆炸的问题，所以这个问题也不是导致深层网络退化的原因。

我们选择加深网络的层数，是希望深层的网络的表现能比浅层好，或者是希望它的表现至少和浅层网络持平（相当于直接复制浅层网络的特征），可实际的结果却让我们大吃一惊（深度网络退化），接下来我们深究一下导致深度网络退化的原因。

在MobileNet V2的论文中提到，由于非线性激活函数Relu的存在，每次输入到输出的过程都几乎是不可逆的，这也造成了许多不可逆的信息损失。我们试想一下，一个特征的一些有用的信息损失了，那他的表现还能做到持平吗？答案是显然的
image
我们用一个直观的例子来感受一下深层网络与浅层网络持平的表现：

image

我们把右边的网络理解为左边浅层网络加深了三层（框起来的部分），假如我们希望右边的深层网络与左边的浅层网络持平，即是希望框起来的三层跟没加一样，也就是加的三层的输入等于输出。我们假设这三层的输入为 $x$ ，输出为 $H(x)$ ，那么深层网络与浅层网络表现持平的直观理解即是： $H(x)=x$ ，这种让输出等于输入的方式，就是论文中提到的恒等映射（identity mapping）。
所以ResNet的初衷，就是让网络拥有这种恒等映射的能力，能够在加深网络的时候，至少能保证深层网络的表现至少和浅层网络持平。

通过对深度网络退化问题的认识我们已经明白，要让之不退化，根本原因就是如何做到恒等映射。事实上，已有的神经网络很难拟合潜在的恒等映射函数 $H(x) = x$ 。但如果把网络设计为 $H(x) = F(x) + x$ ，即直接把恒等映射作为网络的一部分，就可以把问题转化为学习一个残差函数 $F(x) = H(x) - x$ .只要 $F(x)=0$ ，就构成了一个恒等映射 $H(x) = x$ 。而且，拟合残差至少比拟合恒等映射容易得多（后面第三部分会解释）。我们看一下残差结构与正常结构对比图：
image
我们可以看到，残差结构比正常的结构多了右侧的曲线，这个曲线也叫作shortcut connection，通过跳接在激活函数前，将上一层（或几层）的输出与本层输出相加，将求和的结果输入到激活函数作为本层的输出。
我们从数学的角度来看残差结构，假设残差结构的输入为 $x$ ,则输出 $H(x)$ 等于： $H(x)=F(x,{W_i})+x$
其中 $F(x,{W_i})$ 就是我们要学习的残差，我们把 $x$ 移到等式的左侧，残差就等于 $H(x)-x$ ，以上图为例，残差就是中间有一个Relu激活的双层权重，即：
$F=W_2\sigma(W1_x)$
其中 $\sigma$ 是Relu激活函数，而 $W_1,W_2$ 是指两个weight layer。

首先给大家一个我自己的理解：我觉得加了残差结构后就是给了输入 $x$ 多一个选择，在神经网络学习到这层的参数是冗余的时候它可以选择直接走这条“跳接”曲线，跳过这个冗余层，而不需要再去拟合参数使得输出 $H(x)$ 等于 $x$ 。
因为学习残差的计算量比学习输出等于输入小。假设普通网络为A，残差网络为B，输入为2，输出为2（输入和输出一样是为了模拟冗余层需要恒等映射的情况），那么普通网络就是 $A(2)=2$ ，而残差网络就是 $B(2)=F(2)+2=2$ ，显然残差网络中的 $F(2)=0$ 。我们知道网络中权重一般会初始化成0附近的数，那么我们就很容易理解，为什么让 $F(2)$ （经过权重矩阵）拟合0会比 $A(2)=2$ 容易了。
我们知道ReLU能够将负数激活为0，而正数输入等于输出。这相当于过滤了负数的线性变化，让 $F(x)=0$ 变得更加容易。
我们知道残差网络可以表示成 $H(x)=F(x)+x$ ，这就说明了在求输出 $H(x)$ 对输入 $x$ 的倒数（梯度），也就是在反向传播的时候， $H'(x)=F'(x)+1$ ，残差结构的这个常数1也能保证在求梯度的时候梯度不会消失。

先上网络的结构图，左到右分别是VGG，没有残差的PlainNet，有残差的ResNet，我们从这张图也可以感受当年ResNet对VGG的统治力：

image
细心的读者会发现，在ResNet中有的跳接线是实线，有的跳接线是虚线。虚线的代表这些模块前后的维度不一致，因为去掉残差结构的Plain网络还是和VGG一样，也就是每隔n层进行下采样但深度翻倍（VGG通过池化层下采样ResNet通过卷积）。这里就有两个情况：
空间上不一致时，需要给输入的X做一个线性的映射： $H(x)=F(x,{W_i})+x -> H(x)=F(x,{W_i})+W_sx$
深度上不一致时，有两种解决方法，一种是在跳接过程中加一个1×1的卷积层进行升维，另一种则是直接补零（先做下采样）。试验后发现两种方法都可以。
针对比较深的神经网络，作者也考虑到计算量，会先用1×1的卷积将输入的256维降到64维，然后通过1×1恢复。这样做的目的是减少参数量和计算量。
image