Inception V3 论文学习记录

2022-01-10 本文已影响0人砥砺前行的人

原文：Rethinking the Inception Architecture for Computer Vision

论文同时提出来 Inception V2 和 Inception V3，它聚焦在提升模型准确率的前提下，还追求了计算效率和能耗等移动设备上的性能。目标在于充分利用计算效率

通用设计原则

1. 避免过度降维或收缩特征，特别是在网络浅层

降维会造成各通道间的相关性信息丢失，仅反映了稠密的信息

2. 特征越多，收敛越快

相互独立的特征越多，输入的信息分解的越彻底。

3. 3x3 和 5x5 大卷积核卷积之前可用 1x1 卷积降维，信息不会丢失

邻近单元的强相关性在降维过程中信息损失很少。

4. 均衡网络的宽度和深度

两者同时均衡提升，既可提升性能，也可提升计算效率。

大卷积核分解

Inception 模块中运用到了大量的 1x1 卷积，通过先降维再升维的操作，邻近单元的相关性在降维过程中信息损失很少（相邻感受野的卷积结果是高度相关的），在传入大卷积核聚合感受野之前，可以先降维。这样可以有效的减少权重数量，从而减少计算量，最终能做到加速训练，节约内存，从而使用更多的卷积组。
下面是通过两个 3x3 卷积替代 5x5卷积：

这么做大大减少了参数数量，感受野都是5x5，5x5 比 3x3 卷积的计算量高 2.78 倍，第二个3x3 卷积相当于一个全连接网络

应用此方式，将 Inception v1 改写为如下网络：

5x5卷积改为两个3x3卷积

卷积核分解为非对称卷积

将 3x3 卷积分解为 3x1 卷积和 1x3 卷积示意图如下：

Figure 5. 3x3 卷积分解为 3x1 卷积和 1x3 卷积

感受野并未变化。第二层的卷积核相当于一个全连接网络。3x3 其实仍能分解为2个2x2的卷积，但是参数量减少并不多（11%），而通过非对称的卷积分解，能够减少参数量达到 33%。

引入非对称卷积分解：

Figure 6. 非对称分解

Figure 7. 扩展滤波器组

辅助分类器的使用

GoogleNet 有两个辅助分类器，一个在浅层，一个在深层。本论文中指出这两个辅助分类器并不能加快收敛，去掉后并没有影响。

高效下采样技巧

下采样前应该先升维保留更多信息。

Inception 和网格角度图

在扩充通道的同时进行了下采样，有保证了计算的效率。

Inception V2

逐层如下：

网络体系结构大纲

Figure 5：5x5卷积分解为2个3x3卷积
Figure 6：分解为不对称卷积
Figure 7：扩展滤波器组（在宽度方向进行不对称分解），多使用在末层（在 Grid S ize 较小时使用），用该模块扩展特征维度，生成高维稀疏特征。

Label Smooth

Label 使用 one-hot 编码，通过最小化交叉熵损失函数，等效于最大化正确类别的对数似然估计：
$L = - \sum^{k}_{i=1} q_i log(p_i)$
正确类别对应的logit分数会一味增大，直到正无穷，这会导致模型过拟合，鼓励模型过与自信不计一切增大某一类的 logit 分数。

Label Smooth 除了正确答案，会拿出一部分概率平分在其他类别。这样也会减弱过拟合。

one hot to Label smooth