3.2 ThunderNet思考

2019-05-02 本文已影响0人深度学习模型优化

1 设计思想

ThunderNet的优化目标是二阶段检测器中计算开销大的结构。

在backbone部分，设计了轻量级网络SNet；
在detection部分，借鉴Light-Head R-CNN的思路，并进一步压缩RPN和R-CNN子网络。
为了避免性能的衰退，设计了2个高效的结构CEM和SAM来改善性能。

图1 ThunderNet网络架构

ThunderNet的输入是 $320 \times 320$ 分辨率的图像。

Backbone部分，采用SNet，SNet基于Shuffle Net V2修改得到的。
Detection部分，利用了压缩的RPN网络，从Light-Head R-CNN的轻量化head方法，来提高计算效率。
- Context Enhancement Module（CEM），整合局部和全部特征增强网络特征表达能力。
- Spatial Attension Module（SAM），引入来自RPN的前后景信息用于优化特征分布。

backbone部分：

考虑到ShuffleNet V1/V2限制了感受野，ShuffleNet V2和MobileNet V2缺乏浅层特征，Xception在算力低的情况下缺乏深层特征。作者对ShuffleNet V2进行了改进，这里的backbone网络称为SNet（为了检测目的单独设计）。

图2 SNet的网络结构

SNet49用于更快的推理，SNet535用于更好的精度，SNet146用于更好的速度/精度权衡。

detection部分：
为了与backbone网络匹配，作者改进了light-head R-CNN的head部分，主要设计了两个模块。

图3 Context Enhancement Module

CEM合并三个尺度的特征图。

尺度一：C4特征图上应用 $1\times 1$ 积以将通道数量压缩为 $\alpha \times p \times p = 245$
尺度二：C5进行上采样 + C5特征图上应用 $1\times 1$ 卷积以将通道数量压缩为 $\alpha \times p \times p = 245$
尺度三：Cglb进行Broadcast + Cglb特征图上应用 $1\times 1$ 卷积以将通道数量压缩为 $\alpha \times p \times p = 245$