EfficientNet: Rethinking Model S

2019-06-17 本文已影响0人 Shiyi001

文章链接：
https://arxiv.org/pdf/1905.11946v2.pdf

motivation

在计算资源受限的情况下，科学家们往往需要精心设计网络模型。在往计算能力更强的计算环境进行迁移时，我们需要增加模型的运算量来提升模型精度，充分利用计算资源。

innovation

一般常见的方法在模型宽度 $w$ , 模型深度 $l$ , 模型输入 $r$ 上进行研究。本文综合考虑了三个方面，提出了简单而有效的compund coefficient方法。

问题定义

一般的神经网络模型由多个相似的stage组成（如ResNet），每个stage中又包含一些常见操作（conv，bn，relu等），因此一般的模型可以描述为：

$N = \bigodot_{i=1}^{s}f_{i}^{L_i}(X_{(H_i, W_i, C_i)})$

在不改变模型结构的前提下，要扩大模型计算量，我们需要在模型宽度 $w$ , 模型深度 $l$ , 模型输入 $r$ 进行考虑，形式定义如下：

$\begin{eqnarray*} \max_{d,w,r} && Accuracy(N(d,w,r)) \\ s.t. N(d,w,r) &=& \bigodot_{i=1}^{s} \hat{f}_{i}^{\hat{L}_i}(X_{(r*\hat{H}_i, r*\hat{W}_i, w* \hat{C}_i)}) \\ Memory(N) &<=& target_memory \\ FLOPS(N) &<=& target_flops \end{eqnarray*}$

两个发现

1 单独改变三个变量中的一个，准确率的增益会逐渐变小甚至消失。
2 为了更好地平衡准确率和效率，需要平衡地改动三个变量。

发现一

发现二

Compound Scaling Method

该文章提出了一个准则，只需要按照这个准则，就可以非常有限地扩大网络：

$\begin{eqnarray*} depth: & d = \alpha^{\phi} \\ width: & w = \beta^{\phi} \\ resolution: & r = \gamma^{\phi} \\ s.t. & \alpha * \beta^2 * \gamma^2 \approx 2 \\ & \alpha \geq 1, \beta \geq 1, \gamma \geq 1 \end{eqnarray*}$