MobileNets: Efficient Convolutio

2020-02-29 本文已影响0人晨光523152

这篇文章是 Google 在2017年发表的。

Abstract

提出了一个叫做 MobileNets 的用于手机和嵌入视觉应用的有效模型。MobileNets 是用可分离卷积构建的精简架构的轻度深度神经网络。文章介绍了两个全局超参数来平衡延迟性和准确性。

Introduction

目前有个趋势：越来越深并且越来越复杂的模型来获得更高的准确率。

但是，这些提高准确性的进步并不一定会使网络在大小和速度方面都更加高效。在许多现实世界的应用中，例如机器人技术，自动驾驶汽车和增强现实，识别任务需要在计算受限的平台上及时执行。

因此，这篇文章提出了一个小的，低延迟的模型来满足在移动设备和嵌入视觉应用。

Prior Work

通常可以将许多不同的方法归类为压缩预训练网络或直接训练小型网络。

MobileNets 主要聚焦与优化延迟但是也能得到一个小的神经网络。

MobileNets主要是从深度方向可分卷积中构建的，在Inception模型中使用，以减少前几层的计算量。

Flattened networks 由完全分解的卷积构建网络，并显示了高度分解的网络的潜力。

Factorized network 引入了类似的分解卷积以及拓扑连接的使用。

Xception network 演示了如何按比例扩展深度可分离的滤波器，以执行Inception V3网络。

Squeezenet 使用瓶颈方法设计了一个非常小的网络。

一些减少计算量的网络包括 structured transform networks 和 deep fried convnets。

获得小型网络的另一种方法是缩小，分解或压缩预训练的网络。

在文献中已经提出了基于乘积量化，散列以及修剪，矢量量化和霍夫曼编码的压缩。

另外，已经提出了各种因式分解来加速预训练的网络。

训练的另一种方法小型网络是蒸馏，它使用较大的网络来教授较小的网络。

MobileNet Architecture

Depthwise Separable Convolution

MobileNet模型基于深度可分离卷积（depthwise separable convolutions），它是分解卷积的一种形式，它将标准卷积分解为深度卷积和称为点向卷积（pointwise convolution）的1x 1卷积。

一个标准的卷积既可以过滤又可以将输入合并为一组新的输出。
假设一个输入为 $D_{F}\times D_{F}\times F$ 的特征图 $\mathbf{F}$ ，输出为 $D_{G}\times D_{G} \times N$ 的特征图 $\mathbf{G}$ ，核 $\mathbf{K}$ 的规模为 $D_{K}\times D_{K} \times M \times N$ 。
计算方式为：