MixConv: Mixed Depthwise Convolu

2019-08-23  本文已影响0人  HAKUNAMATA_cec3

Paper Reading Note

URL: https://arxiv.org/abs/1907.09595

TL;DR

传统Depthwise conv使用相同大小的卷积核,本文提出一种包含多种大小卷积核的Depthwise conv,方法简单有效,同flops和同param量下可以获得SOTA性能。


Information below is optional; you can change/remove it if you like

Dataset/Algorithm/Model/Experiment Detail

Motivation

对于传统的Depthwise conv,如果简单增大kernel size,模型性能会先提升后降低,这也符合直觉:极限情况下,当kernel size等于输入feature map size,那么网络就等同于全连接网络,性能会降低。以下是MobileNet当使用不同kernel size时候的acc曲线。

image

基于以上现象,作者思考在Depthwise的conv中结合多种大小的kernel,从而既可以利用大卷积核结合high-resolution patterns,又可以利用小卷积核结合low-resolution patterns,从而兼顾模型性能和运行效率。

MixConv

image

如图,做法很直接,就是将输入Tensor的channel分成不同的group,每个group使用不同的kernel size,group内部就相当于传统的Depthwise conv,然后将结果concat到一起作为输出的Tensor。这可以作为一种opr替换掉传统的Depthwise conv。实现也很简单,如下:

image

对比使用传统Depthwise conv的MobileNet,在使用大卷积核时,模型性能不会降低。

image

MixConv Design Choices

将MixConv加入网络,可以调的参数有:

MixNet

作者对使用MixConv的网络,用NAS(neural architecture search)搜了一族网络结构,称为MixNet。可以在 ImageNet及各种transfer learning的数据集上取得了SOTA性能。网络结构如下:

image image

Experiments

Thoughts

一个简单的改进,可以获得较大的性能提升。但是隐隐感觉这个网络在实际设备上运行latency会不如其他移动端网络,虽然flops小。

上一篇 下一篇

猜你喜欢

热点阅读