[Paper Share - 2]Learning Transf

2017-11-27 本文已影响259人少侠阿朱

导读：
论文出自Google Brain，是对前一篇论文的改进,前一篇文章讲述了用RNN去搜索一个最好的网络结构，而这篇文章认为之前的搜索空间太大，效果不好，所以改成搜索CNN的效果最好的conv cell。再用这些conv cell来构建一个更好的网络。
链接：https://arxiv.org/abs/1707.07012

1.Introduction

在ImageNet上学习到的分类网络，其特征迁移到其他任务时，往往能获得更好的效果。但是如果将前一篇文章提出的NAS直接在ImageNet上训练，则计算量非常大。所以作者就想在CIFAR-10上训练得到一个比较好的网络，然后迁移到ImageNet上也能获得很好的效果。为了能完成这种迁移，作者设计一个与网络深度和图片大小无关的搜索空间。所以，作者觉得CNN网络都是由卷积层构成的，搜索最好的CNN结果可以退化为搜索一个好的CNN的Cell。

2.Method

因此作者重心放在设计一个Cell的搜索空间。文中提出两种Cell：Normal Cell 和 Reduction Cell。Normal Cell是输入输出大小不变，而Reduction Cell的输出的height和width为原来的一半。网络则由两种不同的Cell叠加构成，如图：

网络结构
网络结构有两个可变参数，N是Normal Cell的叠加个数，另外一个是每个Cell里面的卷积核的个数。这两个数并不是学习到的，而是人为指定的。后面作者分别用N=4和N=6做了实验。另外作者提到一个通识，为了使得某层的隐藏状态基本不变，我的理解是大概使得表征能力没有下降，所以在某一层的输出变小时，需要增加该层的滤波器个数，使得输出基本维持稳定。

We use a common heuristic to double the number of filters in the output whenever the spatial activation size is reduced in order to maintain roughly constant hidden state dimension

下面说说怎么用RNN控制器构建一个Cell。每个Cell有两个输入hi,hi-1，每个Cell包含5个Block，其中每个Block如下图右侧。其中每个Block需要进行五种操作，这五个操作由RNN控制器给出。如下图左侧，预测。

Block的产生

这五个操作从如下选项中选出。

block的可选操作
block构建好后，block的输出就可以作为下一个block构建时的可选hidden state输入。至于为什么一个Cell包含5个block，作者没有做实验，只是说他们用了这个效果比较好。
由实验知道，最后效果最好的Cell是如下结构，作者称为NASNet-A。留意后面关于NASNet-A的实验。