『Some Improvements on Deep Convo

2019-01-31  本文已影响0人  ktulu7

一 为什么读这篇

起初是从Inception V1的参考文献发现本文的,当时以为这篇是TTA的鼻祖,后来查了下google scholar,发现本文不仅Inception V1有引用,许多其他重磅文章也都引用了该文,包括不限于VGG,He初始化,SSD等等。

二 截止阅读时这篇论文的引用次数

2019.1.30 174次。次数虽然不多,不过引用该文的文章分量都很重。

三 相关背景介绍

13年12月挂在arXiv上,属于AlexNet之后,VGG之前。由Andrew G. Howard一人发表,作者当时还是在一个以自己名字命名的咨询公司,不过现在已经去Google了,并在17年以一作身份发了MobileNets。这哥们也是神奇,这么多年总共就发了这两篇文章。

四 关键词

data augmention

TTA

五 论文的主要贡献

1 提出更有效的数据增强方法

2 说明数据增强(无论是训练时还是测试时)是非常具有普适性的

3 提出简单的贪心算法来减少TTA的数量

六 详细解读

1 介绍

本文基于AlexNet,带来了20%的相对提升。

2 额外的数据变换用于训练

AlexNet做了3种数据增强:

1 从256x256的图像中随机裁剪(crop)224x224的图像,来获取平移不变性

2 水平翻转图像,来获取反射不变性

3 添加随机生成的亮度,来获取亮度变化和轻微颜色变化的不变性

本文增加了变化以扩展平移不变性和颜色不变性。

2.1 将图像裁剪(crop)延伸到额外的像素

首先将短边缩放到256,得到256xN或Nx256的图像,在从中随机裁剪224x224的图像。

tta-fig1.png

2.2 其他颜色操作

随机增加了对比度,亮度和颜色的操作,以生成涵盖图像变化范围的训练样本,帮助网络学习这些属性的不变性。通过随机顺序来选择这3种操作,参数范围为0.5到1.5(1表示不变)。

3 额外的数据变换用于测试

之前的方法结合预测的10种图像变换作为最终预测结果(看来本文并不是TTA鼻祖)。使用中央和4个角的crop,然后做下水平翻转就得到10张图了。本文发现用三种不同尺度预测提升了效果。并用3种不同的视角来预测以捕获之前裁剪丢掉的像素。5个平移,2个翻转,3个尺度和3个视角的组合得到90个预测结果,因此将预测速度降低了近一个数量级。为了解决这个问题,本文用一种贪心算法从中选择10个子集达到了和90个一样好的效果,选择了15个子集的效果甚至比90个还好一点。

3.1 多尺度预测

图像在不同尺度下包含有用的预测。本文用256,228和224三种尺度。需要注意的是缩放时选择一个好的插值算法很重要,本文用bicubic缩放。

3.2 多视角预测

为了充分利用图像上的所有像素做预测,本文生成3种不同的正方形视角图像。对于一个256xN(Nx256)的图像,生成256x256大小的左边(上方),中间,右边(下方)3种视角,然后在每一种视角上应用全部的裁剪,翻转和缩放。

tta-fig2.png tta-table1.png

3.3 减少预测的数量

这个简单的贪心算法刚开始用最好的预测,然后每步增加另一个预测,直到没有额外的提升后停下来。(问题来了,你怎么知道哪个预测的效果最好?)

tta-fig3.png tta-table2.png

4 更高分辨率的模型

图像中的对象可以以不同尺度存在。为了找到更高分辨率下的对象,需要重新以同样的尺度来训练网络效果才会好。在实践中,之前训练的模型可用于初始化更高分辨率的模型,同时将训练时间从90个周期大幅减少到30个周期。

tta-table3.png

4.1 模型细节

之前的模型是从256xN(Nx256)中取的224x224,理论上为了更高分辨率的模型,需要从448xN(Nx448)上取224x224,但实际上不可能这么存图,因此重用了256xN(Nx256)的图,从中采取128x128,然后再缩放到224x224。

另外在高分辨率模型下,这些crop会重叠的更少,因此又增加了中上,中下,左中,右中4种crop。这样预测数量总计162个(9个crop,2个翻转,3个尺度和3个视角)

5 结果

tta-table4.png

七 读后感

非常轻松愉快的读完了,看完了才知道,这个并不是TTA的鼻祖,TTA其实早在AlexNet时就用了,不过本文提出的数据增强方法比AlexNet要更有效。属于那种认真分析了问题,然后提出解决方案的文章。看似没什么多大的创新,但是非常有效。

八 补充

深度卷积神经网络中的升采样

上一篇下一篇

猜你喜欢

热点阅读