四月份论文列表
-
2019.4.5
Attention to Scale: Scale-aware Semantic Image Segmentation
这篇是2015年cvpr的文章,虽然发表时间比较早,但是没看作者时就觉得这篇文章写得很好,提出的attention to scale算是比较开创性的,最后看到一作,才发现原来是deeplab系列的一作,果然是大佬。文章内容的话,从现在的角度来看,其实不是很难理解。前一段时间一篇cvpr19的paper叫SK-Net,提出了一种多支路的融合方式,讲的很玄,其实说穿了就是attention to scale。主要是针对语义分割中的多支路的share-net这一类方法,多支路融合不是简单的相加,而是经过一个attention module学习一个不同的支路的attention分配,在每个位置进行softmax之后对原特征加权求和。 -
2019.4.8
Path Aggregation Network for Instance Segmentation
这篇文章是2018年商汤做实例分割的,主要是FPN的延续。论文中贡献点写的比较杂乱,个人觉得比较有意义的也就是Adaptive feature pooling,原来FPN中得到不同level的特征图后,将不同大小的proposal分配给不同的特征图,听起来就比较麻烦,而且道理上也不太讲得通,大的proposal不一定就是语义信息弱的,小的proposal也不一定就是语义信息强的。因此,干脆所有proposal都分配给所有的特征图,最后做一个上采样融合。至于说top-down之后又加了一条bottom-up aggregation,可能的优势就是把长路径变得更长了,感觉这个insight不是很强,属于单纯增加路径长度的,网络变深了,精度也就高了。
-
2019.4.9
RefineNet
RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation
这篇文章发表时间比较早,是2016年的工作。主要是解决语义分割中视野域和分辨率不能兼得的问题。另一个解决方案是dilated conv,但是这种卷积计算量和显存占用都比较大,而且实际应用时不能像论文中说的处理分辨率为原图1/4的特征图,最多到1/8。refinenet就是利用逐步融合的想法,bottom-up结合too-down的特征传播,跟FPN的连接方式很像,跟U-Net的区别就是上采样没有采用反卷积。问题就是,融合的方式麻烦了一点。不过,论文中有一个问题就是没有写计算量和显存占用,我感觉采用那么多卷积的融合方式,参数量也不会少。
这两天看的几篇multi-branch文章基本上都在讲short-range和long-range相互补充,比如PANet就是延长了long-range的长度,RefineNet也是这么讲的。这也可以用作之后工作的一个解释。
-
2019.4.17
Deep High-Resolution Representation Learning for Human Pose Estimation
用来做human pose的一篇文章,不过感觉基本上这些不同任务最后都会归结到分类上。每个key-point生成一张原图大小的heatmap,跟分割有点像。所以也可以拿来看看。比较特别的就是连接方式,跟其他的方法不同,原图大小(好像也不是,可能是四分之一)的特征图一直在传递,不同分辨率之间相互增强,最后只用最大的分辨率进行预测。就是相互增强的方式可能会有点用,插值+conv1x1. 据说反卷积会造成空洞,这种做法倒是也可以避免引入反卷积。
有一张图挺有意思的,总结了一下现在的bottom-up top-down方法,可以观赏一下。
P.S. 吐槽一下,全文都是low-to-high和high-to-low,看得我头都大了,就不能说bottom-up和top-down吗~~
-
2019.4.18
本文的结果,注意EncNet的结果
High-Resolution Representations for Labeling Pixels and Regions
上一篇工作的延续,拿来做分割和检测了。改动很小,只是把所有分辨率的分类结果都拿来融了一下,这也很正常,这个方法本来就比较适合做这类任务。实验量感人,到底是有卡的人。然而实验结果存疑,别的我没怎么看,只看了在pascal-context上的结果,miou报了59类和60类的,两个指标全都是SOTA,可是一部分baseline只报了59类,另一部分只报了60类。别的不说,encnet的原论文里两个结果都给了,60类的是比本文的方法高的,然而文章却没有展示这个结果。并且,encnet原文中只训了50epoch,不到两万次迭代,初始学习率0.001,本文6万次迭代,初始学习率0.004,怎么59类的miou就可以直接抄encnet原文的呢?放图:
EncNet59类
注意,下图中refinenet的结果和本文给的refinenet的结果是一样的,可是encnet的结果本文却没放,很迷啊~~~
EncNet60类
FishNet: A Versatile Backbone for Image, Region, and Pixel Level Prediction
这篇文章是万里老师组做的一个backbone的工作。感觉自从imagenet竞赛不办了以后,做backbone的文章就越来越水了,影响力也越来越小。不过这篇文章insight还是有的,主要关注于resnet系列和densenet系列为了方便梯度优化,一个引入了identity connection,一个直接把low-level的特征concat到高层。然而,由于下采样是不可避免的,因此实际上并没有那个底层的特征可以不经过变换直通到最后,也就是存在isolated convolution。因此,文章提出一个像鱼一样的结构,在body和head之间存在几条通路是可以直连的。网络连接比较复杂,可能受分割的启发更大一些。不过宗旨还是没变的,只是相比于resnet和densenet,这篇文章把shortcut这种想法进一步发挥了一下。
-
2019.4.25
More is Less: A More Complicated Network with Less Inference Complexity
这篇文章是颜老板他们17年发在cvpr上的一篇文章,主要做的是模型加速(还是稀疏编码来着)。用一个小网络预测为0的位置(这里需要用relu来把负值都变成0),跟原特征图进行点乘。因为矩阵是稀疏的,所有为0的位置都不用乘了(可能是caffe底层这么写的),节省了很多计算量。能借鉴的就是用一个小网络预测每个位置的attention,可是基本上现在都这么搞了,还是用不上。
不过,这篇文章还简单说了一下caffe卷积是怎么实现的,就是把矩阵展开,卷积操作变成矩阵乘法,提高并行度,空间换时间。输入特征U是XYC大小,卷积核W是kxkxCxT,对于U*来说,就是把每次移动卷积核覆盖到的kkC个值变成一行,一共移动XY次,卷积核每个大小kkC,一共T个。
-
2019.4.27
Deformable Convolutional Networks && Deformable ConvNets v2: More Deformable, Better Results
没有很认真的看,细节方面没怎么看明白,工作是很好的工作,很硬核。主要是在原有卷积的基础上,学习一个offset,对卷积进行变换,使其覆盖到的区域为可形变的;除此之外,还搞了一个deformable ROI pooling,基本原理差不多,不过感觉实现起来都比较困难。至于v2,就没什么好说的了,做的特征图可视化比较有意思。
Pay less attention with lightweight and dynamic convolutions
这篇文章里提出了dynamic卷积,主要是去解决nlp中self-attention计算量的问题。对于每个time step,直接根据这个位置的输入进行预测,而不需要参考global的信息,每个位置的kernel参数是根据这个位置的输入进行动态学习的,卷积核采用共享参数的深度可分离卷积。很神奇的地方在于,没有global aggregation,效果反而比self-attention更好。可能因为self-attention还是会带来更多的冗余吧。当然,如果能把这两者的优势结合起来,就更好了。
An Empirical Study of Spatial Attention Mechanisms in Deep Networks
这篇也是代老师组的工作,方法上没什么创新,只是把现有的一些比较好的方法作了一下统一,包括self attention,transformer attention,普通conv,dynamic conv,deformable conv。提出self attention应该包括四个factor,目前的self attention只包含了第一项,即query content & key content。在这四项上对以上方法分别进行了形式上的统一,最后做了众多消融实验,这个我也没认真看。