寒假读论文列表
2019-01-28 本文已影响31人
nowherespyfly
- 2019.1.26
SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS
优化图卷积,通过切比雪夫多项式近似,不需要做特征分解和矩阵乘法,降低复杂度。 - 2019.1.27
DPN
两个支路,一个resnet,一个densenet。
DenseNet
所有层之间密集连接,相当于增加网络的宽度,还便于反传梯度。
Large kernel matters
解决语义分割中classification和localization难以同时满足的问题,通过:1)不使用pooling等破坏局部信息的操作; 2)使用large kernel扩大视野域。 - 2019.1.28
Attention is all you need
只用self-attention,避开cnn和rnn的模块,对输入进行特征提取。好处是可以并行对序列数据进行特征提取,利用multi-head attention模块达到了并行性。有效证明不通过卷积或rnn模块,只使用self-attention,一样可以利用attention对空间信息进行提取和融合。
2019.2.19 今天突然明白了文中的Q,K,V是什么意思。attention可以看成一个检索过程。信息以key-value的形式存放起来,检索时用query跟key进行匹配,匹配成功得到key对应的value。匹配时采用相似度进行度量,K和Q越接近,得到value的权重越大。因此,比如说从中文翻译到英文,那么K就是中文,Q就是英文,计算每个汉字对英文的attention,也就是计算Q和K的相似度,归一化后得到attention(看成一种权重),用attention对整个中文句子进行加权,则V也是中文句子,在这里,K和V对应的是同一个对象。这就是下面这张图的含义。
- 2019.1.31
Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs
关注zero-shot识别,利用GCN的方法比较另类,可能是受nlp中entity classification的启发,并且,GCN被用于做semi-supervised分类,而zero-shot恰好属于semi-supervised。GCN每个node代表一个category,输入是每个category的word embedding,输出是每个category的分类器(应该是一个D维单层感知机)。显式利用knowledge graph,有关系的category之间连一条无向边。
Non-local - 2019.2.1
2019年进度条已经走了1/12了,异常紧张。。。
Videos as Space-Time Region Graphs
这篇将gcn运用到视频分类上。启发应该是relation预测,套路也很像,先用rpn生成proposals,做ROI align后max pooling成1x1xd大小的特征,作为图卷积的输入。处理特征使用了3D卷积核,这个还没有详细了解过。图的邻接矩阵编码方式是基于图本身内容的,1)similarity relation,计算每两个node之间的相似度,将相似度矩阵作为图的邻接矩阵,这个是编码了同一(尽量吧)object的状态变化以及object之间的长时依赖关系;2)spacial & temporal relation,计算相邻两帧每两个node对应bbox的iou,iou作为邻接矩阵值,这个编码了object在相邻空间和时间上的关系。最后不同的子图输出相加作为图卷积最终输出。
属于non-local的后续,文中也比较了non-local和similarity graph,基本上similarity graph添加一个residual connection就是non-local了。总算知道为什么要搞shortcut了。。。不过直接将图卷积运用在视频上,是跳过了图片吗。。。 - 2019.2.4
感冒高烧了两天,挂了一天水吃了好几包退烧药终于缓过来了,然而还是疯狂咳嗽,慢慢痊愈吧。。。
今日论文:
Squeeze-and-excitation networks
这篇文章做的是通道的attention,目的是在cnn的视野域限制下,在浅层就获得全局的context信息。具体做法为,对每一层的特征做一次通道内的global pooling,随后接一个类似于bottleneck的全连接层,然后对原特征的每个通道做增强(或抑制)。所以,大概的想法就是,有的通道比较重要,就用一个大的数增强,有的通道不重要,就用一个小的数抑制。 - 2019.2.5
今天又开始发烧了,早知道昨天就去再挂一天水了,还疯狂咳嗽,,,,,,,昨天的论文没看完,挪到今天看了,菜狗
Gather-Excite: Exploiting Feature Context in Convolutional Neural Networks
这篇论文是延续SENet的工作的,也是希望在浅层就获取全局的context信息。不同的是,上一篇直接在每个通道的特征得到一个值,这篇尝试获取的是一个张量。文中公式写的很复杂,看不明白,大概意思应该是定义一个extent ratio e,将原来的特征图缩小到之前的1/e,缩小的方法有无参数的average pooling,以及有参数的strided depth-wise convolution。得到缩小的特征图后,将其进行最近邻插值上采样到跟原来一样大,与原特征进行逐元素相乘(Hadamard product)。最后实验验证了不同大小的e,发现还是global的尺寸效果最好。 - 2019.2.8
Graph U-Net
这篇文章好像是被拒了,不过老板让看就看看了。主要是定义了graph的pooling和unpooling操作,从而可以在graph上定义类似U-Net的encoder-decoder结构,可以用于每个元素的分类任务(不过原本gcn就是可以做每个元素分类的,不知道这么搞有什么特殊的含义)。pooling操作实际上是对图进行重采样,保留最重要的一部分node,将每个node的特征投影到一个可学习向量p上,选择分量最大的k个node组成新的图,这个可以类比max-pooling,但是它没有邻域的定义,只是选择了全局最重要的k个node。unpooling操作就是一个回填的过程,没有的统统补0。实验结果显示这么搞一个u-net结构做分类,确实比之前提升了不少。
个人对这个方法保留看法,虽然这么做确实提升了精度,在类比cnn做pixel分类上也能讲的通。但cnn中进行pooling是为了扩大视野域,而在这种pooling操作下,gcn是无法扩大视野域的,因其采样并非局部性的,并且,多进行几次特征传播,gcn的视野域就可以扩大到k阶相邻的node。而这种操作的unpooling操作,次数越多,会使得decode之后的graph全0的节点数目越多,肯定会丧失很多的信息。 - 2019.2.9
Convolutional 2D Knowledge Graph Embeddings
想了解一下knowledge graph,就读了一篇相关的,本来以为是用gcn做的,其实不是。
kg研究的对象就是很多个三元组,<s, r, o>,由于graph很大,容易缺失关系,kg做的任务就是预测缺失的关系,即预测一个p(s, r, o)。通常做法是neural link predictor,获取s和o的embedding,将其作为关系r对应函数,即score function的两个输入,输出p。本文的方法就是属于这一类,不过是把二维卷积用到了score function中,方法相当简单,据说参数也并不多,可以用到大规模图中。
其实kownledge graph研究的也是relation,不过relation是cv领域,kg是nlp领域,relation研究的是一张图,kg研究的是一个超级大的网络,二者在规模上还是有一些差异。relation应该也可以从kg中借鉴不少东西。 - 2019.2.13
OCNet: Object Context Network for Scene Parsing
这篇文章是在场景分割任务中引入了self-attention。按照作者所说,PSPNet,ASPP都是试图从context角度提升分割性能的,然而由于PSPNet的global pooling其实是基于局部的,比如将某个像素所属的4*4的区域认为成是同一个object的,这是不科学的,因此提升有限。文中提出了object context,将所有属于同一个object的pixel都当做一个像素所属的context,用这个context来对这个像素做特征增强。具体做法是求了一个所有像素的similarity map,然后用它来增强特征。其实还是一个non-local的应用,首先计算特征间的距离,虽然说得是object context,但实际上还是global context,就是直接用了non-local的做法。因此,感觉在方法上没有很大的创新,可能只是在分割领域提出了一种新的解释。 - 2019.2.19
Residual Attention Network for Image Classification
这篇论文是比较早的将attention模块插入到图像分类中的文章。attention类型也属于SENet这一类scale-attention,将特征图通过max-pooling下采样后再上采样放大到原来的尺寸,从而起到增强重要的内容,抑制不重要的内容的作用。区别是整个网络只用了三次attention,本文的attention跨越了很多层,尺度要更大,并且,这里的attention是当成残差加到原来的主干上的,而GENet是直接在原特征上进行操作。 - 2019.2.20
CBAM: Convolutional Block Attention Module
这篇文章是直接将SENet的想法同时在channel和spatial上进行,channel上的attention就是SENet,spatial上的attention也是一样的先做channel pooling再上采样成一张attention map,再乘到channel attention增强后的特征上。唯一的一点改进就是同时用了max-pooling和avg-pooling,而SENet里只用了avg-pooling。文章还探索了其他结构,如两个attention支路并行,或者两个交换一下顺序,发现还是串行,channel在前效果最好。
从明天起,这篇文章就不会再更新啦,我开学了。。。。。