计算机视觉中的self-attention

2020-05-13 本文已影响0人 zelda2333

【1】Non-local NN, CVPR2018

CNN中的 convolution单元每次只关注邻域 kernel size 的区域，就算后期感受野越来越大，终究还是局部区域的运算，这样就忽略了全局其他片区（比如很远的像素）对当前区域的贡献。

所以 non-local blocks 要做的是，捕获这种 long-range 关系：对于2D图像，就是图像中任何像素对当前像素的关系权值。

Non-local block

1. 首先对输入的 feature map X 进行线性映射（说白了就是 1*1*1 卷积，来压缩通道数），然后得到 θ，φ，g 特征；

2. 通过reshape操作，强行合并上述的三个特征除通道数外的维度，然后对θ和φ进行矩阵点乘操作，得到类似协方差矩阵的东西（这个过程很重要，计算出特征中的自相关性，即得到每帧中每个像素对其他所有帧所有像素的关系）；

3. 然后对自相关特征进行 Softmax 操作，得到0~1的weights，这里就是我们需要的 Self-attention 系数；

4. 最后将 attention系数，对应乘回特征矩阵 g 中，然后再上扩展channel数(1*1卷积)，与原输入 feature map X 做残差运算，获得non-local block的输出。

神经网络中还有一个常见的操作也是利用的全局信息，那就是Linear层，全连接层将feature map上每一个点的信息都进行了融合，Linear可以看做一种特殊的Non local操作。

Non-local Neural Networks模块依然存在以下的不足：

(1) 只涉及到了位置注意力模块，而没有涉及常用的通道注意力机制

(2) 可以看出如果特征图较大，那么两个(batch,hxw,512)矩阵乘是非常耗内存和计算量的，也就是说当输入特征图很大存在效率底下问题，虽然有其他办法解决例如缩放尺度，但是这样会损失信息，不是最佳处理办法。

【2】Dual Attention Network

整体结构

position attention module（spatial attention）

把原信息流记作A，把后面新做出来的两个张量记作 B 和 C，首先，B 和 C 从3阶张量被reshape成了2阶张量，主要是把原先 H*W 的feature给flatten拉平了，然后再把其中一个转置，这样就形成了一个 (HW)*C 的矩阵和另一个 C*(H*W) 的矩阵， B, C 相乘得到 (HW)*(HW) 的矩阵，后面配上一个softmax，这下算出来的话，矩阵里的每个点就是原先feature map 里面两个position点的关系强度，as follows：

然后把 s ji(attention 系数) 乘回到原来的feature maps（D）上，只不过在前面又乘了一个从0 开始逐渐学习的权重 $\alpha$ ，as follows：

这个多出来的权值 $\alpha$ 实际上是调控某些attentional value太小的情况，因为上面用的是softmax，容易出现一个很大，其他很小的value，但是按照原来不做attention的时候，按理来说相当于每个attentional value都是1，落差太大，信息损失太多，所以再设置一个权重来平衡一下。

channel attention module

基本复制上面的操作，唯一的不同是，这次反过来进行矩阵乘法 C*(HW) 乘 (HW)*C 得到 C*C 的邻接矩阵，代表一个通道和另一个通道间的关系，其余的统统一样，as follows：

attetion代码

因为使用的富文本编辑器没办法插入代码，想看代码的话转至https://www.jianshu.com/p/06742d8bd8ff

【3】Non-local U-Nets

global aggregation block

1.该结构与Attention Is All You Need这篇文章的形式很相似。输入图为X（B*H*W*C），经过QueryTransform和1*1卷积，转换为Q（B*Hq*Wq*Ck），K（B*H*W*Ck），V(B*H*W*Cv）。QueryTransform可以为卷积，反卷积，插值等你喜欢的方法，此处简单理解为 1*1*1 即可，最后的输出结果的H与W将与这个值一致。

2.代码里在Unfold之前有Multi-Head（Attention Is All You Need）的操作，不过在论文中没有说明，实际上是把通道分为N等份。Unfold是把Batch,height,width,N通道合并,Q（B*Hq*Wq*N*ck），K（B*H*W*N*ck），V(B*H*W*N*cv）。

3.接下来是经典的点积attention操作，得到一个权值矩阵A((B*Hq*Wq*N)*(B*H*W*N))，用于self-attention的信息加权，分母Ck是通道数，作用是调节矩阵的数值不要过大，使训练更稳定（这个也是Attention Is All You Need提出的）。最后权值矩阵A和V点乘，得到最终的结果（(B*Hq*Wq*N)*cv），可见输出的height和width由Q决定，通道数由V决定。

卷积网络上的attention，主要分为两种，一种是spatial attention, 另外一种是channel attention。

spatial attention就是对于所有的通道，在二维平面上，对H x W尺寸的图学习到一个权重，对每个像素都会学习到一个权重。你可以想象成一个像素是C维的一个向量，深度是C，在C个维度上，权重都是一样的，但是在这方面的论文已经很多了，重点关注一下image/video caption。

相反的，channel attention就是对每个C，在channel维度上，学习到不同的权重，平面维度上权重相同。

spatial 和 channel attention可以理解为关注图片的不同区域和关注图片的不同特征。

【4】Squeeze and Excitation Network

SE Net 是channel attention的典型代表，主要思想是卷积网络的卷积核所代表的特征之间存在冗余，他们起了个名字叫feature recalibration，可以看作是在不影响性能的前提下减少卷积核数量是等效的。

【5】GCNet

Non-local 和 SE block的结合

SE block

简化的Non-local模块

简化版的non-local block定义为：

为了进一步减少简化版non-local block的计算量，将 Wv 移到attention pooling的外面。

简化版non-local block

表示为：

不同于原始的non-local block，简化版non-local block的第二项是不受位置依赖的，所有位置共享这一项。因此，作者直接将全局上下文建模为所有位置特征的加权平均值，然后聚集全局上下文特征到每个位置的特征上。

简化版的non-local block可以抽象为3个步骤：

全局attention pooling：采用1x1卷积 Wk 和softmax函数来获取attention权值，然后执行attention pooling（就是那些1*H*W C*1*1等这中操作）来获得全局上下文特征。

特征转换：采用1x1卷积Wv 。

特征聚合：采用相加操作将全局上下文特征聚合到每个位置的特征上。

GC block

GC block的3个步骤为：

global attention pooling用于上下文建模。

bottleneck transform来捕获通道间依赖。

broadcast element-wise addition用于特征融合。

在简化版的non-local block中，transform模块有大量的参数。为了获得SE block轻量的优点，1x1卷积用bottleneck transform模块来取代，能够显著的降低参数量(其中r是降低率)。因为两层bottleneck transform增加了优化难度，所以在ReLU前面增加一个layer normalization层(降低优化难度且作为正则提高了泛化性)。

详细介绍和代码链接：https://zhuanlan.zhihu.com/p/111143631

参考链接:

计算机视觉技术self-attention最新进展

Deformable Convolutional Networks

目前主流的attention方法都有哪些？ - sean zhuh的回答 - 知乎

Attention机制可以应用在图像分割的改善中吗？

极简笔记 Pyramid Attention Network for Semantic Segmentation

视觉注意力机制 | Non-local模块与Self-attention的之间的关系与区别？

视觉注意力机制 | Non-local与SENet、CBAM模块融合：GCNet、DANet

Dual Attention Network for Scene Segmentation

计算机视觉中的self-attention

参考链接:

猜你喜欢

热点阅读