Attention Augmented Convolutiona

2020-06-20  本文已影响0人  晨光523152

这是 ICCV 2019 上面的文章

Abstract

卷积网络已成为许多计算机视觉应用程序中选择的范例。但是卷积网络有一个显著缺点,只能对领域进行计算,会错失全局信息。另一方面,自我注意已成为捕获远程交互的最新进展,但主要用于序列建模和生成建模任务。

在本文中,考虑将自注意力用于区分性视觉任务,作为卷积的替代方法。介绍了一种新颖的二维相对自我关注机制,该机制证明了在取代卷积作为图像分类的独立计算基元方面具有竞争力。

因此,提出通过将卷积特征图与通过自我注意产生的一组特征图进行级联,以利用这种自我注意机制来增强卷积算子。

1. Introduction

卷积神经网络在许多计算机视觉应用中都取得了巨大的成功,特别是在图像分类中。

卷积层的设计:

在设计对图像进行操作的模型时,这两个属性均被证明是至关重要的感应偏差。但是,卷积核的局部性质阻止了它捕获图像中的全局上下文,这对于更好地识别图像中的对象通常是必需的。

另一方面,自注意力作为捕捉远程相互作用的最新进展而出现,但主要用于序列建模和生成建模任务。自我注意背后的关键思想是产生根据隐藏单位计算得出的值的加权平均值。

与池化或卷积运算符不同,加权平均运算中使用的权重是通过隐藏单元之间的相似度函数动态生成的。 作为结果,输入信号之间的相互作用取决于信号本身,而不是像卷积一样由它们的相对位置预先确定。这使得自注意力能够捕获远程相互作用而不需要增加参数。

Figure 2

通过自我注意力来增强卷积。这是通过将关注局部性的卷积特征图与能够建模更长距离依赖项的自注意特征图进行级联来实现的(如 Figure 2所示)

2. Related Work

2.1 Convolution networks

2.2 Attention mechanisms in networks

文章的注意力增强网络不依赖于其完全卷积的对应对象的预训练,而是在整个体系结构中采用自我注意力。

使用多头注意力可以使模型共同参与
到空间和特征子空间。

此外,通过将相对自注意力扩展到二维输入,增强了自注意力对图像的表示能力,从而使我们能够以有原则的方式对翻译等方差进行建模。

最终,文章的方法产生了附加的特征图,而不是通过加法或门控来重新校准卷积特征。

此属性使得可以灵活地调整注意力通道的比例,并考虑从完全卷积到完全注意力模型的一系列架构。

3. Methods

使用如下记号:
H,W,F_{in}指的是激活图的输入过滤器的高度,宽度和数量。
N_{h},d_{v},d_{k}指的是在多头注意力里头的数目,values的深度,keys的深度。

进一步假设N_{h}d_{v}d_{k}平均除
表示d_{v}^{h}d_{k}^{h}每个关注头的值和查询/键的深度

3.1. Self-attention over images

给定输入张量的形状(H,W,F_{in}),把这个张量张开为矩阵X\in R^{HW\times F_{in}},接着使用Transformer architecture的多头注意力机制。

单头h的自注意力的输入是

公式 1

其中可学习的变换W_{q},W_{k}\in R^{F_{in}\times d_{k}^{h}},并且W_{v}\in R^{F_{in}\times d_{v}^{h}},queries Q = XW_{q},values V=XW_{v}

所有头的输出被连起来并且再做一次投影为:

公式 2

其中,可学习的线性变换W^{O} \in R^{d_{v}\times d_{v}}
MHA(X)把输入的形状变为(H,W,d_{v})或者匹配原始的空间维度

3.1.3 Two-dimensional Positional Encodings

如果没有关于位置的明确信息,则自我注意是排列等变的:


image.png

对于像素位置的任何排列\pi,它对于建模诸如图像的高度结构化数据均无效。已经提出了使用显式空间信息来增强激活图的多个位置编码以缓解相关问题。但是这些编码没有对作者在图像分类以及目标检测方面的实验有任何帮助。

作责假设这是因为这样的位置编码不是置换等变,但不满足翻译等变,这在处理图像时是理想的特性。作为一种解决方案,我们建议将相对位置编码的使用扩展到二维,并提出基于Music Transformer的内存高效实现。

通过独立添加相对高度信息和相对宽度信息来实现二维相对自我注意。

像素i =(i_{x},i_{y})对像素j=(j_{x},j_{y})的注意力计算方式为:

公式 3

其中q_{i}是像素i的query向量(Q的第i行),k_{j}是像素j的key向量(K的第j行),r_{j_{x}-i_{x}}^{W}r_{j_{y}-i_{y}}^{H}是相对宽度j_{x}-i_{x},和相对高度j_{y}-i_{y}的学习嵌入。

h的输出变成:

公式 4

其中,S_{H}^{rel},S_{W}^{rel}\in R^{HW\times HW}是沿高度和宽度尺寸的相对位置的矩阵,其满足
S_{H}^{rel}[i,j]=q_{i}^{T}r_{j_{y}-i_{y}}^{H},S_{W}^{rel}[i,j]=q_{i}^{T}r_{j_{x}-i_{x}}^{W}

由于分别考虑相对高度和宽度信息,S_{H}^{rel},S_{W}^{rel}满足S_{W}^{rel}[i,j]=S_{W}^{rel}[i,j+W],
S_{H}^{rel}[i,j]=S_{H}^{rel}[i+H,j]
这样就不必计算所有(i,j)对。

3.2 Attention Augmented Convolution

1)使用一种可以共同参与空间子空间和特征子空间的注意力机制(每个头部对应一个特征子空间)
2)引入其他特征图,而不是对其进行提炼。

考虑到核的大小k,输入过滤器F_{in}以及输出过滤器F_{out},这个注意力增强卷积能够被写作:

image.png

文章标记v = \frac{d_{v}}{F_{out}}为注意通道与原始输出过滤器数量的比率,k = \frac{d_{k}}{F_{out}}为key的深度与原始输出过滤器的数量。
与卷积类似,提出的的注意力增强卷积:
1)与平移等价,
2)可以轻松地在不同空间维度的输入上进行操作。

参考资料:Attention Augmented Convolutional Networks

上一篇下一篇

猜你喜欢

热点阅读