注意力机制

2018-08-29 本文已影响85人 Junr_0926

1. 前言

神经网络在进行特征提取的时候，会将所有的输入进行处理，提取得到的特征并没有进行特别的处理。那么，如果神经网络能够像人一样，并不是“观察”到所有的特征，而是只“注意”到那些真正关心的特征呢？

2. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

虽然注意力机制常常用于语音处理，也就是RNN，但是在图像处理上，也有非常有趣的应用。例如这篇论文，使用神经网络对图片进行描述。这篇论文两年前就读过，但是当时也是瞎学一通，今天，抽出时间再次拜读一下。

论文的主要贡献：

作者介绍了两种注意力，一种是soft，它可以使用BP算法求解，一种是hard
作者介绍了将注意力可视化的方法
作者对结果进行了量化验证

2.1 模型介绍

作者采用了常见的sequence to sequence形式，就是通过一个encoder将图片转换为了一个特征向量，再通过decoder将这个向量转换为一串输出。

Encoder：作者使用了传统的CNN作为encoder，通过CNN对一个图片进行了特征提取。作者将特征称为annotation向量。不同的是，作者没有从最后一层fc层中提出特征，而是从中间的卷积层提取特征，因此得到的特征是一个矩阵，而不是一个向量。如下图 $L$ 个向量，向量维度是 $D$ 。

annotation
其中每一个特征向量对应图片的一个部分。

Decoder：作者在decoder的选择上也非常简单，就是LSTM。LSTM就是一个加强版的RNN cell。它通过设计门结构，使得cell拥有长时记忆。如下：

LSTM
公式如下：

LSTM
注意，每个时刻LSTM cell的输入是：上个时刻的状态

hard attention
也就是说，在

梯度
进一步

梯度
我理解就是，由于位置的选择是根据概率来决定的，就像给定

soft

在文章中还有关于输出单词，注意多个地方等的讨论，具体请参考。

3. Neural Machine Translation by Jointly Learning to Align and Translate

这篇貌似是最早引入注意力机制的文章，它在机器翻译中引入了注意力。同样，作者是使用sequence to sequence框架进行训练。

3.1 模型

Decoder：作者定义新的条件概率：

条件概率
也就是说，当网络预测新的词的时候，是根据上一个预测的词

context
它们的权重

weight
其中,

alignment model

Encoder
作者使用了一个双向的RNN作为encoder，双向的RNN类似于普通的RNN，但是它又进一步提取了输入反向输入时的特征，具体可以参考论文。

4. Attention Is All You Need(TODO)

在这篇论文中，作者提出了一种新的网络结构，称之为Transformer，里面仅仅使用了注意力机制，抛弃了之前的RNN，CNN等结构。
作者认为，在传统的RNN结构中，在计算过程中需要cell的hidden state $h_t$ 。因此，在每个时刻 $t$ ，都需要之前的结果，这使得训练无法并行化，因此，在训练长的句子的时候，就无法使用大的batch来训练，因为GPU的显存有限。
在论文中，作者提出了Transformer，避开了RNN，将input和output仅仅通过注意力机制连接起来。并且，Transformer允许更多的并行处理。

4.1 模型结构

如下图：

结构

结构依然采用了encoder-decoder的架构。
** Encoder：整个encoder由6个相同的层堆叠成，每一层有两个子层，第一个子层是multi-head self-attention mechanism，第二个子层是一个简单的position-wise fc层。作者在每个子层间加入了layer normalization和residual connection。也就是说，每个子层的输出是： $LayerNorm(x + Sublayer(x))$ 。

** Decoder：decoder同样由6个相同的层堆叠成。除了像encoder中的两个子层，decoder还加入了第三个子层，它对encoder的输出进行multi-head attention**。

4.2 注意力

注意力机制可以描述为将一组query 和一组输入映射为一组输出，通常情况下这个输出由输入的加权得到，权重由query 和输入来决定。

Scale Dot-Product Attention：如下图：

Scale Dot-Product Attention
输入由 queries，

Multi-Head Attention

公式如下：

公式

4.3 如何在模型中应用注意力机制

论文提出的模型中，有三个不同的方式来应用注意力机制。

queries来自于前一个decoder层，keys, values来自于encoder的输出。这样的话，允许decoder关注到输入的所有位置（之前的）。
在encoder中，包含一个self-attention层。在这个层中，keys, values, queries都来自于同一个地方，例如：上一个encoder层的输出。这样的话，每一次encoder都可以注意到之前所有encoder的输出。
类似地，可以在decoder中加入一个self-attention层，来观察到之前所有层的输出。但是，我们需要防止前面层的信息淹没了decoder当前的信息，we need to prevent leftward information flow in the decoder to preserver the auto-regressive property，作者通过使用mask，去掉了所有不合理的连接。

4.4 Positional Encoding

为了在输入中保留位置信息，作者加入了位置编码。如下：

positional encoding
其中

pos

是位置，

i

是纬度。