从seq2seq到注意力机制

2021-02-27  本文已影响0人  神的第57个名字

seq2seq 模型

seq2seq模型诞生于语言模型的相关任务中,最初是用来处理翻译问题的,解决了将任意长度的输入序列转变为对应的输出序列的问题,普通的全连接网络结构没法接受一个可变长度的输入,也没法产生一个变长的输出,Sutskever, Ilya et al. “Sequence to Sequence Learning with Neural Networks.” NIPS (2014) 中提出了解决这一问题的比较直接的方式。因为 RNN 的输入长度可以不预先固定,简单想法就是通过RNN接受输入,接着通过另一个 RNN 将前一个 RNN 的输出,也就是通常所称的内容向量(context vector)转变为输出序列,注意此处的内容向量的维度是固定的。后来 seq2seq 模型逐渐用于多种语言之间的翻译文本-语音翻译或者是问答系统之类的任务中。

seq2seq 模型通常将接受输入的RNN称为编码器(encoder),将产生输出的RNN成为了解码器(decoder):

编码器-解码器模型的简单示意

注意力机制

但是面对长句子的处理时,固定长度的内容向量的缺陷显露出来,它最大的问题在于无法记住长句子,很多时候编码器在处理完整个输入之后就忘了开头部分,解码的时候也是如此,内容向量随着时间步传输一段时间后就逐渐被遗忘。

Bahdanau, Dzmitry 等人在 “Neural Machine Translation by Jointly Learning to Align and Translate.(2015)"中提出了
改进方案,并且引入注意力机制解决长期记忆的问题,同时在编码器的结构上也做了细微调整,

注意力机制可认为是一种权重分配,例如在图像处理中,图片像素和临近像素有多大程度上有关,或者句子中的单词之间的相关性的强弱。比起从编码器的最后隐层状态构建单个内容向量,注意力机制的秘密在于内容向量和整个源输入之间创建了快捷连接,这些快捷连接的权重是可以根据每个输出元素定制化的。简单来说,内容向量不再是固定不变的c,而是在每一个解码步产生内容向量c_{t},这种方式考虑到了每次解码的时候的不同情况,因此更具灵活性。

Bahdanau 提出的加性注意力机制的图解.

注意力机制考虑的是输入序列和输出序列之间关联的紧密程度,自注意力机制则反映了输入序列内部之间不同组分之间(在自然语言处理的领域,也就是不同单词之间)关联的紧密程度。注意力机制显式地将选择过程交给我们控制,也就是对于目标单词,从源单词表中寻找其关注对象。自注意力机制除了考虑源单词表之外,还考虑了对于输出的关注,也就是对输出序列自身的关注,这一部分准备放到Transformer中详细叙述。

注意力机制的核心是注意力层,注意力层的输入被称为一个查询(query, Q),对于该查询,注意力层会根据已有记忆(memory,在Transformer中叫键值对)返回一个输出,这个记忆也就是键值对(Key-Value Pair)。假设有n个键值对(k_{1}, v_{1}), \cdots, (k_{n}, v_{n}),对于每个查询,其实也就是每次输入的源单词,可以得到一个输出,其维度和值一样。具体做法为:使用得分函数\alpha得到一组分数,对得分进行指数归一化,得到一个归一化的权重,最后得到值v_{i}的凸组合。直观理解就是使用已有键值对对查询作插值,其重点在于得分函数的设计,也就是如何判断两个向量之间的相似程度,在不合理的设计中,相似度高不代表接近。

注意力的计算其实很多地方都可以找到,在此简单提及。

指针网络

注意力机制的改进或者说简化还有一些好玩的应用,指针网络就是一例,指针网络由Vinyals, Oriol et al 在“Pointer Networks.” NIPS (2015)中提出。作者提出可以被用来解决一些输出长度依赖于输入的可变输入的问题。此处需要做一个细致的分辨,seq2seq模型也能处理变长输入的问题,因为RNN结构可以不停地接受下一个时间步长的输入。

那指针网络的创新点在哪呢?这里涉及到模型构建中的一个小细节,指针网络所解决的变长问题不在于输入长度可变。在encoder-decoder结构的通常应用中,譬如说翻译问题,我们需要在解码的每一步输出目标词汇表中的一个单词,对于网络来说是输出一个目标词汇表上的分布,词汇表的长度在模型构建之前就已经确定了,因此在训练中不再可变,假如我从64个单词表的任务迁移到128个单词表的任务,就需要重新训练。

指针网络解决了输出长度依赖于输入长度的问题,传统的encoder-decoder结构的输出长度依赖于词汇表的大小。如果弄清楚了注意力机制,指针网络的实现就显得比较简单,它在计算内容向量之前就输出了,其实是对注意力的计算过程作了截断。在注意力计算中得到归一化系数(\alpha_{j, 1}, \cdots, \alpha_{j, n})之后,我们对此使用\arg \max得到一个索引,这个索引指向的其实是输入中的某个位置,作者将其称为“指针”,也就是说在当前解码步,我们认为输入中的这个位置最为相关,将其作为网络的输出。在原文中,作者尝试用指针网络来解决旅行商问题、凸包问题和排序问题,结果表明,纯粹数据驱动的求解器也许可以在旅行商问题这类NP难问题上有所贡献。

上一篇 下一篇

猜你喜欢

热点阅读