吴恩达深度学习-序列模型 3.7初识注意力模型
2020-02-25 本文已影响0人
prophet__
当我们人工在翻译一篇文章的时候,往往不是一整句话从头看到尾,然后再进行翻译的。我们通常会一小段一小段地翻译,然后通过上下文进行关联。
学者们做了一个实验,关于如果直接把整个句子放入神经网络当中,随着句子单词的增加,它翻译的bleu得分会在某一个值之后出现明显的下降。
为了解决这种情况带来的问题,我们在RNN当中引入了注意力机制。
注意力机制主要依赖于一个注意力网络来实现,注意力网络指的是,当我们在生成一个新的单元时,如何对对应的每一个单元进行注意力权值的分配,就是找到它到底要对应翻译哪个单元。
这里的C主要体现的是context,也就是上下文,它代表了这一整个要翻译模块的情况,只不过是由不同的权值乘上单元组成集合。同时,我们也会输入上一个已经生成好的单词作为上下文输入的一部分。
这里关于细节不会讲的太详细,关于如何计算注意力网络的值在下节课当中会仔细解释。
同时这里也存在一个词距问题,因为注意力机制是维持在一定范围之内的,所以这个超参数词距就是它需要关注的范围大小,这个范围位置随着RNN的移动而移动。
看到这里可能还有些迷糊,让我们去下一章看看。