NLP - Transformer模型

2020-07-26  本文已影响0人  nlpming

1. 简介

Transformer模型由Google提出,发表在NIPS 2017会议上。是一种完全基于注意力机制的模型,摒弃了RNN和CNN结构。并且很容易并行,训练速度较快,在WMT14 英语- 德语、英语 - 法语翻译任务上获得了SOTA的效果。

image.png

2. 模型结构

transformer模型结构.png

2.1 Self Attention

2.1.1 Scaled dot-product attention

注意:除以\sqrt{d_k},是为了防止d_k变化很大的时候,最终qk^T的计算结果变化较大;

例子:计算x_1和其他词的Attention,得到输出b^1
1. 每个输入,计算得到q, k, v
image.png
2. q, k做内积
image.png
3. 计算softmax值,得到注意力权重
image.png
4. 注意力权重和v,加权平均得到Attention输出
image.png

得到输出b^1, b^2, b^3, b^4,可并行计算:

image.png

2.1.2 Mask说明

2.2 Multi-Head Attention

image.png

2.3 Positional Encoding

image.png

参考资料

上一篇下一篇

猜你喜欢

热点阅读