0108:详解Transformer （Attention Is

2021-01-08 本文已影响0人是黄小胖呀

Transformer 抛弃了传统CNN/RNN结构，是一个Encoder-Decoder结构，并且增加了self-Attenion，更准确地讲，Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。

模型图示

关键是Attenion部分：

在Transformer的encoder中，数据首先会经过一个叫做‘self-attention’的模块得到一个加权之后的特征向量；

得到特征向量之后，它会被送到encoder的下一个模块，即Feed Forward Neural Network。这个全连接有两层，第一层的激活函数是ReLU，第二层是一个线性激活函数。

Attenion

参考资料：

1、详解Transformer （Attention Is All You Need）https://zhuanlan.zhihu.com/p/48508221