速学Transformer!原理篇

2021-02-01  本文已影响0人  thelong的学习日记

Transformer的模型架构

首先建立一个概念,Transformer由两部分组成,编码器Encoder和解码器Decoder。
Encoder:读取输入语句并生成其representation。
Decoder:参考Encoder生成的输入语句的representation,逐词生成输出语句。

论文中的Transformer的架构图是长这个样子的,左边是Encoder,右边是Decoder:

Transformer架构图
为了方便理解它的交互方式,可以把它看成这个样子:

有了一个整体性概念以后,接下来关注Encoder和Decoder部分:

看张俊林老师的文章,发现这么一句话: “这里需要强调一下,尽管Transformer原始论文一直重点在说Self Attention,但是目前来看,能让Transformer效果好的,不仅仅是Self attention,这个Block里所有元素,包括Multi-head self attention,Skip connection,LayerNorm,FF一起在发挥作用。为什么这么说?[2]”
  目前不太明白,懂了再来填坑

缺陷

Transformer主要存在以下几点不足:

参考:

  1. The Illustrated Transformer
  2. 放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取(CNN/RNN/TF)比较
  3. transformer详解:transformer/ universal transformer/ transformer-XL
上一篇下一篇

猜你喜欢

热点阅读