机器学习与深度学习

Transformer 模型总结

2020-01-12  本文已影响0人  LCG22

1、Transformer 模型的结构图

图 1.1

2、Transformer 模型简述

Transformer 是由多个 self-attention 神经网络层组成的 Encoder-Decoder 结构的神经网络模型

3、Multi-Head Attention 结构

4、Transformer 的超参数

图 4.1

注:d_{model} 是嵌入的维度,即 embedding_size

上一篇下一篇

猜你喜欢

热点阅读