1.Transformer工作原理详解

2022-06-21  本文已影响0人  闲敲井中月

1.图解Transformer(完整版)作者:龙心尘

原文中有误部分改正如下:

词的向量化仅仅发生在最底层的编码器的输入时,即词嵌入过程只发生在最底层的编码器中。所有的编码器都有一个相同的特点:接收一个向量列表,列表中的每个向量大小为512维。在底层(最开始的)编码器中它就是词向量,但是在其他编码器中,它就是前一层编码器的输出(也是一个向量列表)。向量列表大小是我们可以设置的超参数——一般是我们训练集中最长句子的长度。

注:仅作个人科研生涯学习思考之用,侵删。

上一篇 下一篇

猜你喜欢

热点阅读