PE的intuition

2019-11-11 本文已影响0人 shudaxu

等价于将position信息与input concat后再做embedding

image.png

但是差异在于，直接concat起来后做embeding的话，其值是可以学习的，而在Transformer的论文中，ei是固定的值。

我的理解是，position本身有明确的意义，而不像一个普通的特征。其分布和取值间的关系可能都是未知的，需要学习的。

上一篇下一篇

猜你喜欢

热点阅读