PE的intuition

2019-11-11  本文已影响0人  shudaxu

等价于将position信息与input concat后再做embedding

image.png

但是差异在于,直接concat起来后做embeding的话,其值是可以学习的,而在Transformer的论文中,ei是固定的值。

我的理解是,position本身有明确的意义,而不像一个普通的特征。其分布和取值间的关系可能都是未知的,需要学习的。

上一篇 下一篇

猜你喜欢

热点阅读