Attention 机制
2019-05-20 本文已影响0人
DejavuMoments
An Attention Function can be described as mapping a query and a set of key-value pairs to an output.
Attention 的计算主要分为三步:
第一步,将 query 和每个 key 进行相似度计算得到权重,常用的相似度函数有 dot、concat、mlp 等。
第二步,使用 softmax 对权重进行归一化。
第三步,对归一化后的权重和键值 value for进行加权求和,得到最后的 attention。
在 NLP 中,Key 和 Value 常常都是同一个,即 Key == Value
Attention 可以看作是一种加权机制。