Attention 机制

2019-05-20  本文已影响0人  DejavuMoments

An Attention Function can be described as mapping a query and a set of key-value pairs to an output.

Attention 的计算主要分为三步:

第一步,将 query 和每个 key 进行相似度计算得到权重,常用的相似度函数有 dot、concat、mlp 等。

第二步,使用 softmax 对权重进行归一化。

第三步,对归一化后的权重和键值 value for进行加权求和,得到最后的 attention。

在 NLP 中,Key 和 Value 常常都是同一个,即 Key == Value

Attention 可以看作是一种加权机制。

上一篇 下一篇

猜你喜欢

热点阅读