Attention 机制

2019-05-20 本文已影响0人 DejavuMoments

An Attention Function can be described as mapping a query and a set of key-value pairs to an output.

Attention 的计算主要分为三步：

第一步，将 query 和每个 key 进行相似度计算得到权重，常用的相似度函数有 dot、concat、mlp 等。

第二步，使用 softmax 对权重进行归一化。

第三步，对归一化后的权重和键值 value for进行加权求和，得到最后的 attention。

在 NLP 中，Key 和 Value 常常都是同一个，即 Key == Value

Attention 可以看作是一种加权机制。