Structured self-attention senten

2021-01-13 本文已影响0人 cggl

这是一篇2017年的ICML 顶会

M 是一句话的embedding, 来自于LSTM 中的隐藏层，每个单词的注意力来自于傍边的（b)

从这个图中可以看到，旁边的注意力机制 $A = softmax(w_{s2}tanh(w_{s1 }H))$ ，这里边的注意力机制相当于连续两个没有bias的全连接。

这个注意力机制，文章还写了一个A 的归一化，但是没什么用。最后的权重计算r 个权重的和作为第n个数据的权重。

感觉这个方法没有太多的可解释性。