文献阅读笔记:Hierarchical Attention Ne

2017-10-20  本文已影响0人  generalz

最近在研究Attention机制在自然语言处理中的应用,查找了一些文献。
文献:Hierarchical Attention Networks for Document Classification
GitHub实现代码
GitHub实现代码
参考博客:Text Classification, Part 3 - Hierarchical attention network


开始正题:

文章主要的两个贡献:

主要思路
单词词向量:

查询词向量表(比如GloVe,Word2Vec等)生成句子中每个单词的词向量,并将句子表示为单词词向量的连接
句子。

这里面:

单词的词向量

表示的就是句子中每个单词的词向量表示,句子的总长度为T。

GRU前向隐状态 每个单词词向量的隐状态就表示为前向和后向单词隐状态的连接

这种表示方法就表示了以某个单词为中心的句子相关信息。

单词级Attention

因为句子中每个单词的重要性不相同,因此使用Attention机制描述每个单词的重要性,抽取相对句子含义重要的那些单词,使用这些重要的词的词向量组成句子的向量表示


image.png

将GRU输出的词的引隐状态向量,作为MLP(Multi Layer Percetron)的输入,计算得到词向量隐状态的新的表示。

单词词向量的attention计算
这里有个问题:uw是如何来的?bw是如何计算的?uw初始时随机初始化为,在训练阶段学习获得。bw也是学习获得。

按照和单词级的向量表示一样的方式,计算句子级的向量表示。


基于Attention的句子级的向量表示生成

将最后句子级向量表示的文档输入softmax层,计算分类。
使用的loss是交叉熵

分类和loss计算

最终结果:

分类测试结果
上一篇 下一篇

猜你喜欢

热点阅读