Hierarchical Attention Networks

2018-02-28 本文已影响0人小绿叶mj

HAN

hierarchy指的是两层--word层和sentence层，模型很简单，想法很自然

细节：
预处理中过滤掉词频小于5的词用UNK取代，embedding层采用预训练的word2vec权重。
embedding_size设置为200，rnn_size为50（由于是双向故实际为100），rnn到的attention激活函数为tanh。

评估结果：

Evaluation

总结：
rnn结构更多地阐述一种远近邻连接关系，但没有告诉我们对某一个task来说连接中那些部分比较重要，而attention机制很好地解决了这个问题。对于长文本来说，不止一句话内有重要的词，一段之内也有重要的句子，这就是hierarchial attention设计的基本思想。