基于Attention机制的深度学习模型在文本分类中的应用

2017-04-09 本文已影响5216人 lirainbow0

Attention机制在2016年被大量应用在nlp中，在之前的博客中也介绍了Attention机制在AS任务上的应用，这里简单介绍Attention在AS任务上的应用。在对AS任务建模时，采用问题和答案对的形式建模，因此可以根据问题和答案的关系设计Attention机制。而文本分类任务中则稍有不同，文本分类建模方式为问题和标签。因此Attention机制的设计一般被应用于时序模型中，通过时序状态设计Attention。

本文参考《Hierarchical Attention Networks for Document Classification》，该论文介绍了Attention机制在英文文本分类中的应用。本文采用document级分类，即document由sentence组成，而sentence由word组成，因此天然的具有层级关系。以word为粒度输入网络抽取word级特征得到表示sentence的特征向量；然后将sentence级向量输入网络抽取sentence级特征得到最终的document级特征，然后将document特征通过一个线性表示和softmax。为了给与不同的word和不同的sentence分配不同的权重，论文设计一个层级架构的attention机制用于提升模型的性能。

Hierarchical Attention Network

本文借鉴论文中设计Attention的方式，设计了基于单字的Attention模型。

本文Attention网络结构

实验步骤

1：本次实验采用单句问题和对应的标签作为输入。实验之前首先对问题按字切词，然后采用word2vec对问题进行预训练（这里采用按字切词的方式避免的切词的麻烦，并且同样能获得较高的准确率）。

2：由于本次实验采用固定长度的GRU/LSTM，因此需要对问题和答案进行截断（过长）或补充（过短）。

3：实验建模Input。本次实验单句问题和标签进行建模（q，l），q代表问题，l代表标签。

4：将问题进行Embedding（batch_size, seq_len, embedding_size）表示。

5：对问题采用GRU/LSTM模型计算特征（seq_len, batch_size, rnn_size）。

6：GRU/LSTM模型输出向量为（batch_size, seq_len，rnn_size），因此需要对输出特征向量进行特征抽取。常用的特征抽取方式为取模型最后一步的输出为下一层的特征，但是该特征抽取方式只取了最后一步的特征，丢弃了其他的特征信息，所以本次实验采用Attention机制计算每一步特征的权值，然后进行加权平均。