RNN的高级应用

2016-09-30 本文已影响4078人不会停的蜗牛

本文结构：

四个问题

每个问题是什么
应用什么模型
模型效果

CS224d-Day 11:
Recursive neural networks -- for different tasks (e.g. sentiment analysis)
课程链接
 视频链接
 课件链接

四个问题

这次课主要讲了标准的 Recursive neural networks 模型及其扩展模型在3个问题上的应用和效果，最后的 Tree LSTM 简单地介绍了模型和效果。
这3个问题分别是 Paraphrase detection，Relation classification，Sentiment Analysis。
每个模型都可以应用到任意一个问题上，只不过效果不同，有些模型对一些问题表现会更优一些。

1.Paraphrase detection

目的是判断两句话是否具有相同的意思

用到的模型是标准的RNN

为了解决这个问题，需要思考：

怎样比较两个句子？

通过成对地比较两个句子的短语，这个时候可以用 standard RNN，因为它可以得到一个合理的树结构，也就是句子的短语组成结构。
怎样用相似度来判断两个句子的意义是一样的？

如果用两个树结构的顶点去判断，那会丢掉很多中间环节的信息。
如果只计数两个句子中相似短语的个数，那么会丢掉位置信息，即这些短语出现在什么位置。

所以用 similar matrix 来表示相似度。

如下图，左边是两个句子，树结构中分别有7个部分和5个部分，右边是由similar matrix到最后结果的过程。

similar matrix 由5行7列组成，颜色深浅表示两个树结构相应部分间的相似度大小。

上图中，为什么不能直接把 similar matrix 直接投入神经网络中？

因为这个矩阵的大小是随着输入句子的不同而变化的。

所以需要引用一个 pooling 层，它可以将输入的 similar matrix 映射成维度一致的矩阵，然后再投入到 RNN 中。

最后的效果：

2.Relation Classification

目的是识别词语之间的关系

尤其是 very ＋ good 这种，very 此时只是一个加强 good 的作用

用到的模型是标准的 Matrix－Vector RNN

普通的 RNN 中，每个节点都是由向量表示的，在这个 Matrix－Vector RNN 中，每个节点除了向量外自带一个矩阵，在由 left 和 right child 生成 parent 的时候，对彼此作用各自的矩阵后，再去生成 parent。

用向量和矩阵的区别？

单独的向量反映不出相互作用这种层次的意义，加上矩阵作用给对方后，可以显示出 very 可以让 good 这种形容词更强的意义。

矩阵是随机初始化的，通过 Back Propagation 和 Forward Propagation 可以不断地学习出来。

最后的效果：

下图中，横轴是 1-10 星号的电影，纵轴是 not annoying 这样的词出现在相应级别中的比例。

在 not annoying ，not awesome 这两个例子中，绿色的 RNN 没有蓝色的 MV－RNN 表现得好，因为 not annoying 出现在低星级的次数不应该比出现在高星级电影中的次数多。

另外一种问题是因果关系等的判断

最后的效果：

对于这个问题，用了不同的模型和feature来看效果。

在 SVM 用了好多feature，最后的效果是 82.2
POS：part of speech
wordnet 大量人工生成的数据
prefix 等其他形态学的特征
dependency parse feature 不同类型的parser
textrunner 百万的网上数据
Google n－gram 几十亿个 n－gram

单纯用神经网络模型，数据量没那么大的时候，效果不到80％
加入了 POS，WordNet，NER 数据后，变成了 82.4，优于SVM。

数据越多的话，效果越好。