论文笔记 | 结合Bi-LSTM和CNN的混合神经网络来实现事件

2019-03-06 本文已影响0人鲜芋牛奶西米爱solo

本文主要复述论文["A Language-Independent Neural Network for Event Detection"] 的主要内容，以便自我回顾，也希望可以给大噶带来帮助~

摘要

提出了一个混合神经网络，用于捕获特定上下文中的序列和块信息，并使用它们来训练多种语言的事件检测器，而不需要任何手动编码的特征。对多种不同语言也能取得很好的效果。

介绍

论文中描述了事件抽取的其中一个关键点是词的二义性问题。如图Figure1中对release不同情境下的语义描述：

综合事件抽取方向已提出的模型，作者开发了一个混合神经网络，结合了Bi-LSTM模型与CNN模型，从特定的上下文中对序列和块信息进行建模。学习句子中每个单词的连续表示，用以预测是否为事件触发器。
该网络先使用Bi-LSTM，结合每个词的上下文信息对其语义编码，再添加CNN网络依据当前上下文来捕获结构信息。同样的，作者也选择了skip-Gram对输入做预处理。训练时则分别以英语、汉语、西班牙语三种语言做语料库并进行评估。

Bi-LSTM

仅选择RNN模型，在其反向传播更新参数的问题中会出现梯度消失或梯度爆炸问题。在模型中应用LSTM结构，通过对单个时间步长添加门限可以控制这个问题的出现。论文中选择Bi-LSTM，即双向循环网络，词向量表示由上下文的相关性共同决定，可以更加有效地提高参数训练的精度。

CNN

CNN将卷积运算应用于神经网络中，代替传统的矩阵运算从而起到系统性能的优化作用。此外，CNN还通过参数共享降低了存储需求，并提升了统计效率。CNN卷积层通常包括三级，前两级分别产生线性激活函数和非线性激活函数，第三级则采用一个池化函数来进一步调整输出。最大池化函数可以给出相邻矩阵内的最大值，从而保证平移不变性。

作者应用CNN模型来捕获局部块信息。在这一阶段，使用具有不同宽度的多个卷积滤波器来产生局部上下文表示。，从而能够捕获n-gram各种粒度的局部语义，这些语义被证明对事件检测很有用。论文中选择了宽度为2和3的多个卷积滤波器对句子中的二元组和三元组的语义分别编码。局部信息也可用来解决由于词汇二义性导致的错误。此外，作者还添加了一个位置特征PF，来表示当前词汇和候选触发器之间的相对距离。