论文笔记 | 结合Bi-LSTM和CNN的混合神经网络来实现事件
2019-03-06 本文已影响0人
鲜芋牛奶西米爱solo
本文主要复述论文["A Language-Independent Neural Network for Event Detection"] 的主要内容,以便自我回顾,也希望可以给大噶带来帮助~
摘要
提出了一个混合神经网络,用于捕获特定上下文中的序列和块信息,并使用它们来训练多种语言的事件检测器,而不需要任何手动编码的特征。对多种不同语言也能取得很好的效果。
介绍
论文中描述了事件抽取的其中一个关键点是词的二义性问题。如图Figure1中对release不同情境下的语义描述:综合事件抽取方向已提出的模型,作者开发了一个混合神经网络,结合了Bi-LSTM模型与CNN模型,从特定的上下文中对序列和块信息进行建模。学习句子中每个单词的连续表示,用以预测是否为事件触发器。
该网络先使用Bi-LSTM,结合每个词的上下文信息对其语义编码,再添加CNN网络依据当前上下文来捕获结构信息。同样的,作者也选择了skip-Gram对输入做预处理。训练时则分别以英语、汉语、西班牙语三种语言做语料库并进行评估。
Bi-LSTM
仅选择RNN模型,在其反向传播更新参数的问题中会出现梯度消失或梯度爆炸问题。在模型中应用LSTM结构,通过对单个时间步长添加门限可以控制这个问题的出现。论文中选择Bi-LSTM,即双向循环网络,词向量表示由上下文的相关性共同决定,可以更加有效地提高参数训练的精度。CNN
CNN将卷积运算应用于神经网络中,代替传统的矩阵运算从而起到系统性能的优化作用。此外,CNN还通过参数共享降低了存储需求,并提升了统计效率。CNN卷积层通常包括三级,前两级分别产生线性激活函数和非线性激活函数,第三级则采用一个池化函数来进一步调整输出。最大池化函数可以给出相邻矩阵内的最大值,从而保证平移不变性。
输出
通过Bi-LSTM学习到前向和后向两个特征向量F和B,令局部上下文特征为C2,通过CNN学习到的特征向量定义为C3。拼接以上所学习到的向量,作为我们的总特征向量O,然后利用softmax方法识别触发候选者并将每个触发候选者分类为特定事件类型。