论文笔记 | △-表示学习实现事件检测的差异化与泛化知识提取

2019-11-22 本文已影响0人鲜芋牛奶西米爱solo

本文主要复述论文["Distilling Discrimination and Generalization Knowledge for Event Detection via ∆-Representation Learning"] 的内容，以便自我回顾，也希望可以给大噶带来帮助~
论文链接

摘要

事件检测模型需要具差异化的信息来区分二义性触发词，以及用泛化知识来识别隐藏事件触发词。以往的事件检测模型大多关注于具差异性的信息识别，本论文作者提出了一个△-特征表示学习方法通过解耦来同时提取差异化信息与泛化信息，并将二者融合得到事件特征表示。实验在ACE05和KBP2019数据集上进行，结果证明方法可以更好的识别稀疏触发词汇。

介绍

out-of-vocabulary（OOV）:未登录词。指训练时未出现，测试时出现了的词，也就是这些词汇在当前的词汇表里无法找到。
out-of-labels（OOL）：指(word, event type)未出现在训练集当中，但这个词在训练集中却有出现。
Discrimination knowledge：识别触发词在不同语境下所触发的事件类型；
Generalization knowledge：主要来识别OOV、OOL以及稀疏性触发词。
这篇论文的任务介绍可以参考Figure1，例如S1中的（fire，EndPosition）与S2中的（fire，Attack）都是属于densely触发词，训练过程中可以通过上下问的词汇信息来提取S4中触发词的事件类型。而S5中的触发词hack属于未在训练集中学习到的触发词，这时候就需要提取S3中shot to death这样的结构化信息来学习hack to death可以触发事件Attack。

△-特征表示学习

论文中提出的这个表示学习方法是由三部分组成： $r^{ed}=r^w⊕r^d⊕r^g$ ，其中 $r^d$ 是基于词法信息的词表示， $r^g$ 是词法无关的词表示， $r^w$ 是预训练时候得到的词表示，但是这个 $r^w$ 是动态的，会在模型训练过程中不断得到更新。需要说明的是，作者对词的预训练是基于ELMo模型来做的（当然也有与其他预训练方法进行对比）。
整体模型的框架可由Figure2来表述：

基于词法信息的词表示与词法无关的词表示始终是相辅相成的，但细节来讲，基于词法信息的词表示学习能够提取密集式的触发词，而词法无关的词表示学习能够更好的提取稀疏式触发词，通过△-特征表示方法将事件表示解耦成三个部分，然后再将其融合得到最终的事件触发词特征表示通过softmax得到概率值，进行事件类型分类。

lexical-specific Feature

这部分的特征表示采用attention-RNN进行学习，lexical-specific对应差异化信息，能够有效提取触发词在其对应语境下的特征信息。
在模型中通过训练来增强这类触发词的lexical-specific信息表示，也就是希望 $r^d$ 在最终词表示里所占权重大一些，作者提出的是lexical-enhanced ∆-learning表示学习。该方法可参考下图：

Figure 3(a) 其实这里的+Lexi相当于一个正反馈，假设当前的输入，将触发词与其上下文表示为(t=triger, c=context, w=word)，输出分为两部分：事件类型分类器与词法二进制分类器，其中事件分类器传递事件类型标签的信息，词法二进制用来判定当前词是不是一个可由词法表示增强学习的词，即当t = w则生成标签(y, 1)，反向传播继续学习，反之则传递标签(y, 0)。这里的loss为event classifier与lexical classifier二者之和，以确保既存储词法相关的信息又保留事件信息。

lexical-free Feature

lexical-free对应上文说明的泛化信息，作者采用的是DMCNN模型来学习这种类型的特征表示。与词法相关的表示相反，作者希望在这类触发词的词表示当中，词法表示占比小点，而词法无关的结构法信息来提供更多的特征信息，由此提出了lexical-adversarial ∆-learning方法。描述如下图：

Figure 3(b) 整个模型的结构与lexical-specific相似，也是在输出部分构造两个分类器，不同点是这部分要求-Lexi，也就是说对于(t, c, w)，若输出标签(y, 1)，说明这部分的模型依旧能够学习到当前输入的词法相关信息，那么模型就会通过-Lexi操作来刨去这部分特征信息，使得下次遇到相同表示时，不会再学到词法相关的信息。
其实这里是用的对抗网络原理，作者用来表示词法相关表示的参数，用生成向量表示以混淆，通过最小最大化方法在最大的情况下减弱对特征表示的影响。
同样的，最终的loss为event classifier与lexical classifier二者之和。

实验结果

该模型在ACE05数据集上的结果：

该模型在TAC KBP2017数据集上的结果：

写在最后

个人认为这篇论文的亮点是这个利用对抗网络来生成词法无关的特征表示。作者对数据集真的太了解了，很多时候我们在考虑触发词的特征表示学习时只是正向思考，一味的捕获上下文提供给触发词的信息。虽然CNN本身可以获取局部结构化的特征信息，但利用对抗网络将这部分结构化信息当中掺杂的上下文相关特征信息给刨去，也就是作者论文题目当中的“蒸馏法”，使得结构式的特征信息更为明显，这样一些触发词我们在训练当中并未碰到，也不会因为网络没有学习到他而把他识别为负例标签。（秒~ 向作者学习！
还是新手，水平有限，若有错误还望不吝赐教~