NERpaper---《Named Entity Recogni

2021-04-15 本文已影响0人陶_306c

0、数据集

第一个是《纽约时报》(New York Times, NYT)的数据集，它是通过远距离监控方法产生的(Riedel et al.， 2010)。该数据集包含从294k 1987-2007年《纽约时报》新闻文章中抽取的118万个句子。共有24个有效关系。在本文中，我们将该数据集视为与Zheng等人(2017)相同的监督数据。我们过滤了100多个单词的句子和不包含正三联句的句子，剩下66195个句子。我们从其中随机选取5000个句子作为测试集，5000个句子作为验证集，其余的56195个句子作为训练集。

第二个是WebNLG数据集(Gardent等，2017)。它最初是为自然语言生成(NLG)任务而创建的。该数据集包含246个有效关系。在这个数据集中，一个实例包括一组三联体和几个标准句(由人工编写)。每个标准句都包含这个实例的所有三元组。在我们的实验中，我们只使用第一个标准句，如果在这个标准句中没有找到所有的三胞胎实体，我们就过滤掉这些实例。原点WebNLG数据集包含训练和发展集合。在我们的实验中,我们对待起源发展集作为测试集和随机分割原点为验证组和训练集训练。过滤和分离后,列车集包含5019实例,测试集包含703个实例和验证集包含500个实例。

1、前言

针对社交媒体上的短文本，包含各种类型的实体，且识别难度更大，因为有些实体的书写并不符合正常的语法习惯，被用户随心缩写，导致这类实体出现的概率很小，呈现稀疏性。针对上述问题，本文介绍了一种最新识别模型，核心思想是提出语义扩充的方式来增强NER的识别效果，该文章发表在2020年EMNLP会议上。paper下载地址：https://www.aclweb.org/anthology/2020.emnlp-main.107.pdf。

2、模型

上图为paper中模型框架图，主要分两个部分，第一部分是左边子图的Tagging Procedure，第二部分是右边子图的Semantic Augmentation。前者可看着一个正常的序列标注识别框架，后者是论文提出的语义扩充的实现思路。其中，Gating Module是二者融合的模块。接着详细介绍各个环节。
在Embedding Layer中，采用word2vec，GloVe等类似预训练词向量进行转化。
在Context Encoding中，采用一种变体Transfomer结构进行文本编码，详情可以阅读对应paper。通过encoder后，输入的文本得到对应的编码向量H。
在Semactic Augmentation中，对每个token(也就是

x_i

)在预训练的向量矩阵中找到其最相似的前m个词（consine计算方式），得到每个token的相似集合C。
在相似集合中，并不是每个词都是有用的，接着做一次类似attention计算，将每个相似的贡献区别性对待。

其中

p_i,_j

为第j个相似词对第i个token的贡献权重，

e_i,_j

为对应的词向量，得到的

v_i

就为第i个token的语义扩充信息。
在Gating Module中，是实现向量

h_i

与

v_i

与的融合，在融合的时候，文中采用控制门的形式，计算方式如下：

其中

g

为学习到的控制门参数，取值为{0,1}，

u_i

即为融合后的每个token最终的表征向量。在此基础上，做最后的序列label预测。

3、实验

实验室在3个社交媒体的数据集上进行，包含WNUT17（W17），WNUT16（W16）和微博（WB），W16和W17是推特英文数据集，WB是中文。

句子的数量 (#Sent.), 实体 (#Ent.), 未见过实体的百分比 (%Uns.)。
文本输入部分，每种语言用两种编码方式。英文：ELMo,BERT-cased large (Devlin et al., 2019); 中文：Tencent Embedding (Song et al., 2018b), and ZEN (Diao et al., 2019).
在上下文编码模型中，用了a two-layer transformer-based encoder with 128 hidden units and 12 heads.
用预训练词嵌入（来自英文GloVe）取具有增强语义信息的相似词。用腾讯的中文词嵌入提取最相似的10个词。
在augmentation module部分，随机初始化提取到的词的embedding。

实验配置

train

使用Adam去优化negative loglikelihood loss function with the learning rate set η = 0.0001， β1 = 0.9 and β2 = 0.99.
epoch=50
batch_size=32
tune the hyper-parameters on the development set

结语

此外，在针对Unseen Entity类的实体，最高有3%的提升。这类实体存在稀疏性，也说明该模型可以一定程度解决该问题。