Nlp

实体链接(Entity-Linking)

2021-05-24  本文已影响0人  三方斜阳

关于实体链接(Entity-Linking)任务的调研。

1. 简介:

实体链接是指将自然语言文本中出现的实体提及(entity mention)关联到对应知识图谱实体上去的任务,如标准数据库,知识库,地名词典,维基百科页面等中的对应条目进行链接。

2. 主要的方法,三个模块:

3. 实现流程:

4. 候选实体生成

4.1. 词典匹配方法:

1)第一种采用完全匹配(exact match)方法,即文本中每个实体提及一定要准确出现在匹配词典中。完全匹配方法易于实现,但对词典实体提及集合的覆盖度要求较高。一旦某个实体提及发生变化,匹配过程就会失败。
2)第二种采用模糊匹配(fuzzy match)方法,即允许文本中每个实体提及和词典中对应的实体提及在字面上存在一定的差异。常见的模糊匹配机制包括:

  1. 如果文本中某个实体提及被词典中某个实体提及完全包含或它完全包含词典中某个实体提及,那么这两个实体提及模糊匹配成功;
  2. 如里文本中某个实体提及和词典中某个实体提及存在一定程度的单词重叠,那么这两个实体提及模糊匹配成功;
  3. 如果文本中某个实体提及和词典中某个实体提及基于字符串相似度算法(例如 character Dice score,skip bigram Dice score,Hamming distance,编辑距离等)具有很高的相似性,那么这两个实体提及模糊匹配成功
4.2. 统计学习方法(即命名实体识别)

5. 实体消歧(候选实体排序)

5.1. 监督学习方法:

监督学习方法使用的特征分为上下文无关特征和上下文相关特征两大类。

  1. 上下文无关特征(context-independent feature)仅基于实体提及和候选实体本身对不同候选实体进行打分和排序。常用的上下文无关特征包括:
  1. 上下文相关特征(context-dependent feature)基于实体提及和候选实体所在上下文之间的相关度对不同候选实体进行打分和排序。常用的上下文相关特征包括:
5.2 无监督学习算法:

为了减少实体链接系统对标注数据的需求,可以将无监督学习方法用于候选实体排序任务。常用的方法包括基于向量空间模型的方法和基于信息检索的方法。

6. 无链接提及预测:

由于知识图谱的不完备性,并不是每个实体提及在知识图谱中都能够找到对应的实体。对于这类实体提及,实体链接系统通常将其链接到一个特殊的“空实体(用符号 NIL 表示)”上去,该任务就是无链接提及预测(unlinkable mention prediction).
无链接提及预测任务常用的策略有三种:

7. 总结:

实体链接任务对智能问答系统而言非常重要。成功识别问题中提到的知识图谱实体不仅有助于问答系统对问题的理解、辅助问答系统完成对问题和答案类型的判断,还能将该实体作为桥梁从知识图谱中找到更多的相关信息帮助答案排序或答案生成任务。

在智能问答场景中,由于真实问题的长度通常较短、知识图谱内容不完备、实体链接对应标注数据集有限等原因,实体链接任务目前依然存在许多问题和挑战。未来的研究需要更大规模和更高覆盖度的标注数据,用于训练更加鲁棒(robust)的实体链接系统。此外,实体链接任务需要和智能问答系统进行整合,进行端到端的训练,这样有助于避免子模块可能产生的错误传递问题。

参考:
知识图谱问答:实体链接概述

上一篇下一篇

猜你喜欢

热点阅读