3、知识图谱构建技术
知识图谱的构建需要应用到多方面信息处理技术。知识抽取从多种数据源中提取知识并存入知识图谱,是构建大规模知识图谱的基础。知识融合可以解决不同知识图谱的异构问题,通过知识融合,能够使得不同数据源的异构知识图谱相互联通、相互操作,从而提高知识图谱的质量。知识计算是知识图谱的主要输出能力,其中,知识推理是最重要的能力之一,其为知识精细化工作以及辅助决策的实现方式。本节根据知识图谱的体系架构详细介绍知识抽取、知识融合、知识推理的相关研究。
1、知识抽取
知识抽取主要分为命名实体识别和关系抽取 2 个方面。按照其发展历程,主要可分为 3 类方法,分别
是基于传统规则和模板、基于统计机器学习、基于深度学习的知识抽取。
![](https://img.haomeiwen.com/i6689132/477220e60bb8e507.png)
1.1 命名实体识别
1.2 关系抽取
1.2.1 基于传统规则和模板的方法
传统的关系抽取主要采用人工编写规则和模板的方法来实现,一般是由特定领域的专家手动编写模板来匹配关系,这种基于规则和模板的方法会耗费领域专家大量的时间和精力,且可移植性较差,无法适应数据的变化。
1.2.2 基于传统机器学习的方法
对于关系抽取而言,传统的机器学习方法可以分为有监督、半监督和无监督 3 类。有监督的关系抽取算法受到标注数据集的制约,其准确率受到标注数据质量和数量的影响,并且不能拓展新关系;学术界开始转向研究半监督和无监督的学习方法,这 2 种方法对标注数据的依赖性较弱,适合缺少语料数据的关系抽取任务。无监督学习具有领域无关性,非常适合大规模开放领域的关系抽取。基于传统机器学习的方法缺点同样明显,该类方法存在特征提取误差传播问题,因此,研究人员开始将深度学习和实体关系抽取相结合。
1.2.3 基于深度学习的方法
基于深度学习的关系抽取方法改善了特征提取误差传播的问题,是近些年的研究热点。本文将基于深度学习的关系抽取方法分为流水线方法和实体关系联合抽取方法两类。
流水线方法
流水线方法分 2 步抽取信息,先抽取实体再抽取关系,最后整合三元组输出。流水线方法一般采用CNN、RNN及其改进模型进行关系抽取,由于它们不需要手动构造特征并且预测精度很高,因此得到广泛关注和应用。
实体关系联合抽取方法
传统的流水线方法先抽取实体再抽取关系,其存在错误传播的问题,实体识别模块的效果直接影响关系抽取模块的抽取效果。另外,实体识别模块中抽取的实体对不一定完全存在关系,没有关系的实体对会带来冗余信息,影响分类效果。联合抽取方法将实体识别和关系抽取模型相融合,直接在文本中抽取实体关系三元组。联合抽取方法可分为 2 种,分别是基于参数共享和基于序列标注的联合抽取方法。
2、知识融合
知识图谱的构建数据来源十分广泛,不同数据源之间的知识缺乏深入的关联,知识重复问题很严重。知识融合将来自不同数据源的异构化、多样化的知识在同一个框架下进行消歧、加工、整合等,达到数据、信息等多个角度的融合。知识融合的核心在于映射的生成,目前,知识融合技术可以分为本体融合和数据融合 2 个方面。
2.1 本体融合
在知识融合技术中,本体层占据着重要部分。到目前为止,研究人员已经提出了多种解决本体异构的方法,主要分为本体集成和本体映射两大类。本体集成是将多个不同数据源的异构本体集成为一个统一的本体,本体映射则是在多个本体之间建立映射规则,使信息在不同本体之间进行传递。
![](https://img.haomeiwen.com/i6689132/0777296d837caa28.png)
2.2 数据融合
数据方面的知识融合包括实体合并、实体对齐、实体属性融合等方面。其中,实体对齐是多源知识融合的重要部分,用于消除实体指向不一致性与冲突问题。知识图谱的对齐算法可分为 3 类,分别是成对实体对齐、局部实体对齐和全局实体对齐。
成对实体对齐。成对实体对齐方法包括基于传统概率模型和基于机器学习的实体对齐方法。利用属性相似度将实体匹配问题转换为分类问题;局部实体对齐方法引入实体属性并为其分配不同的权重,再进行加权求和计算实体的相似度;全局实体对齐全局实体对齐综合考虑多种匹配策略来判别实体相似度,包括基于相似性传播和概率模型的实体对齐方法。
3、知识推理
知识推理根据已有的实体关系信息来推断新的事实结论,从而进一步丰富知识图谱,满足上游任务的需求。本文将知识推理方法主要分为 3 种类型,分别为基于逻辑规则的推理、基于分布式特征表示的推理和基于深度学习的推理。
3.1 基于逻辑规则的推理
基于逻辑规则的推理包括谓词逻辑推理、本体推理和随机推理。
3.2 基于分布式特征表示的推理
基于分布式特征表示的推理包括基于翻译模型的知识推理、基于张量分解的知识推理以及基于语义匹配模型的知识推理。
3.2.1 基于翻译模型的知识推理
整合三元组周围的邻域信息,其采用对象嵌入和上下文嵌入表示实体与关系,提升了知识推理的性能。
3.2.2 基于张量分解的知识推理
在基于张量分解的知识推理中,一般将知识图谱中的实体关系三元组通过张量分解方法进行表示学习,将分解得到的向量重构为张量,元素值高于一定阈值的作为候选推理结果。
张量是一种数学概念。在深度学习和机器学习中,张量通常被用来表示多维数据。例如,一个二维张量可以表示一个图像,其中的每个元素代表图像中的一个像素;一个三维张量可以表示一系列图像,或者一个彩色图像,其中的每个元素代表图像中的一个像素和其对应的颜色通道。张量的一个重要特性是它的阶(或维度)。标量可以被视为零阶张量,向量可以被视为一阶张量,矩阵可以被视为二阶张量,以此类推。张量的阶数可以用来描述它的复杂性或者它可以表示的信息的丰富程度。
3.2.3 基于语义匹配模型的知识推理
提出 DistMult模型,其将 RESCAL 中的每一个关系向量转换为对角矩阵,从而对 RESCAL 进行简化,减少参数,在对现有知识库的推理中表现出了较好的效果。但是,无论是 RESCAL 还是 DistMult,都忽略了实体和关系的语义多样性。2017年,刘峤等认为每个关系都反映了相应实体的某些语义关系,可以通过选择性的加权来对这些关系进行表示和区分,因此,其提出统一加权模型(Unified Weighted Model,UWM)和独立加权模型(Independent Weighted Model,IWM)关系推理算法,计算效率较高。2019年,ZHANG等引入超复数来建模实体和关系,同样将关系看作超平面内头实体到尾实体的旋转,相对于 Rotate 只有一个旋转平面,QuatE 有 2 个旋转平面,其自由度及泛化能力更好。
3.3 基于深度学习的推理
目前,深度神经网络已被广泛应用于 NLP 领域,并取得了显著的成效。神经网络可以自动捕捉特征,通过非线性变换将输入数据从原始空间映射到另一个特征空间并自动学习特征表示,适用于知识推理这种抽象任务。
NTN采用双线性张量层直接将两个实体向量跨多个维度联系起来,刻画实体之间复杂的语义联系,显著提高推理性能。