知识图谱学习笔记(四)——知识框架学习与融合
2019-12-18 本文已影响0人
aidanmomo
知识框架学习与融合
1.本体
本体通过对于概念(concept)、术语(terminology)及其相互关系(relation,property)的规范化(conceptualization)描述,勾画出某一领域的基本知识体系和描述语言。
在这里插入图片描述
- Conceptualization
1.Abstract model(concepts)
2.指某一概念系统所蕴含的语义结构,它是对某一事实结构的一组非正式的约束规则。它可以理解和/或表达为一组概念(如实体、属性、过程)及其定义和相互关系。 - Explicit
概念是被明确定义的。 - Formal
机器可读的 - Shared
Accepted by a group and not private to some individual.
Ontology vs. Knowledge Base
本体、知识库、知识图谱之间的关系
- Ontology:共享概念化的规范,涉及概念、关系和公理三个要素
-
Knowledge:服从于ontology控制的知识单元的载体
在这里插入图片描述
2.Ontology Learning(Constructing Ontology)
- 手工构建Domain Ontology
- 自动构建
1.目前还不能直接使用
2.但是可以节省人力
构建本体的关键步骤包括:
1.Concept Extraction节点
2.Taxonomical relation extraction关系
3.No-taxonomical relation extraction属性
从半结构化(Semi-structured)数据中提取
从纯文本数据中提取(可使用术语提取工具)
3. Ontology Matching本体对齐
在这里插入图片描述- 任务描述:
给定两个本体和,和分别是两个本体中元素(实体,关系),本体对齐的目标是建立三元组,r为两个本体中元素之间的关系。
在这里插入图片描述
本体对齐的核心问题是语义匹配问题,包括字符、结构、语义。
3.1 String-based Methods
- String equality
Hamming Distance - Substring test
- Substring Similarity
Prefix : net = network; hot = hotel
Suffix : ID = PID; word = sword - N-gram SimilarityN-元模型
- Substring Similarity
- Edit Distance
- Token based Distance
3.2 Language based Methods
- Linguistic Normalization
1.Tokenization:Hands-Free_kits表示成<hands, free, kits>
2.Lemmatization(词形还原):Kits表示成Kit
3.Elimination: a, the, by, type of, their, from
3.3 Linguistic resources
- Sense-based : WordNet
- A B : A是B的下义词或者A是B的一部分
- B A:A是B的上义词,或者A是B的整体
- A = B:A与B是同义词关系
- A B:A与B是反义词关系或者是兄弟关系。
3.4 Constraint-based methods
3.5 Graph-based techniques
- If the neighbors of two nodes of the two ontologies are similar, they will be more similar.
3.6 Taxonomy-based techniques
- 如果两个非叶子节点的孩子节点是可以对齐的,那么这两个非叶子节点也应该对齐
-
如果两个非叶子节点的孩子节点(叶节点)是可以对齐的,即使他们的孩子节点(非叶节点)不相似,那么这两个非叶节点也应该对齐。
在这里插入图片描述
3.7 相似度计算方法
-
Structural topological dissimilarity
在这里插入图片描述
表示e和c之间边的数量 -
Upward co-topic similarity
在这里插入图片描述
表示c的superclasses的集合
3.8 Global Methods : Bayesian networks
全局寻优、联合推断:贝叶斯网