知识图谱构建
- 本体和实体
概念 | 例子 |
---|---|
主题 | 人工智能 互联网 手机 |
概念层 | 深度学习 自动驾驶 机器学习 职能手机 |
实体层 | 特斯拉,iphonex,siri |
事件层 | 特斯拉撞车,三星手机爆炸,华为发布p20 |
- 数据来源:
技术文档
结构化数据
知识抽取
步骤如下:
1 实体识别NER(对专业实体进行分类标记,训练数据,从文中中实现自动抽取专业实体):https://www.jianshu.com/p/68b999d9e552
关键技术:
- 分词(备选)
- 对专业词汇进行精准的分类和标注
- 边界识别(BIO BIEOS)
- 模型 膨胀卷积,lstm crf
- 性能评估,准确率高
2 关系抽取;关系抽取的方法很多,基于模板的准确率高,最近出了一些基于端对端深度学习的关系抽取,attention-bilstm模型
- 给予模板的关系抽取,例如:老婆、妻子、配偶都是夫妻关系。
- 基于依存句法分析的关系抽取(主谓宾),
主语谓语宾语关系 (父亲, 是, 来自肯尼亚留学生)
定语后置动宾关系 (留学生, 来自, 肯尼亚)
主语谓语宾语关系 (母亲, 是, 堪萨斯州白人)
定语后置动宾关系 (期间, 就读, 夏威夷大学)
主语谓语宾语关系 (父亲, 前往, 哈佛大学)
主语谓语宾语关系 (奥巴马, 前往, 印度尼西亚首都雅加达)
人名/地名/机构 (印度尼西亚, 首都, 雅加达)
主语谓语宾语关系 (他一家, 回到, 夏威夷)
介宾关系主谓动补 (他, 就读于, 位于火奴鲁鲁大型私立学校普纳荷学校中华民国第一任临时大总统孙文就读)
定语后置动宾关系 (大型私立学校, 位于, 火奴鲁鲁)
主语谓语宾语关系 (他, 迁居, 美国本土)
主语谓语宾语关系 (奥巴马, 取得, 社会认同)
主语谓语宾语关系 (他, 过, 一段荒唐日子)
主语谓语宾语关系 (十几岁他, 成, 一个瘾君子)
主语谓语宾语关系 (来, 是, 谁)
主语谓语宾语关系 (问题, 挤出, 脑袋)
主语谓语宾语关系 (带来深刻影响, 是, 他父母亲)
主语谓语宾语关系 (他外祖父斯坦利·埃默·邓汉姆, 是, 影响青年奥巴马人物)
主语谓语宾语关系 (戴维斯, 成为, 奥巴马家里常客)
定语后置动宾关系 (大本营拉卡, 组织, 伊斯兰国)
主语谓语宾语关系 (组织伊斯兰国大本营拉卡, 开始, 出现恐慌)
主语谓语宾语关系 (拉卡市, 位于, 叙利亚北部)
主语谓语宾语关系 (当地居民, 说, 武装进逼)
主语谓语宾语关系 (俄罗斯, 加强, 空袭)
具体可见:https://www.jianshu.com/p/99cbfc1779c6
- bootstrpping 半监督学习,语义容易漂移,操作简单不不需要人工标注和斯坦福大学的deepdive差不多,属于半监督关系抽取,抽取非结构化文本构建通用知识图谱。
3 事件抽取
事件嵌入(时间地点人物,原因经过结果)
知识融合
主要是针对同义词,同名不同实体,同实体不同名字。
Dedupe适应于两个数据集具有相似的结构,通过计算相似度进行分类
http://www.openkg.cn/tool/dedupe
limes
Limes是一个基于度量空间的实体链接发现框架,结合了数学统计,前缀后缀,位置过滤来计算相似率。这个相似率用来过滤掉不符合匹配条件的实体对,以此减少比较时间复杂度,提高效率。http://www.openkg.cn/tool/limes
知识储存
分为:图数据库,NoSQL数据库,关系数据库
若结构复杂,关系复杂,用neo4j数据库
这两天最近学的neo4j的成果:
环境安装,cypher语句,实体关系创建和查询,数据的导入等
https://www.jianshu.com/p/653629a5a514
https://www.jianshu.com/p/f3d3b219b26c
知识推理
基于owl本体推理;例:mother是women;women属于person=》mother属于person
- 推理方法;tableaux运算;datalog语法推理
- 推理工具fact++;能和protage集成;RAFox推理机;jean推理
http://www.example.org/kse/finance#
已经做好的知识图谱例子
基于知识图谱的电影自动问答系统
https://blog.csdn.net/qq_30843221/article/details/54884151
农业领域的知识图谱构建
https://blog.csdn.net/kjcsdnblog/article/details/79747460
公开知识图谱数据
- 中文
1复旦知识工厂
2wikidata中文
3zhishi.me - 国外
freebase
DBpedia
yago
wolframalpha
http://live.babelnet.org/
babelnet
展示图
https://babelnet.org/synset?word=bn:00052121n&details=1&lang=ZH&orig=爱情
NELL
http://rtw.ml.cmu.edu/rtw/
构建流程图
启示
- 界定好范围,明确好场景和问题的定义
- 知识的定义比较关键,根据场景进行相关领域定义,定义出领域概念层次结构,以及概念之间的关系类型定义
- 数据是基础,利用好已有数据(百科,以及通用知识图谱)