第一节 知识图谱概述
刚接触知识图谱,最近也在学习王昊奋老师的视频,做小小的总结,不好的地方多多指正!
一、知识图谱(Knowledge Graph,KG)与语义技术概述
KG,2012谷歌提出,作用是能辅助搜索(从网页搜索到语义搜索,从文本链接到数据链接),辅助问答,辅助决策,辅助AI(常识推理);
人的记忆偏重关联;
知识表示方法:框架系统、产生式规则、描述逻辑;
知识库形成:手工众包、格式转化、元组抽取、实体融合、链接预测、推理预测、语义嵌入
二、典型知识库系统简介
CYC:常识知识库,由术语Term和断言Assertions组成,http://www.cyc.com
Wordnet:英文词典知识库,主要用于词义消歧http://wordnet.princeton.com/
ConceptNet:常识知识库,三元组形式的关系型知识构成,更加自然语言的描述http://conceptnet.io/
Freebase:开源免费允许商业http://www.freebase.com
Wikidata:http://wikidata.org/
DBPedia:http://dbpedia.org
YAGO:集成Wikidata、Wordne、GeoNameshttp://mpii.de/yago
Babelnet:多语言词典数据库http://babelnet.org/
NELL:三元组知识库,采用互联网挖掘的方法从Web自动抽取http://rtw.ml.cmu.edu/
微软Concept Graph:用于文本理解和语义消歧http://concept.research.microsoft.com
Open KG:中文KG资源库
Zhshi.me:http://zhishi.me
cnSchema:基于社区维护的开中文KGhttp://caschema.org
三、KG技术概览
什么是知识表示?
利用计算机符号来表示人脑中的知识,以及通过符号之间的运算来模拟人脑的推理过程。
语义网知识表示框架
什么是三元组:主(节点)谓(边)宾(节点)
SPARQL是RDF的查询语言,类似SQL
JSON-LD:数据交换格式
RDFa,HTML5 MicroData:在网页中嵌入语义数据
知识抽取:NLP(自然语言)+KR(知识推理)
知识存储:基于关系数据库的存储和基于原生图的的存储
知识问答(KBQA):有一个知识库回答提问
知识推理:基于已知事实推出未知的事实,分类:(解决方法)基于描述逻辑、规则挖掘、概率逻辑、学习与神经网络的推理,(推理类型)缺省、连续变化、空间、因果关系推理
知识融合:工具-Dedupe(基于python的工具包),工具-LIMES,不要求两个数据集的实体具有相似的数据结构http://openkg/tool/limes
知识众包:Wikibase、Schema.ORG
四、典型案列简介
Open PHACTS(欧盟重大联合攻关项目),面向药物研发
中医药知识平台
电商知识图谱(阿里):电商管控,自动审核,不良商品下架
企业知识图谱应用(SAP)
金融:链接金融数据
大英博物馆:知识图谱与本体设计
BBC:打通BBC全领域