可汗精读《人工智能导论》04知识图谱
知识图谱
知识图谱
导论
- 以结构化的形式描述客观世界中的概念、实体间的复杂关系
- 将互联网的信息表达成更接近人类认知世界的形式
- 为人类提供了一种更好地组织、管理和理解互联网海量信息的能力
- 采用本体知识表示方法
- 是语义Web技术在互联网上的成功应用
最初由谷歌与2012年提出
目的是利用网络多源数据构建的知识库来增强语义搜索、提升搜索质量
旨在以结构化的形式描述客观世界中存在的概念、实体及其间的复杂关系
- 概念是指人们在认识世界过程中形成的对客观事物的概念化表示
- 实体是客观世界中的具体事物
- 关系描述概念、实体之间客观存在的关联
知识卡片
-
知识图谱在搜索中的展现形式
-
传统搜索把包含关键词的页面作为关键结果返回给用户
-
知识卡片旨在为用户提供更多与搜索内容相关的信息
-
为用户查询或返回答案中所包含的概念或实体提供详细的结构化摘要,实现对搜索效果的三个方面提升
- 找到最想要的消息
- 提供最全面的摘要
- 让搜索更有深度和广度
-
可以展示实体间关系的信息
与Gruber在1993年提出的本体知识表示概念一致,可以看做是本体知识表示在互联网大数据时代的知识表示的一个实际应用
本体知识表示
本体的定义
-
源于哲学领域,一直存在不同的用法
-
本体论
-
研究“存在”的科学
- 试图解释存在时什么
- 试图解释世间所有存在的共同特征是什么
-
基本元素
- 概念及概念间的关联
-
-
计算机领域本地指一种“形式化的、对于共享概念体系的明确且详细的说明”
-
显式的定义了领域中的概念、关系和公里及其之间的关系
本体的特性
-
概念化
- 对客观世界中存在事物或现象以及他们之间关系的概念化抽象
-
精确性
- 本题中的概念、关系以及各种约束被精确地定义
-
形式化
- 为了方便人机交互和计算机推理,因此其定义是形式化且及其可理解和推理计算的
-
共享性
- 表示要建立在领域内的共同认知基础上,可以有效促进知识共享
本体的组成
-
概念(concept)
- 也称类
- 是某一领域内相同性质对象集合的抽象表示形式
-
实例(instance)
- 概念中的特定元素
- 往往对应客观世界的具体事物
-
关系(relation)
- 也称属性
- 是指概念与概念或概念与实例间的关系类型
- 关系(属性)的兴义能够更好地刻画概念的属性
- 关系可以关联实例
- 关系还可以关联具体的字符串或者数值
-
公理(axiom)
- 描述领域内总是成立(为真)的陈述
- 是对所定义领域规则的描述
万维网知识表示
以为本和超链接描述信息,为人民提供一个知识开放共享的平台
正在进行仅包含网页和网页间超链接的文档向包含实体和实体之间丰富关系的数据万维网的转变
语义万维网
-
与万维网的区别
- 万维网是关于网页链接的图结构,节点是网页,网页内容是动态的、面向人理解的内容
- 语义Web中,网络结构是万维网上内容的结构化表示,不仅人可以理解,可以同步发布及其可以处理和理解的内容,通过规范和链接实现数据集成
-
超文本
- 用超链接的方法讲各种不同空间的文字信息组织在一起的网状文本
- 设计思想史面向用户,需要人理解网页内容,机器只负责解析和展示,不能理解和推理网页内容
- 网络上的语义内容可以很容易地被人获取,但无法被计算机理解和计算
-
万维网协议
- 用户通过超链接浏览互联网上的各类资源
- 也可以通过互联网讲自己的信息发布出去
-
愿景
- 信息内容具有良好的语义定义
- 计算机可以理解并自动存取语义,进行推理、完成特定任务的智能服务
- 计算机和人能够更好的协同工作
-
语义万维网的实现
- 需要将当前面向人理解的互联网内容编程面向机器的具有语义的内容
- 需要万维网内容的知识表示手段
- 在语义Web下有很多完成特定任务的智能代理,可以存取互联网知识并且与其他智能代理进行交互
- 本体定义了互联网上知识表示的方法
- 互联网内容是嵌入以本体描述的计算机可以理解和推理的结构化内容
- 个人助理之间通过本体定义的语义进行交互
-
互联网的语义信息是分布式定义并且连接的
万维网知识描述语言
-
可扩展标记语言XML
-
一种使用标签来组织互联网信息内容的标记语言
-
由三个基本概念组成
-
标签
- 用于标识一段数据
-
元素
- 被标签包围的数据
-
属性
- 元素可以具有属性,属性用来为元素提供额外的信息
-
-
本质上是个树形结构
-
每个XML文档有且仅有一个顶级标签
-
每个元素必须包含一个开始标签和一个结束标签
-
标签不能较差,必须被正确的嵌套
-
元素可以包含属性,但是属性名不能重复使用
-
标签和属性的名字必须被允许
- 特定领域只能使用特定的标签和属性
-
-
-
资源描述框架RDF与链接数据
-
与XML的区别
-
XML没有对每个标签意义的准确描述
-
同一语义可以用多种不同结构的XML进行表叔
-
在没有额外信息的情况下
- 机器无法理解每个标签的准确含义
- 无法理解各个标签之间的关系
- 无法进行知识的推理
-
-
实现语义网的三个功能
- 保证了语义网的内容有准确含义
- 保证了语义网的内容可以被计算机理解并处理
- 可以通过各种网页中的内容集成帮助进行自动数据处理
-
RDF的重要概念
-
资源
- 存在全球统一资源标识符的事务
- 它是互联网正在讨论或者指向的任何事物
- RDF中的各种定义本身也是资源
- 可以对应知识图谱表示中的概念、实体和关系
-
属性
- 一种特殊的资源,它描述了资源之间的关系
-
陈述
- 一个由主语、谓语、宾语构成的三元组
- 主语、谓语、宾语都是资源
- 主语是资源,谓语和宾语分别表示其属性和属性值
-
-
如果将RDF的一个三元组中的主语和宾语表示成节点,讲之间的关系表达成一条从主语到宾语的有向边,则所有RDF三元组就将互联网的知识结构转化为图结构
-
RDF Schema是用来定义RDF中的类和属性语义的描述性语言
-
链接数据提出的目的是将网络上众多的数据链接起来,构建一个计算机能够理解的语义网络
-
链接数据构建的四个基本原则
- 与RDF一样,使用URI来标识每个事物(资源)
- 使用HTTP URI。便于用户可以像访问网页一样直接查看事物,真正实现互联
- 当用户查看一个URI时,可以使用RDF等标准提供有用的信息
- 为事物添加与其他事物的URI连接,建立数据关联
-
链接数据的意义
- 打破了各种格式信息之间的隔离
- 打破了不同信息来源之间的隔阂
- 由于标准统一,链接数据使数据集成和浏览复杂数据变得容易
- 可以比较容易的更新和扩展模型
- 遵循全球统一的链接原则也会提升数据的质量,使数据的运用和传递更加方便
-
-
网络本体语言OWL
-
进一步增强了RDF的语义表达能力,是W3C标准定义的基于描述逻辑的本体语言
-
其构造函数/公里是受限的,因此在OWL中的推理是可判断的
-
主要体现在对属性和类的予以描述两方面
-
属性刻画方面
- 使用定义域和值域来表示该属性使用的类和取值范围,将属性与类关联
- 可以通过子属性来具体化一个属性
-
OWL的特征
- 对称性
- 传递性
- 函数性
- 可逆性
- 反函数性
- 可以定义属性的值约束和基数约束,在一定程度上确保其推理的正确性
-
与RDF比较
- 可以通过枚举所有实例的方式定义类
- 可以通过已有类的集合操作来定义新的类
- 可以定义类之间的等价和不相交关系
-
知识图谱的现状及发展
维基类知识结构化与常用知识图谱
- 维基百科是有维基媒体基金会负责运营的一个自由内容、自由编辑的多语言知识库
- DBpedia是开放链接数据的核心,起源于由德国自由大学以及莱比锡大学的研究者在2007年发起的一项从维基百科里萃取结构化知识的项目
- Freebase是一个由元数据组成的大型合作知识库
- YAGO是由德国马克斯-普朗克研究所构建的大型多语言的语义知识库
- BabelNet是最大的多语言百科全书式的字段和语义网络
- XLORE是有清华大学知识工程研究是自主构建的基于中英文维基和百度百科的开放知识平台
知识图谱的生命周期
-
生命周期
-
知识建模
-
定义领域知识描述的概念、事件、规则及其相互关系的知识表示方法,简历知识图谱的概念模型
-
主要包括
-
领域概念
- 人们理解客观世界的线索
- 人们对客观世界中的事务在不同层次上的概念化描述
-
概念层次
-
知识图谱的骨骼
-
概念体系的诸多问题
- 概念数量少、知识覆盖率低
- 上下位关系稀疏、概念扁平化组织、知识的精确度低
- 上下位关系错误和噪声多、概念结构混乱
-
目的
- 确定概念与自概念之间的关系
- 判断两个概念之间是否存在上下位关系
-
基本步骤
- 进行概念抽取
- 对概念间上下位关系进行识别
- 将概念以识别得到的上下位关系为基础组织成树或有向无环图的结构
-
-
-
-
知识获取
-
对知识模型定义的只是要素进行实例化的过程
-
实例的属性描述以三元组的形式表示,数量决定了知识图谱的丰富程度
-
方法分类
-
有监督的方法
- 基于规则
- 基于分类
- 基于序列标注
-
半监督的方法
- 自扩展方法
- 远程监督方法
-
无监督的方法
- 开放信息抽取
-
-
知识图谱语义集成的核心是本体模式层和实例层的匹配问题,即本体映射
-
匹配方法
-
基于实体
- 独立的对实体进行分析
- 不考虑实体与其他实体的关系
- 多利用实体相关的文本信息
-
基于结构
- 通过分析实体与其他实体的结构中的关系来计算相关性
- 主要基于图结构的匹配
-
-
-
知识管理
- 研究图谱只是的存储和索引,方便快速访问和查询
- 管理利用图数据库实现
-
知识赋能
- 增强搜索结果
- 改善用户搜索体验
- 应用于知识问答
- 领域大数据分析
-
-
获取知识的资源对象分类
-
结构化
- 知识定义和表示都比较完备的数据
-
半结构化
- 虽然知识的表示和定义并不一定规范统一,其中部分数据仍遵循特定表示以较好的结构化呈度呈现,仍存在大量结构化较低的数据
-
非结构化
- 没有定义和规范约束的自由数据
-
-
知识在数据中的分布特点
-
多媒体性
- 同一知识可能表达为不同的媒体形式
-
隐蔽性
- 很多有价值的知识可能存在于网页链接或者资源文件中
-
分布性
- 关于同一事物的不同方面的只是往往分布也各异
-
异构性
- 知识的分布表达和定义不可避免的造成异构性,即不同用户对于同一知识表示的表达和理解存在或多或少的差异
-
海量性
- 较传统人工编撰的知识库,互联网上的知识的规模巨大
-
知识图谱的应用示例
语义搜索方面
- 利用良好定义的结构形式,以又想吐的方式提供满足用户需求的结构化语义内容
知识问答
- IBM的Watson智能答题机器人
知识驱动的大数据与决策
- 决定了美剧《纸牌屋》的拍摄