知识图谱简介

2018-08-17  本文已影响0人  Re0

知识图谱简介

本文根据幕布上这篇思维导图总结而得无需AI基础,小白也能看懂的知识图谱技术与应用
对知识图谱了解还不多,后续会跟进。。。

一、什么是知识图谱?

定义

学术上:语义网络(Semantic Network)的知识库
应用中:多关系图(Multi-relational Graph)

什么叫多关系图?

图:由节点和边构成,通常只包含一种类型的节点和边
多关系图:包含多种类型的节点和多种类型的边


图与多关系图的区别

知识图谱中的节点和边

节点

二、知识图谱的表达

属性图(Property Graph)

运用前提:当知识图拥有属性时
运用场景:工业界
[图片上传失败...(image-b7b9b9-1534511439797)]
图片概述:李明李飞是父子关系,李明拥有138开头的电话号,开通时间是2018
电话号属性:2018年开通
李明属性:25岁、职位总经理

RDF(资源描述框架)

运用前提:不支持实体或关系拥有属性
运用场景:学术界

三、知识抽取

数据主要来自2种渠道

  1. 业务本身的数据
    • 包含在公司内的数据库表
    • 以结构化的方式存储
    • 只需简单预处理即可输入后续AI系统
  2. 网络公开、抓取的数据
    • 以网页形式存在
    • 属于非结构化数据
    • 需要借助自然语言处理等技术提取结构化信息

处理非结构化数据涉及的自然语言处理技术

四、知识图谱的存储

基于RDF的存储

基于图数据库的存储

五、金融知识图谱的搭建

搭建的核心:

  1. 对业务的理解
  2. 知识图谱本身的设计

搭建步骤:

  1. 定义具体的业务问题
  2. 数据的收集和预处理
  3. 知识图谱的设计
  4. 把数据存入知识图谱
  5. 上层应用的开发,以及系统的评估

1. 定义具体的业务问题

哪种业务问题适合用知识图谱?

哪种业务问题适合用传统数据库?

案例需要解决的业务问题

2. 数据的收集 & 预处理

确定数据源:

  1. 用户的基本信息
    • 大多存储在业务表里,可直接提取使用: 如姓名、年龄、学历等
    • 个别字段需要进一步处理: 同一实体如用不同名称填写,则需要对齐
  2. 用户行为数据
    • 需要通过简单的处理,提取有效的信息: 如:“用户在某个页面停留时长”
  3. 运营商数据
  4. 网络上的公开信息
    • 需要信息抽取相关技术

3. 知识图谱的设计

常见问题
需要哪些实体、关系和属性?
哪些属性可以做为实体,哪些实体可以作为属性?
哪些信息不需要放在知识图谱中?
设计知识图谱BAFE原则
Business-业务原则
从业务逻辑出发

Analytics-分析原则
与关系分析无关的实体不放进图谱
Efficiency-效率原则

Redundancy-冗余原则
重复性信息、高频信息可放入传统数据库

4. 把数据存入知识图谱

10亿节点以下规模的图谱
使用Neo4j
超过10亿节点的庞大数据量

5. 上层应用的开发,以及系统的评估

基于规则的方法论

不一致性验证

不一致性验证

基于规则提取特征

[图片上传失败...(image-13d414-1534511439797)]

基于模式的判断

多点共享信息
基于概率的方法

社区挖掘:从数据图中找出一些社区,进行进一步分析
标签传播:核心在于节点之间信息的传递
基于概率的方法的缺点:需要足够多的数据

基于动态网络的分析

六、知识图谱在其他行业的应用

教育行业

依据交互、评测、互动数据,理解学生当前的知识体系
根据逻辑进行个性化教育、因材施教

证券行业

最为常见:“一个事件发生了,对哪些公司产生什么样的影响?”
如:公司1高管的负面事件,对其他公司的影响


高管负面事件
上一篇 下一篇

猜你喜欢

热点阅读