百度集中AI顶尖技术耗费数十个团队只为它

2018-02-01  本文已影响76人  慕白_简
WechatIMG3.jpeg

做过在线教育的同学对知识图谱一词肯定不陌生,而学霸们应该对这个也是很有心得,因为掌握了知识图谱,你就形成了自己的知识结构,有了框架,就差填充粮食了。那今天墨白就跟学渣们详细说说知识图谱到底是啥。

第一、什么是知识图谱

知识图谱是一个巨大的语义网络,主要由实体/概念及其之间的语义关系组成
举例如下:图1


WX20180201-174409.png

知识图谱的发展史,如图2


WX20180201-174553.png

这么说还是有点抽象,再举个实际的例子,你去搜索芳华的电影,得到如下结果


WX20180201-174419.png WX20180201-174427.png

第二、常见的知识图谱构建法

知识点来了。如何搭建知识图谱
步骤如下:

  1. 数据存储
  2. 知识融合,语义消歧
  3. 实体识别,关系抽取
  4. 各种形式的数据
    下面具体说说
    1、数据存储
    数据形式分为三种
  5. 有结构的数据:例如链式数据,数据库
  6. 半结构的数据,例如网页数据,表格数据
  7. 无结构数据,例如:文本
    如下图


    WX20180201-174437.png
WX20180201-174444.png

标题就是文本数据,infobox就是半结构数据

步骤(搞技术的可以看看)
  1. 基础存储
    a. 可按数据场景选择使用关系数据库、NOSQL数据库和内存数据库
    b. 基础存储保证可扩展,高可用
  2. 数据分割
    a. 属性表:依据数据类型划分
    b. 大属性单独列表:例如数量超过10M的属性单独列表
  3. 缓存与索引
    a. 使用分布式Redis作为缓存,按需对数据进行缓存
    b. 对实体或者关系按需进行索引
2、数据融合

比如刘德华跟华仔从语义上来说是一个人。

3、语义消歧

苹果表示的是水果还是手机,这个也需要去消除歧义,确定语义

第三、与知识图谱相关的教育应用

例1 百度教育平台 如下图
按照学科,门类,知识点来挂靠资源


WX20180201-174453.png

例2 百度智慧课堂

[图片上传中...(WX20180201-174509.png-f82af8-1517478445146-0)]

例3 百度文库

WX20180201-174509.png

第三、知识图谱如何改善教与学

现在的教学问题主要有三点

  1. 优质资源匮乏。资源质量低,并且更新速度慢
    a. 解决方案:线上2亿精选教学资源,每日新增10w+,年均增长216%,5w门课程,70w+视频课引入教学相关优质视频课程资源
  2. 资源难以互通。资源地区差异大,同地区资源不互通
    a. 帮助教师的方法:实现版本区分,准确把握不同教材的考点;开展教学空间,实现教材资料的共建共享
    b. 帮助学生的方法:聚合网上资源,帮助学生从多角度理解知识点或考点;资源推荐,帮助学生第一时间获得优质的教学资源
  3. 管理成本高。资源使用情况不明,资源建设方向决策成本高
    a. 帮助管理者结构化管理海量数据
    b. 智能分析学校资源建设的薄弱环节,促进教育资源平衡和决策
    c. 将离散的数据整合到一起,提供更有价值的决策支持
总结:搭建知识图谱是一个庞大的工程,需要教育专家,技术专家和产品设计的配置,百度教育团队耗费1-2年的时间积累,分教材版本搭建双层知识体系,适合有资金和技术实力的公司来做,打造自己的壁垒,在教育格局尚不明朗时,很少有公司贡献出自己的知识图谱供市场使用,所以自己搭建最稳妥。
上一篇下一篇

猜你喜欢

热点阅读