什么是知识图谱-知识图谱是什么
2022.1.28更新
今天又读了大量的资料。维基的词条也更新了,认为目前的流行词知识图谱(并非谷歌知识图谱产品)本身就没有明确的定义,同时和语义网络(semantic network不是语义网semantic web)的边界最近越来越模糊。语义网和知识图谱的区别
很多篇写两者相同点不同点的文章读下来推荐这篇。
标题乍一看有一些绕,但这恰好能代表了我研究生阶段的学习历程。研究生三年的研究方向是知识图谱,在这知识图谱作为“顶流”名词的三年里,知识图谱相关的报告、文章层出不穷。2021年3月27日我参加了DataFun举办的知识图谱峰会,这次的专家很多是来自大厂一线业务和一线研究之间,切切实实在脚踏实地做事的工程师和研究者,解答了我的疑惑和我不敢定论的一些事实。可以说直到临近毕业的一刻我才真正有自信解释好这两个问题。
如果在互联网上搜索知识图谱,可以找到很多图文并茂的讲者报告。现在看来,我可以自创一个词称这些报告为“科幻现实主义”:比起史玉柱之流还是多了“现实”的成分,可又实在是玷污了科学这个词所以称为“科幻”更合适。比较讽刺的是这些讲者背景介绍往往还一个比一个唬人。
我愿把“语义网络”称作“科幻现实主义知识图谱”的原罪。不是说“语义网络”这一个领域有问题,而是人的问题。相信搜索知识图谱的大家可能看到过这样类似的图片: 从语义网络到知识图谱语义网络是知识图谱的前身之一这一点并没有错,我也承认这个事实。我们先来看看知识图谱在搜索引擎的热度变化:
google trends与百度指数
在中文搜索引擎使用的是“知识图谱”关键词,在英文搜索引擎使用了“knowledge graph”关键词。可以看到英文搜索引擎中,这个词的热度实在2012年5月,之后热度保持平稳比2012年之前略高。而国内的搜索引擎从17年底开始热度节节飙升。
虽然常说互联网没有记忆,但是接下来就着科学严谨刨根问底的精神,在互联网上搜索知识图谱的痕迹。最终得到的几个关键时间节点如下:
知识图谱时间节点
相关的时间节点都标注上了出处。可以看到,其实这几个时间节点和语义网络都没有关系,而语义网络相关的资料中也完全没有出现过知识图谱的字样。语义网络和知识图谱的确有一定的相关性,但是相关性不等于因果性,更何况从数据和记录上来看这两个名词是没有交集的。如果抱着在语义网络领域的成就,往知识图谱领域套,那就未免有些违背科学精神了。说句题外话科学精神对我来说代表着严谨务实,认知来源于实践的价值取向。往近的说是将理论方法用于实践,提高生产力,为国家发展服务,往远的说就是解放全人类。
回到什么是知识图谱这个问题,我觉得这个问题最完美的答案在Introducing the Knowledge Graph: things, not strings。这篇文章是谷歌官方发布的,也正是这篇之后知识图谱的概念大火。从谷歌趋势(google trends)中可以查到,2012年5月这篇文章发布后搜索量达到了巅峰,随后趋势较为平缓。而百度指数在12年左右则较为平缓,在17年底18年初的时候开始猛增。18年也是我研究生入学的时候,那个时候热度被炒上了天我猜测和国务院17年发布的文件有关。
对于Introducing the Knowledge Graph: things, not strings这篇文章,看完可以发现,这篇文章非常质朴,没有和你扯什么建模世界万物的纽带,没有人工智能的基石,没有感知智能向认知智能跨越的重要一步,没有图灵的野望,没有....你懂的。但是这篇文章确确实实能告诉你,知识图谱是什么。或者说这篇文章的第一个单词“Search”,就告诉了你知识图谱是用来做什么的。
既然解答了“什么是知识图谱”,那标题的后半段,“知识图谱是什么”该怎么回答呢?我不妨尝试给出我的解释。为什么我说这两个问题可以代表我研究生阶段的学习历程,因为我认为这两个问题代表了科学研究绕不开的两个重要环节:掌握事物的本质原理,随后从本质出发进行新领域的探索研究。只有在真正掌握了“什么是知识图谱”之后,才能本着科学精神,对“知识图谱是什么”,知识图谱未来能有哪些应用场景、理论研究进行展望。让人惋惜的是大部分现状是大家都感一个时髦,学个名词蹭个热度,“人工智能大数据区块链知识图谱。在未掌握真正这类“流量术语”本质原理的情况下就开始对前景进行设想画饼,一些学科领军人物更是带头如此,在我看来是对科学的不尊重违背信仰。而且这样的行为严重影响了整个科研-工程转化流程,容易形成劣币驱逐良币的环境对于客户群体也是严重的误导,会将下游技术需求市场将来的发展带到坑里。这也是现在论文灌水严重的罪魁祸首之一。
所以对于“知识图谱是什么”这个问题,从身份出发如果是想用知识图谱解决实际问题的,那知识图谱就是一个结构化的技术手段,可以多阅读谷歌相关的技术文章;如果是要用知识图谱发表论文的,可以选择多读一些知识表示学习的论文,开山之作是2013年的TransE虽然在知识图谱峰会上很多工程师都表示这个技术目前没有应用意义(论文里都会画饼说有很大的研究应用前景,实际应用场景中有更简单的方法就可以解决)。至于知识图谱未来的前景如何,我的看法是知识图谱这个概念其实很早就有了而新的技术与新的环境给了知识图谱很多新的意义。就像椭圆相关性质定理被发现后的几百年才第一次在天文学领域有实际应用意义(按照从欧几里得到开普勒算的画得有1500年了)。知识图谱虽然不是一个基础理论学科,但在将来新的环境下与新的技术结合,说不定就能真正达成从感知智能走向认知智能。当然这一切的过程还需靠你我的实践努力,而不是纸上谈兵开空头支票。