知识图谱学习

如何衡量一家AI公司

2016-12-26  本文已影响103人  方弟

现在,人工智能很火,应该是相当的火,很多创业公司不管是不是真有智能都号称自己是人工智能公司,投资人追逐人工智能拼命的砸钱到这些公司生怕失去赚钱机会,媒体自媒体跟时髦不分青红皂白不追根问底更是火上加油。那么,到底应该怎么去考量一家人工智能创业公司呢?

如何去看一家人工智能创业公司。

第一,看创始人和团队的背景,之前是否有人工智能相关的教育,训练,和从业经验和实践。人工智能毕竟是高科技,不相信看看几本书,读读几篇文章,参加几次高端会议,就能成为专家,就能打造人工智能产品。

第二,看有没有自己IP的人工智能算法,算法有没有说得出的创新点。用了深度学习,或是其它机器学习算法,不一定就是人工智能吧,必须要有自己的创见,自己的革新,自己的特色;

好比Google当初发明PageRank的时候,其他搜索公司都在计算链接被引用的次数,并且把次数作为权重来指导排名。但是,PageRank把链接之间的关系抽象成了随机行走(Random Walk)模型,而不是简单的计数。这就是洞见,产品出来就超过了竞品,好评如潮。

AlphaGo和其他棋类算法一样也使用了蒙特卡罗搜索,但是,首创通过引入深度学习算法来指导剪枝和评估棋盘的优劣,从而超过之前任何别的算法,达到新的高度。阿尔法狗是新加入了“价值网络”“策略网络”两种深度神经网络算法,分别减少了搜索所需的广度和深度,靠着更精准的评估和更聪明的棋步选择;

阿尔法狗两个关键技术:一是获胜概率的数学模型(纯靠数据训练)二是启发式搜索算法—蒙特卡数搜索算,作用是将搜索空间限制在非常有限的范围内,保证计算机能够快速找到答案;

算法很重要,但需要理性的看待算法的壁垒。算法一般存在于人脑中,存在着被泄密的风险,开始可能有优势,时间长了,保不准被员工泄露,从而被竞争对手抄袭了,可见算法的风险也高,不是一劳永逸的东西。另外,算法调优中积累的经验也很重要,但有可能随着员工的流失而流失。

第三,看有没有有优势的数据,数据可能是长期积累的行业和通用大量数据,可能是很多的行业专家知识以规则或是知识图谱的形式存在。没有积累的大量数据,没有专家整理的知识,数据没有很好的清洗结构化甚至标签化,号称自己是人工智能公司,不知道智能能从哪冒出来。IBM的Watson能做精准医疗,他们在之前买了很多的医疗数据公司,积累和分析了大量的期刊,论文,病例,药品,治疗方案,等等数据,从而能使Watson能利用算法创造奇迹。

其实人工智能要在产业落地需要五大条件,首先是要有数据,要有明确的业务定义,也需要懂算法,要懂如何去设计架构,要懂得如何设计产品。人工智能真正在产业落地,不仅仅是一个学科的事情,而是五项综合的结果。

一个算法人才普遍学习过 1-3 年的深度学习、会用开源平台去训练模型,即使是这样的人也不多,而这些人更谈不上是研究大牛。所以我认为研究大牛是一种很稀缺的人才。当然,AI 产品经理也非常重要,因为他定义需求。如果造出来一个东西技术水平高,但不能解决实际问题,技术再高也没有实际价值。因此我们在创办一个商业公司,AI 产品经理也十分重要。

其实随着人工智能技术的发展,深度学习技术的应用,在数据来源选择、数据采集、数据分析处理、自然语言理解、网络语义分析、分词断句、组词成文等方面都可以通过软件算法来实现,把这些算法用到机器人系统中,就可以实现一些新闻稿子的自动撰写和审查来代替一部分记者工作;

未来新一代智能计算机,将集成人工智能算法和机器人技术,具有知识表示和推理能力,可以模拟或部分模拟代替人的智能,具有人机通信和理解的能力;随着电脑和智能硬件快速发展和普及应用,更多的先进计算和智能计算技术也得到了快速的研究和发展,尤其是智能逻辑(先进的自然语言理解系统)、并行计算(量子计算机和三值光计算机)、情感计算(电脑智能化的趋势)量子计算机利用量子力学规律来进行高速的数学和逻辑运算、存储及处理量子信息,其基本规律包括不确定原理、对应原理和波尔理论;

三值光计算机由上海计算机著名人工智能专家金翊教授发明的,光学计算机用液晶阵列控制光速偏振方向,同时配合偏振片来完成信息处理;情感计算的重点是通过各种传感器获取人的姿态及表情,并分析人的内在情感,建立“情感模型”使得电脑能够理解人的“喜怒哀乐”等情感变化并自动做出相应的动作;

其实人造系统智能化是一个漫长的、波浪式前进、螺旋式上升的进化过程,从感知到认知,从本能到技能,从组织到自组织,由量变到质变,由无机系统到耗散系统,由非生命体到生命体,由实体化到数字化,由数字化到智能化,最终达到三体一化;智能的核心是思维,一切思维不过就是计算;在三体智能中,人脑是“意识人体”的核心,电脑是“数字虚体”的核心;在人脑与电脑之间存在相互作用的连接线,从人脑到电脑是“数字建模”从电脑到人脑是“学习提升”

因为一个智能系统,始于感知,精于计算,巧于决策,勤于执行,善于学习;认识智能,理解智能,定义智能,走向智能是我们今天人类必须面对的课题;未来数字虚体中会有自己的运行法则和发展规律,甚至可以形成独立的自我意识,乃至出现数字人格,完整、完美地形成数体智能,成为平行于人类智能的新智能主体;

三体化一智能模型:简称三体模型;三体世界彼此交汇出了三个界面:物理实体—意识人体系统界面;意识人体—数字虚体系统界面;数字虚体—物理实体系统界面;所以三体交汇,认知互动,协同发展,共同进化;

所以说运算的智能不代表行动的智能;智能本质是一切生命系统对自然规律的感应、认知与运用;当人造系统能够像人一样具有一定的认知能力,既有感知、会分析、自决策、善动作,并且在分析与决策过程中善于运用知识、同时学习、积累乃至创造知识,就称其具有某种人造智能;

智能是一种普遍的心智能力,除其他事项外,涉及推理、规划、解决问题、抽象思维、理解复杂的思想、快速学习和从经验中学习的认知能力;一个系统是否具有对外界信息的感知与获取能力,是判断该系统是否智能的首要特征;

认知引擎:吃进数据,挤出知识,由认知技术的核心算法实现,具备了各种人脑认知能力,是一种为我们提供超强大的认知计算服务的超级系统;随着增强的技术和全息技术的不断发展,数字永生的概念似乎可以走进我们生活中;机器智能化,企业自组织化,制造社会化,创新常态化,一切服务化,体脑自由化,是即将到来的新工业革命的必然趋势;

认知计算系统程序正在酝酿下一轮的计算和信息处理技术革命,让计算系统获得超过当今系统的推理、学习能力及自主水平;那就得把自然语言处理、机器学习、知识再现(庞大的知识数据库)、人际交互和灵活规划等AI工具聚合到一起;未来需要的是智能增强(IA)而不是人工智能(AI);

我们人的知识体系及其演化路径:数据—信息—知识—认知—智慧;知识是模型化的,指导人做事的信息;智慧则是人的洞察力在意识上的体现,推断出未发生的事物之间的相关性,在既有知识的支持下产生创新知识;

未来必将进入“大知识”时代,人造系统也可以自动生产知识;意识人体对接数字虚体的方式有软件中介、脑机接口、芯片植入和行为感知等多种方式;在2015年美国华盛顿大学,该校科学家使用网络在1.5公里的距离内,将一个人的思想通过电磁波传给另一个人:这叫做思维意识传感;其实人的意念和思维是一种物质,可以转化成电磁波发送和接收;那人与人的思维(意识人体)可以通过数字虚体而彼此联接;未来植入人脑的超级芯片可以实现人脑意识之间的脑际互联网;

当大脑思考与记忆的机制研究清楚以及脑机接口的技术成熟后,人们完全可以把微型化智能数字装置作为一个“智脑”植入人体,需要什么知识就灌入什么知识模块芯片;三体交汇,智能爆发;知识互联,创新必成;当所有的知识能汇总、联接在一起成为大知识,无论何人何时何地从任何终端进入都可以找到关于任何事情的知识与信息,这对于创新来说是巨大的激发与诱导作用;

所以知识图谱是下一代搜索引擎、自动问答等智能应用的基础设施。互联网大数据是知识图谱的重要数据来源。知识表示是知识图谱构建与应用的基础技术。实体链指、关系抽取和知识推理是知识图谱构建与应用的核心技术。知识图谱与本体(Ontology)和语义网(Semantic Web)等密切相关。知识表示(Knowledge Representation)是人工智能的重要课题。知识图谱应用价值最大垂直领域:医疗,金融。

金融搜索引擎的背后核心技术是高质量的知识图谱和大量的业务规则,帮助实现联想、属性查找、短程关系发现。探索引擎,如分面浏览器,也是在知识图谱的基础上,则提供了人机协作的界面,让人对数据的探索过程可以很方便地被记录、迭代、重用。此外推荐系统和推送系统也非常有用,帮助金融用户聚焦在关键数据上,更省时省力地做投前发现和投后跟踪。

未来我国将进入一个经济金融市场化程度更高的新时代,利率、汇率等金融风险将成为市场主体日常经营中必须面对和处理的主要风险;全球的交易不断加速,越来越多的交易由计算机AI系统光速执行;目前高频交易者已经挤跑了传统的长期做市商;

动态的人工智能算法可以快速调整市场策略,就好像是真正的人类交易员那样学习、预测、并主动去适应市场的变化,而这些变化很大程度上正是由于人类固有的缺陷(恐惧、贪婪、信息不对称等)带来的;机器算法需要一个全新的“交易池”这将是一个全由机器算法驱动的交易池,各种算法可以在其中得到进化、演变、成长,甚至形成属于机器算法的“生态系统”;有些算法在编辑中采用了随机函数,这样它们就可以在不同策略之间随机切换,从而掩盖了它们的行踪;

在电子交易时代,对投资者来说,最好的最容易的最便宜的保护他们自己的方式就是使用所谓的限价订单;交易活跃是因为它们的雷达侦测算法感受到市场上的行情变化;

从目前来讲,绝大部分人工智能创业公司都是在基于 GPU 这样的计算平台和在基于 Caffe、TensorFlow 这样的开源平台用比较成熟的模型结构来训练,然后做一些解决性问题和 Demo,差异化确实不明显。基于现在的开源模式来做创新,在算法方面壁垒确实也不高。所以这就导致在一些标准问题里各家的效果都差不多,技术差距也并不大。这里面的核心原因之一就是中国人工智能原创性技术太少。

目前比较主流的框架就是谷歌的 TensorFlow、Facebook 的 Torch、传统的 Caffe、亚马逊的 MXNet 等;这些框架各有优点,比如 Caffe 对视觉成像分析做的非常好,谷歌的 TensorFlow 对自然语言处理做得非常好,MXNet 对多台机器平行处理做得非常好。所谓推理系统,就是AI的两种思考问题的模式,一种是基于记忆的,一种是基于逻辑的。于是,我们发现,AI其实拥有和人脑机器相似的思维模式。

最后总结一下中国人工智能产业4点现状:1、现下处于弱人工智能阶段;2、中国的大数据75%集中在政府手中,BAT次之;3、国际IT巨头盘踞硬件基础层,单纯做强计算这块基本没机会;4、人工智能的关键在于新算法,沉着等待下一个十年。

我们常常对人工智能的常见七大误解有:人工智能=机器学习,机器学习=深度学习;人工智能=海量数据,数据比算法更重要;专用智能=通用智能;人工智能=机器人;人工智能=机器人取代人类、机器人要统治世界;人工智能很快超过人类智能;人工智能与人类智能、机器人与人类=零和搏弈。语音识别不是人工智能问题而是一个通信问题,用通信技术模型解决语音识别问题;

上一篇下一篇

猜你喜欢

热点阅读