第二节 数据就是能量
我们制作一个强人工智能,需要给他设置一个核心本能,并让这所有的选择都围绕核本能的价值来进行计算。而这个计算的过程基础就是收集、整理、分析和提取无穷无尽的数据。
狭义的数据包括传统企业级数据,互联网数据和新兴的物联网数据。广义的数据或者叫做大数据是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume——体量大、Variety——种类多、Value——密度低、Velocity——速度快)来概括大数据的特征。
体量大,截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。
种类多,相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
密度低,价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
速度快,大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。
如果我们把人工智能比作大脑。计算机比作机体,那么大数据就是血液,就是能量。数据的价值因为载体不同,处理方法不同,所产生的价值也不同。
现在,无论是传统行业还是新型行业,谁率先与人工智能融合成功,谁就能够从未来的金矿中发现它所蕴含的价值。而作为这个价值的载体——数据则主要从四个层次来体现其应用的价值。
一、元数据,元数据是对数据本身进行描述的数据,它是不可细分的原子,具体对象的一个属性,一个特征。比如,一辆汽车本身是数据。而这辆车的品牌、型号、价格、出厂日期、设计师等,就是它的元数据。元数据的价值主要有两点,一是能够从侧面描述对象,二是可以结构化。这一层级的数据是最原始的生命形态,也是其他高级数据的基础。
二、辅助决策,元数据非常简单,如果单单从元数据的角度来处理事务就很可能出现盲人摸象的尴尬,而如果我们把这些元数据进行适当的组合效果就会好很多。比如我们来通过用户对化妆品关键词的搜索和相关页面的停留时间,我们发现28岁以上的女性对知名品牌的化妆品有了一定的忠诚度,而25岁以下的则灵活多样。这一层级的数据主要是来为产品提供决策支持。
三、提取价值。在数据的数量和质量达到一定程度后,元数据就会发生一个质的变化。因为当数据足够多,多到比专家知道的还多的时候就已经可以替专家进行决策了。比如现在的银行信用记录,已经完全可以实现秒办信用卡的业务了。之所以可以代替传统营业员快速办理信用卡这种业务,主要是因为行中早就把你的信用记录进行估值了。即便是因为政策规定我们仍然通过传统营业员来办理信用卡业务,但是营业员本身还是通过这套系统来办理的,从营业员的角度这套征信系统其实就是一套实实在在的服务。这一层级的数据本身就是产品。
四、改变客户。我们之前也许不怎么觉得,但是现在的我们越来越发现,很多的用户画像、精准营销或者智能系统,正在不断地改变我们。比如我使用的浏览器总是出现我以前所关注的商品,这种做法出发点是好的,但是结果就是我们已经失去了自我。当我同样再使用这个浏览器的时候,那些可能对我有用的新商品,新文章最终将与我们擦肩而过。这一层级的数据已经拥有影响力了。
食物链
数据的四个层级,就像是生物界的一个食物链,随着数据层级越高它所产生的价值也就越大,大到可以影响消费者。
食物链这个词,最早是英国动物学家埃尔顿提出来的。比如:虎鲸吃海豹,海豹吃乌贼,乌贼吃鱼类,鱼类吃软体动物,软体动物吃浮游生物。
虽然生态系统中的生物种类众多,但是每种动物都在这个生态系统中扮演演着重要的作用,这种作用像一个链条一样缺一不可,如果中间的任何一个链条断裂,那么生活在这个生物链的生物都将不复存在。
比如:草原上,狼吃羊和马,是人和牲畜的大敌,但是狼也吃田鼠野兔和黄羊,田鼠野兔黄羊等又吃草,草又是羊和马的主要粮食,羊和马又是人的主要食物来源,草原是一个伟大的母亲,养育着她的子民们,这些生物组成了一个庞大的生物王国,形成了环环相扣的食物链,它们相互制约相互繁衍,与草原共同生存了几万年。可是有一天,牧人们来到了草原,看到狼吃牛羊,觉得狼是牛羊的大敌,于是就采用了各种方法消灭狼,甚至射杀狼群。 可是他们忘了,狼对于草原也是有利的,因为狼也吃田鼠黄羊等草原上的大害,才使得草原上没有太多的田鼠黄羊,这样也保住了绿草,使得牛羊有充足的食物来源。经过一段时间的杀戮,终于有一天,狼群被杀没了。他们以为这样牛羊就会多起来,可是事情的结果并不是这样,狼口脱身的田鼠野兔黄羊等大量繁殖,将一大片一大片的绿草吃光,经常地将草连根拔起。草原渐渐失去了青青绿草,处处是裸露的黄土,一旦起风,黄沙漫天,许多地方从此变成了沙漠,而牛羊因为没有了鲜嫩的绿草,数量也开始急剧减少。这就是破坏食物链的危害。
一个复杂的食物网是使生态系统保持稳定的重要条件,一般认为,食物网越复杂,生态系统抵抗外力干扰的能力就越强,食物网越简单,生态系统就越容易发生波动和毁灭。假如在一个岛屿上只生活着草、鹿和狼。在这种情况下,鹿一旦消失,狼就会饿死。如果除了鹿以外还有其他的食草动物(如牛或羚羊),那么鹿一旦消失,对狼的影响就不会那么大。
本节内容来自百度百科食物链如图3-2-3所示:
图3-2-3食物链我们的强人工智能也需要这样一套生态系统,元数据就像是阳光、土壤和水,辅助决策就像是植物、提取价值就像是动物,改变客户就是食肉动物,由于改变客户可能产生物极必反的效果,所以在改变客户之上又有一个层级,这个层级就是数据再次分解,数据分解就像是细菌和真菌。
我们把数据比作食物链的好处是比较直观系统的了解人工智能应用的不同场景,每个场景都是下一个场景的基础,而构成他们之间联系的链条就是数据的价值。
一般来说能够存活下来的人工智能公司或多或少都在扮演一种角色,而这种角色绝对是对他人有价值的,但是他们却不会轻易泄露自己的机器、算法、数据和模型。
备注:每一个公司都有他的生存之道。