@IT·互联网

智能时代——大数据与智能革命重新定义未来

2019-10-13  本文已影响0人  Petersword

Orientation:

作者:吴军;出版社:中信出版社,2016.

序言

“用不确定的眼光来看待世界,再用信息来消除这种不确定性”,是大数据解决智能问题的本质。

第一章 数据——人类建造文明的基石

作者首先要求读者对“数据”有一个正确的认识:

1、数据的范畴比数字大得多,并且随着文明的进程不断变化和扩大。

2、我们人类的活动本身,也可以看成是一种特殊的数据,比如我们玩游戏的行为、我们的社会关系、我们每天的活动等。

关于数据、信息与知识

1、只有善用数据,我们才能得到意想不到的惊喜,即数据背后的信息。这些信息和知识是隐藏的,只有具有相关领域专业知识的人才能将它们发掘出来。

2、对数据和信息进行处理后,人类就可以获得知识。知识比信息更高一个层次,也更加抽象,它具有系统性的特征。比如通过测量星球的位置和对应的时间,就得到数据;通过这些数据得到星球的运动轨迹,就是信息;通过信息总结出开普勒三定律,就是知识。

数据推动人类文明向前发展

人类文明过程其实伴随这样一个过程:

获取数据——分析数据——建立模型——预测未知

例1:为了准确预测洪水到来和退去的时间,以及洪水的大小,古埃及人观察天象,并在此基础上开创了天文学。

例2:美索不达米亚平原的苏美人,利用他们所获得的天文馆测数据建立起数学模型,从而计算出月亮和五大行星的运行周期,并且能够预测日食和月食。

例3:开普勒三定律。

把握数据的相关性是使用数据的关键

当我们无法直接获取信息的时候,我们可以将相关联的信息量化,然后通过数学模型,间接地得到所要的信息。

例:美国疾病控制与预防中心在2009年利用Google Trends及时了解了禽流感疫情信息。

什么是“数据驱动”?

数据在手里,就要建立模型。过去,大家把主要精力都放在找模型上。因为如果一开始模型选得不好,以后修修补补就很麻烦。一个典型的例子就是,无论支持地心说的托勒密,还是支持日心说的哥白尼,都假定行星运动轨迹是最简单的圆,而不是更准确的椭圆。

鉴于完美的模型未必存在,即使存在,找到它也非常不容易,而且费时间,因此就有人考虑是否能通过用很多简单不完美的模型凑在一起,起到完美模型的效果呢?如今这个答案是肯定的。

比如美国和苏联在飞机、航天器和其他武器上的理念和方法就不同。苏联设计人员数学好但缺乏高性能的计算机和大量的数据,因此他们的数学模型比较准确但是复杂;美国设计人员数学一班但计算机强、数据也多,因此他们喜欢用很多简单的模型来替代一个复杂的模型。两国产品各有千秋,但从结果来看,美国似乎更胜一筹。

这种在大量数据支撑下,用若干个简单模型取代一个复杂模型的方法,被称为数据驱动方法。

这种方法的最大好处是,随着数据量的积累,系统会变得越来越好。

数据驱动方法想要成功,有两个前提,一个是数据量大,一个是样本必须非常具有代表性。对于后者而言,在大数据出现以前很难做好。

可以用来说明数据驱动方法对机器智能产生作用的最佳案例,恐怕要数2016年Google的AlphaGo计算机战胜天才围棋选手李世石了。

数据驱动方法,是大数据的基础,也是智能革命的核心,更重要的是,它带来一种新的思维方式。

第二章 大数据和机器智能

大量数据的使用,最大的意义在于它能让计算机完成一些过去只有人类才能做到的事情,这最终将带来一场智能革命。

大数据有哪些特征

体量大,多维度,完备性,时效性(非必需),抽象性

第三章 思维的革命

大数据思维的核心是什么?

在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这边是大数据思维的核心。

从机械思维到大数据思维

虽然大家现在觉得机械思维不是什么好词,但是在过去的三个多世纪里,机械思维是最重要的思维方式,是现代文明的基础。

工业革命,即为机械思维的结果。

机械思维的局限性:1、人类找到真正的因果关系是一件很难的事情,里面运气的成分很大。2、机械思维的局限性更多来源于它否认不确定性和不可知性。

香农定律

香农第一定律:

对于信源发出的所有信息设计一种编码,那么编码的平均长度一定大于该信源的信息熵,但同时香农还指出,一定存在一种编码方式,使得编码的平均长度无限接近于它的信息熵。

(补充)用霍夫曼编码找到最优解(最接近信息熵的编码方式)

香农第二定律:

信息的传播速率不可能超过信道的容量。

这两个定律对信息时代的作用堪比牛顿力学对机械时代的作用。

大数据的科学基础是信息论,它的本质就是利用信息消除不确定性

从因果关系到强相关关系

笔者按:

本节内容给笔者带来很大触动:过去我们非常强调逻辑推理、因果关系,以笔者所学专业为例,刑法学中为危害行为与危害结果的因果关系设置了专门的章节,或者犯罪现场勘察中通过犯罪造成的“果”,回推还原犯罪现场。

但是在大数据时代,“强相关关系”正逐渐走上舞台并被人们接受,并且不仅是在商业领域(AdSense for Content例),在更为严肃和严谨的法律领域,也初试身手(Michael Moore对Phillip.Moris等烟草公司的集体诉讼)。

在书中作者吴军博士写道:“如果在法律上(强相关性)都能够被作为证据接受,那么把相关性的结果应用到其他领域更是顺理成章的事情。”

这无疑是非常震撼的,这将颠覆过去很多我们认为再自然不过的思维。

Google是怎么做的?

在 Google内,点击模型的使用标志着工作方法从传统的“遵循因果关系”,逐步变成了“寻找相关性”。

Google和很多互联网公司之所以能够取得成功,不仅仅是靠技术,靠数据,更是靠采用了大数据时代的方法论,或者说大数据思维。

很多时候,落后与先进的差距,不是购买一些机器或者引进一些技术就能够弥补的,落后最可怕的地方是思维方式的落后。西方在近代走在了世界前列,很大程度上靠的是思维方式的全面领先。

大数据思维的核心

在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。

大数据思维和原有的机械思维并非完全对立,它更多是对后者的补充。在新的时代,一定需要新的方法论,也一定会产生新的方法论。

第四章 大数据与商业

警察在新的技术条件下改变思维,把过去难以解决的问题解决好。

例:在南卡罗来纳州的多切斯特县,警察通过智能电表收集上来的各户用电情况分析,抓住了一个在家里种大麻的人。

新技术+原有产业=新产业

那些有意或无意接受了这个规律的企业家,常常在新的时代又站到了浪潮之巅。

第五章 大数据和智能革命的技术挑战

大数据在今天这个今天这个时间点爆发,是各种技术条件具备的结果。但是,要让大数据真正发挥巨大作用,让计算机变得更聪明,还有很多技术挑战需要应对。(数据的产生、存储、传输、处理)

技术发展与隐私保护的博弈

保护隐私有两类技术:

一类是从收集信息的一开始就对数据进行一些预处理。

另一类保护隐私的技术是所谓的双向监视。这是一个很新颖的保护隐私的想法,简单讲就是当使用者看计算机时,计算机也在盯着使用者看。大部分人喜欢偷窥别人隐私的一个原因是,这种行为是没有任何成本的。但是,如果有人在刺探别人隐私时,他的行为本身暴露了,那么他就会多少约束自己的行为。保护隐私的最好方法或许是让侵犯隐私的人必须以自己的隐私来做交换。

笔者按:公安网查询公民个人信息必须使用数字证书且会打上水印即是这个道理。

第六章 未来智能化产业

第七章 智能革命和未来社会

既然什么事情都可以让机器来做,而且还比人做得更好,那么人类怎么办?

在反恐方面,斯坦福一位学者开发了一个系统,可以全面跟踪一个地区所有的手机和电子设备使用者的行踪。据这位学者介绍,上述每种设备其实都由一个特殊的识别码,可以用一个阅读器来识别(其原理有点像RFID)。在公共场合安转这样的识别装置采集历史数据,一旦有外来的可疑分子(戴有不认识的设备,或者已被怀疑的设备),就可以开始预警,并且配合视频监控跟踪那些人。

笔者按:几点思考:

1、移动设备的安防应用。例:南京夫子庙元宵灯会的人群密度监控,以防踩踏等事故发生。

2、视频监控从被动记录向主动跟踪的转变。

3、户籍制度、人口流动性与治安的思考。户籍制度限制人口流动性,目的是加强治安管理。现在通过移动设备、互联网和大数据,可以对流动性有很好的把握。这是否意味着,可以为一直难以解决的户口问题提供新的思路?

比特币与区块链

区块链(Block Chain)顾名思义,应该包括两个方面的意思:Block即模块、单元的意思,它像一个账户储存信息;Chain是链条的意思,即表示一连串的交易;交易的细节就存在Block中。

比特币(Bitcoin)实际上是一个有随机数算法产生的随机数,这个随机数在整个互联网上是唯一的,而且是可以验证其真伪的。比特币在被挖矿者挖出来时,就产生一个带有这样特殊随机数的Block,当这个比特币通过交易转到第二个人手里时,在该Block中就记录下了该交易的信息,这个过程本质上是一个加密的信息传输过程。一旦交易完成,它就被通知到整个互联网上,大家知道相应的比特币拥有者改变了。所有比特币散布在整个互联网中,而且没有一个中心能够集中控制,因此特别适合洗钱

无隐私的社会

今天很多人忽视大数据对个人隐私的潜在威胁,原因至少有以下三个:首先是对这个问题缺乏认识,他们并不知道大数据的威力,不知道多维度的信息凑到一起能够得到一个人的完整画像。其次是低估了机器智能的力量。最后,也是最重要的原因,就是很多人一厢情愿地把个人隐私寄托在数据拥有者的善意(Goodwill)上。

“消化革命”

第一次工业革命、第二次工业革命、信息时代、智能/大数据时代每一次革命都是先让少部分人获益,也都会加剧贫富差距、带来种种问题,每一次革命产生的影响都需要花时间来消化。

现在信息革命还没有消化完,智能革命就来了,而它带来的冲击是全方位的。更何况,今天的世界已经和两百年前的世界不同了,消化掉技术革命的影响要比工业革命难得多。结果就是:

很多人被“剩下”了。

很多人天真地认为,船到桥头自然直,劳动力自然而然会被分配到其他行业去。但是,这种劳动力的再分配,一来需要非常长的时间,二来依赖于新产业。时间很长——半个世纪的时间,新产业很难。就导致淘汰下来大量劳动力,他们怎么办?就产生很多社会上的不稳定因素。

是否能有良好的解决方案?坦率地讲,谁也没有。但是,我们很清楚如何能让自己在智能革命中受益,而不是被抛弃。这个答案很简单,就是争当2%的人,而不是自豪地宣称自己是98%的人。

怎么做?很简单,踏上智能革命的浪潮。接受大数据思维,利用好大数据和机器智能。

上一篇 下一篇

猜你喜欢

热点阅读