精读丨读完这本书,你将成为控制未来2%(一)
近几年来有一个热点技术开始平凡出现在我们的视野中,从新闻联播到股票短期题材,从行业发展转型到创业公司蓬勃发展。早些年这个技术较早现身还是出现在1996年深蓝对战西洋棋世界冠军卡斯帕罗夫,最近一次沸沸扬扬的更是AlphaGo战胜围棋世界冠军、职业九段选手李世石。或许你以为我要说的是人工智能,不过抱歉,人工智能只是这项热点技术的众多下游技术之一。而这项技术就是大数据。
很多人对大数据的定义可能停留在,数据量大的基础上,对背景和逻辑仍然有诸多尚未了解的地方。
那么到底什么是大数据?
大数据与现有的数据有什么区别?
大数据对于我们的生活有什么影响?
我们又将如何使用大数据?
通过阅读著名自然语言处理和搜索专家、硅谷风险投资人吴军博士著作《智能时代》,它将为你解答上述问题。
《智能时代》吴军-(图片来自网络)1/6:数据的前世今生
数据是把世界化作确定性的主要方法之一。从古代开始,人类用各种计量方式收集河流、天文、气象、地理等自然的数据总结规律,形成了诸多历法用于帮助人类进行耕作和文明的发展。甚至电影电视剧中都有警察蹲点将犯罪分子作息时间形成规律。
在现代人的普遍认知中,数据和信息似乎是一回事。读完《智能时代》后,我个人认为:数据中含有信息,同时信息中含有数据(数字度量)。第一个数据指事物所表达的形式以数据的形式存在,而信息中的数据更多是信息的一种组成部分,如一个人的身高体重一样。而我们说所的大数据就是指的是以数据形式存在的客观世界的表达形式。
在学校的学习的时候,像数理化这些理科基础学科往往需要学习大量的公式。在老师教导的时候也会经常用一些简单的公事推导出复杂的公式,但是却很少教我们如何创造一个公式。比如牛顿的F=ma公式,能够推导出很多其他的力学方程,但是F=ma这个简单到极致的公司又是如何而来的呢?他又是如何成立的呢?
这里不得不说我们常用的数据处理模式:
常用的数据处理模式我们将收集到的数据,分析后建立模型,通过模型输入参数后,得出结果即预测。而在学校里面老师只教我们公式(模型)如何输入参数做预测,对模型的建立过程未做太多的教学。但是却不妨碍我们使用它。
这套数据处理的模式到建模阶段演绎出了两种建模思路,当然这两种思路都建立在需要收集具有代表性数据样本的基础上。其中一种是以具备高性能计算机的美国,使用多个简单模型构建复杂模型,进行快速演算。另一种是以具备大量优秀数学家的苏联,建立复杂且准确性高的复杂模型。两种建模各有千秋。但是历史结果说明,美国略胜一筹。
在阅读的过程中,我个人猜想,美国人建立模型的那一套,有些类似模块化,以简单的构建复杂,而简单的自成体系,能够随时更换。结合书中提到的数据的相关性。
数据的相关性简单模型使用的是与复杂模型具有相关性的数据,同样能够得出复杂模型所最后的情况。
2/6:人工智能和大数据
说起人工智能,我们会想起英国数学家、逻辑学家,被称为计算机科学之父、人工智能之父的艾伦·麦席森·图灵。他提出了著名的图灵测试,来判断一台计算机或设备是否具有人工智能。
图灵测试(图片来源于网络)同一个问题,机器和人同时回答,而人无法分别回答是人还是机器,则可判定机器具备人工智能。
目前广泛应用的自动化、信息化设备其实只能算人工智能1.0,他们只是将人类的行为做机械的模仿而已。
而更高级的人工智能应当包含如下功能:
①语音识别;②机器翻译;③文本生成或自动写作;④与人类下棋;⑤自动回答人类问题。
为什么是这五个功能?
在读到此处时,我觉得应该从认知角度来回答并解释这个问题。
①语音识别:即一段信息输入,机器解码后,机器能够识别我们所要表达的意思,如苹果的SIRI以及大家都说普通话,能够明白说的这段话字面上意思。
②机器翻译:首先要明晰,机器翻译给谁看?当然翻译给人看。那么这里必然涉及到人对文字的理解。即机器翻译一段文字给人看,同时人要能看的懂,而且意思还不能有较大偏差。就像一些场合同声传译,将外文先听懂,再翻译成中文表达,而听翻译的人要能明白这段中文表的意思。
这里,我个人将其分为人工智能2.0。
③文本生成或者自动写作:机器翻译顶多是同样的信息以不同的方式表达出来,追求的是信息的不失真而已,这个过程一就是一、二就是二没有其他的增减。人的写作不论是写什么首先要定个方向,其过程是调动大脑内相关知识进行组合后,以文字的形式输出,同时还要考虑输出文字能够被他人读懂。人工智能同样要具备上述过程,当然首要条件是选个题目,搜索相关知识进行组合成二进制代码,再以各国语言形式输出,最后也要考虑人能否读懂,否则就是乱码。这里人工智能具备了自动形成指定认知的功能。
④与人类下棋:人与人下棋的过程是什么样的?你飞马,我要想为什么你会飞马,接下来你想走哪一步,我要对应走哪一步更好。在人工智能上同样也是,它需要明白你这一步行为倒是是为什么?并给出相应对策。此时的人工智能能够对人的行为做出针对性的反应,但也只是停留在人做什么他做什么上。
⑤自动回答人类问题:文本生产和自动写作的不同,自动回答问题要考虑的并不仅仅是人类能否听懂看懂一段文字。如果说自动写作是围绕一个主题形成一个信息集合,那么自动回答问题是能够理解人类语言基础上对其含有的深层意思进行信息集合。对于人来说回答问题是自己的认知输出,同样对于人工智能来收说也是如此。它得出来的结果与人所想要表的的意思能够契合甚至完全相反,已经不是单纯的针对关系。如果说问题分为what、where、when、which、who、why、how七种,那么前五种都只是对客观现象的表述,而最后的why和how就是主观上的判断,因为每个人的回答都是不一样的。
到此,我个人将其分为人工智能3.0。
得益于最近二十年来科学技术的突飞猛进,智能设备在硬件和软件都有就极大的突破。同时在开发人工智能的时候,人们转变的了思路,将问题变为统计和数据的问题。
以AlphaGo下围棋来说,google公司将几百万上千万的棋谱以及复盘过程输入了AlphaGo的数据库里面,因此在李世石下每一步棋的时候,AlphaGo能够迅速对此得出李世石下这一步棋或者说这个落点得出数百种甚至是更多落子方式,并且附带每种落子的获胜概率,并选择获胜最高概率的落子。而李世石并不能这样做,因此最后的行棋就变成AlphaGo不断选择获胜高概率的累积,对应李世石则无法每次选择获胜概率最高的落子,最后结果可想而知。
所谓的统计和数据,就是与人类最笨拙的穷举法一样,把所有可能的结果和出现的因素全部考虑进去有多少考虑多少。对此每一个行为动作都在意料之中,处理起来也是意料之中。
这同时也表明了大数据三大特性之一,数据量要大。
那么大数据三大特性之一多维度,则说明的是数据来源、表现涉及面的多维度。如同人在跑步,这个时候对应他跑步时候的数据,不仅是速度,同时可能还有,体温、血压、血糖、脉搏等一系列体征数据。也就是说大数据采集的数据大是由于数据多维度造成的各种数据都要收集而形成的一个庞大的数据群,这样的数据群才能真实的反应行为。
而大数据三大特性之一的及时性,不是很重要但是也不可或缺,在某些特殊行业大数据的及时性则非常重要,如实时路况监测、天气预报等等。
未完待续······
接下来,我将继续为您精读《智能时代》。
在《精读丨读完这本书,你将成为控制未来2%(二)》中将解读思维革命、大数据对产业的影响以及大数据对我们个人生活的影响。
敬请期待!!
END
文/四季道
如果觉得今天的文字希望能够对你有用,就亲关注我或击下方爱心,如果可以请转发让更多的朋友能够看到。
你的回复、喜欢、转发是我坚持、进步的源泉。