【BitTiger读书会】·第十一期《数据之巅:大数据革命,历史
【BitTiger读书会简介】
BitTiger读书会,以书会友。以报告方式,加强组织表达力;以讨论方式,激荡思考判断力,期能扩充知识领域,养成读书习惯。
每周一本好书,一年阅读50本书,集众智,挑好书,留精华内容,创优质社群。
BitTiger读书会,欢迎您的加入!
在上一期的活动中,我们讨论了怎样读书的话题。这一期,我们将与晨阳一起读《数据之巅:大数据革命,历史、现实与未来》,领略数据发展的历史,体会大数据的魅力。
【分享书籍】
【BitTiger读书会】·第十一期《数据之巅:大数据革命,历史、现实与未来》《数据之巅:大数据革命,历史、现实与未来》
【书籍介绍】
《数据之巅》是涂子沛先生继《大数据》之后的又一全新力作,可认为《大数据》的续本,但其历史高度与现实意义高于《大数据》。这部书从数据角度重新审视了美国历史,为我们了解美国提供了全新维度。
全书主要分2个部分:小数据历史和大数据崛起。
全书将美国历史按照数据的形成、发展及未来趋势划分为7个时代:初数、内战、镀金、量化、抽样、开放和大数据时代。前3个时代发生在美国前一个百年,有具体的时间区间。后一个百年则经过后面4个时代,以标志性事件为例进行说明,同时也有大致的时间区间。
作者定义的小数据历史包含7个时代中的前5个,讲述了这一阶段数据文化在美国政界、商界及社会生活中的形成与发展,并对我国的相关问题进行了思考。对于大数据崛起,作者考证了大数据的来龙去脉,并分析了大数据对商业运行、社会生活的影响;作者认为未来的数据之巅的形式是智能社会,也针对当前中美两国在智慧城市建设中的某些方面进行了对比分析与探讨。书中有很多观点高瞻远瞩,对于我们处在社会生活及科技发展大变革的时代具有比较大得参考意义。
【嘉宾介绍】
张晨阳,中船重工船舶设计研究中心(CSIC-CSDC)工程师,主要工作内容是船舶与海洋工程结构物安全性与可靠性分析。
【电子书下载】
点击下载:http://2.vdisksina.appsina.com/s/hWR2qQa8ZUq-
百度网盘下载:
https://pan.baidu.com/s/1jHcjTTs
【加入读书会】
获取BitTiger读书会系列读书分享信息,请添加微信ID: saraincs,备注“读书”加入BitTiger读书会活动群
【BitTiger读书会】·第十一期《数据之巅:大数据革命,历史、现实与未来》【分享文稿】
【BitTiger读书会】·第十一期《数据之巅:大数据革命,历史、现实与未来》Figure 1 文章结构图
按照作者著书的思路,先了解小数据的历史
初数时代是从1789到1830s,主要说明美国的建国者们如何利用人口普查解决政治体制和权力配置的问题,从而奠定美国共和基础。
内战时代从1861.4~1865.4,是指美国南北战争时期。这个时期主要介绍人口普查的结果如何助力北方军队赢得南北战争。
镀金时代从1865~1900,主要内容是人口普查的范围扩大,巨大的数据量催生了以打孔卡片制表机为代表的技术革新,同时联邦政府将人口普查从临时部门调整为常设部门。这一时期主要说明了数据思维、技术、组织在美国的三重崛起。
量化时代以水利工程、平托风波、自来水“砷含量”几个事件为标志介绍美国如何利用数据解决工业和城市化进程中的各种社会矛盾。
抽样时代则是以预测美国总统大选、《乱世佳人》电影拍摄及日本工业崛起几个事件说明美国在数据统计领域中的变革与它对政治、经济的影响。
在小数据阶段,作者以美国历史为主线,从人口普查在权力分配中的应用讲起,依次介绍人口普查在美国重要历史事件中的作用,说明数据文化如何在美国逐渐形成并发展壮大的过程。
小数据的历史为大数据的出现、发展奠定了基础。
作者在第二部分介绍了大数据在美国崛起的过程
数据开放时代是在前期小数据的基础上自然发展而来。主要通过信息自由运动、环境保护运动及数据创新几个方面说明美国数据开放的3个阶段。
大数据时代则主要介绍了大数据的意义、大数据在美国首先形成的原因与当前的发展,以及数据之巅的形态。
智慧城市一章通过对比当前中美在智慧城市建设过程中的发展案例,说明智慧城市建设中的某些特点及未来的挑战。
IT领域长久地聚焦在科技界的镁光灯下,一个个技术浪潮为我们提供了便利的交流方式及丰富的学习资源。当下最火的莫过于“人工智能(AI)”,好像一下子就占领了社会生活的方方面面,让大家猝不及防。AI发展所需的养分便是数据。没有数据支撑,当下的AI如无源之水无本之木。
第一章介绍美国建国过程中利用人口普查解决政治体制及权利分配的难题
自1776.7.4美国建国,经过11年(真是不急不躁啊),13个州仍无一个中央政府。涉及13个州的事务,无论大小、轻重缓急一律要经过国会。1787年7月,各州对于组建中央政府已经达成共识,但对于组建方式与立法权分配有严重分歧(都想占便宜),也就是对国会的构成有不同观点:大洲主张国会由两院构成,一院精英,一院大众,议院席位按照各州人口确定;小洲主张国会由一院构成,不分大小,席位均分。两派经过2个多月的辩论(律师身份较多的情况下,2个月算很快了吧?),终于达成共识:民主是基础,共和是目的;决定国会由两院构成,众议院席位按照各州人口分配,参议院席位每洲两名,任何一项法案须同时通过两院的多数才能生效。 这一决定被称为“伟大的妥协”。
【BitTiger读书会】·第十一期《数据之巅:大数据革命,历史、现实与未来》Figure 2 国会构成(来自互联网)
当然,人多的洲在众院的席位多,对应权利的分量重,但同时向中央缴税及义务也相应要多。这样,在形式上就保证了权利与义务之间的对等关系,保证权利在各州之间是相对均衡的。这其中还有一个插曲,即此时的宪法中说的人口指的是白人(宪法赋予的优越感啊!),那黑奴算几个人呢?华盛顿说有总比没有强,最后确定一个黑奴算3/5个白人(感觉像是拍脑袋决定的)。就这样,美国将定期开展人口普查写进了宪法,开创人类先河(这一点绝对重要,不可抹杀)。
虽然通过数据进行分权的原则定了,但在具体实施的过程中最突出的问题就是众议院席位数量及权力无法精确细分。又是经过冗长的辩论,最后决定一名众议员至少代表3万人,席位确定采用“杰佛逊”提供的分配方案。但随着人口、州的数量增长,出现了一个有意思的现象:不论是“杰佛逊”的分配法,还是“汉密尔顿”的分配法,都不能完美解决权利精确分配,总有州占便宜,总有州吃亏(最高法最后拍板,吃亏的州你就认了吧!了吧!吧!)。
就是通过这样的途径,美国确立了数据分权的政治体制,为很多民主国家提供了解决权利分配的方法。于此同时,美国将数学教育添加到小学教材中,减少数盲,提供公民的思辨能力;弃用了英制单位,改革了货币、度量、和测量单位,为后续构建统一的国内市场奠定了制度基础。
【作者在书中讲了很多有趣细节,建议大家细读。】
第二章是讲人口普查的数据如何助力北方军队在内战中赢得战争的
经过1830、1839、1840(第一次鸦片战争)、1850、1860的多次人口普查,其内容已经从“点人头”逐步细化到了统计工厂、农场、学校、教堂、学生、教师、雇员、各种牲畜和农作物的数量,甚至还包括白痴、精神病人的数量,同时可视化技术在这个阶段得到了极大发展。在这个阶段,南北方关于奴隶制的废存之争也逐渐激烈。
关键时刻,天将降大任于林肯(在美国可能是他们的上帝选择了林肯,当然没有林肯也有邓肯、江肯)。在他刚上任入主白宫,此时南方7州脱离联邦并打响了武装对抗北方资本主义的第一枪且获得胜利。战争初期,林肯看了人口普查的数据,发现北方人力、物力均占优,若打持久战,南方必败(这让我想起了毛主席的《论持久战》),这才下定决心和南方开战。虽然北方军队在人员与物力上均占优,但在内战第一阶段打得并不顺利。之后颁布了《解放宣言》(这一招釜底抽薪)、《宅地法》奠定战略基础。
内战第二阶段的亮点是由谢尔曼将军指挥的北方军开始了军事史上著名的“向大海进军”。在人口普查结果图表的帮助下,历时一个多月,谢尔曼率领的北方军摧毁了进军路线上的村庄和城市,极大破坏南方的工业、基础设施和村庄,给敌人极大的心理威慑,最终攻占萨凡纳港。这场战役是南北战争的转折点。
【BitTiger读书会】·第十一期《数据之巅:大数据革命,历史、现实与未来》Figure 3 向大海进军行军图(蓝线)
(来自互联网)
这位将军后来总结说:“历史上没有任何一次行军远征,曾经建立在这样肯定和完善的数据之上。”【内战中还有很多与数据有关的细节,非常有趣。建议阅读原著。】
第三章则是介绍小数据历史上承前启后的镀金时代。
内战结束后,美国工业化进程一骑绝尘,到1894年美国工业产值登顶。与此同时,美国完成了数据文化在思维、技术、和组织上的三重崛起。
**在思维方面,**美国的政治精英们对于数据的认识比建国时有很大提升。以20th总统加菲尔德的智囊团为代表,他们认为数据不仅仅代表“真正的事实”,还藏着事物发展的规律,因此人们使用数据不仅仅用于支撑自己的观点,还要获得启示,发现新的知识和规律(在那个年代能有这样的认识简直逆天)。
**在技术上,**基于普查对象及维度的增加,之前人工方法已经无法在规定时间处理巨大的数据量。在这个时期,美国爆发了电气革命(以爱迪生、肖尔斯、贝尔等著名发明家为代表),“数据自动处理之父”霍尔瑞斯的“自动打孔机”顺应时代潮流、响应时代召唤脱颖而出,得到了政府的订单,解决了原来认为需十多年才能处理完的人口普查数据的难题。高效率打孔机的出现扫清了技术层面的障碍。
【BitTiger读书会】·第十一期《数据之巅:大数据革命,历史、现实与未来》Figure 4 霍尔瑞斯与他的自动打孔机(来自互联网)
在政府组织层面,人口普查部门由“临时工”转变为“正式工”。人口普查工作作为一项日常事务开始在美国政府发挥日益重要的作用,与此同时,设立了劳工统计局、农业统计局和经济分析局。“人口、劳工、农业、经济” 4局标志美国首先建立了完善的统计机构,大步跨入现代化。有意思的是,解决这个难题的人却不是数据统计领域的专家,这部分内容非常戏剧性,强烈建议阅读原著。
上面这些是数据文化的一个侧面。另一侧面则是美国民众在保护数据隐私及讨论数据安全方面做出的努力。【一些事件建议阅读原著】。
第四章的量化时代
这个阶段美国的国内环境比较复杂,社会问题也越来越突出。解决问题的方法在革命与改革中选择。美国当然选择了改革:在很多重大决策中以数据为依据进行决断,均衡各方面的利益。如水利工程建设中提出的“成本利益分析法”,并颁布了“绿皮书”作为操作指南。而这一章最为精彩的是“平托风波”:福特公司在平托车容易因追尾导致油箱着火设计改进的成本利益分析中,对人的生命进行了定价,最终放弃对油箱加固。这个事实被媒体发掘并进行了广泛报道。福特公司的做法和在法庭上的辩护招致民众厌恶。但是在现代化进程中,人生命的价值却必须要量化。
美国提出了两种计算人的生命价值量化方法,一种为价值意愿法,另一种为劳动力市场评估法(我国现在好像也没能建立起健全的人的生命价值计算法)。在这两件标志性事件之后,作者还借“水中砷含量”、“环保局长起诉货车运输协会”及“烟草行业征税”案例介绍了民间和政府在处理公共事务中依靠数据进行决策的过程。对于美国依靠专家、科学和数据解决各种冲突和矛盾的做法,作者较为推崇。【福特公司对于生命价值的算法比较有意思,原著中有很多细节描述值得品味。】
第五章的抽样时代则是美国数据统计技术独步全球的具体呈现
本章开篇以1936年美国总统大选为背景,初出茅庐的盖洛普在仅统计5000人的数据样本上准确预测了罗斯福的当选,从而击败了连续4届成功预测且有240万人统计样本的《文学文摘》,从此将抽样统计方法引入实际应用。在之后的电影《乱世佳人》拍摄中,盖洛普的抽样统计方法在多方面提供咨询建议,帮助投资方赚得盆满钵满。
【BitTiger读书会】·第十一期《数据之巅:大数据革命,历史、现实与未来》Figure 5 戴明环(来自互联网)
【BitTiger读书会】·第十一期《数据之巅:大数据革命,历史、现实与未来》Figure 6 石川图(来自互联网)
本章的另一重点是戴明利用抽样统计方法进行质量管理的人生经历。作者主要介绍了戴明开创的质量管理法如何帮助日本工业界树立信心、分析问题、提出解决方法,在5年内摆脱山寨抄袭、质量低下的产品形象,使得其产品畅销全球。当日本产品冲击美国产业时,一部《日本行,我们为什么不行?》的纪录片揭开了日本产品倾销全球的秘密。戴明一夜之间在美国爆红,其方法开始在美国工业界实施。几年后,福特公司在新方法指导下的新车型连续6年在美国销量第一。
在本章中,作者非常推崇日本从上到下贯彻戴明质量管理法的做法。这也是数据文化在美国以外的其他国家生根发芽。
【到此阶段,美国小数据的发展已经远远超过了其他国家,为大数据的形成和崛起奠定了固若磐石的基础。(尤为感叹,美国人在这方面做得确实比较到位。)】
第六章是“开放时代:内开放历程”
作者在本章开篇对开放做了定义:指信息的自由流动(想想我们当年的“介绍信”也是蛮有意思的),广义上还包括人、财、物的流动。作者的观点是一个国家首先应在它的内部开放,而就开放程度而言,一个健康的国家,对内开放的程度应远高于对外开放的程度。在数据方面,作者认为数据开放就是让数据自由流动,彻底分享数据的所有权(这个有点理想化了)。
在正文中,作者还是以美国为例,讲述了美国在数据开放运动中经历的三个阶段:信息自由运动中为保护公民的知情权而颁布的《信息自由法》;环境保护运动中为制衡大公司而通过立法要求大公司公布排放到空气、水、土壤中的有毒物质的含量;数据的开放推动了创新发展,以奥巴马签署《政府信息的默认形式就是开发且机器可读》法案为标志,美国基于信息和技术的创新开始爆发。
本章还有一个亮点是LEHD项目发展的历程。作者对这部分内容进行了极为详细地介绍,精彩纷呈,建议大家看一看。
【BitTiger读书会】·第十一期《数据之巅:大数据革命,历史、现实与未来》Figure 7 LEHD项目简介图(来自互联网)
第七章是大数据时代
作者在这一章明确了大数据的意义在于数据容量之大及其蕴含的价值之大,理清数据、信息与知识之间的关系,提出本书最为重要的观点(个人认为):大数据是人类文明的新土壤,在这片土壤之上,人类将开始建设一个智能社会。
在本章正文中,作者对大数据形成的原因进行了分析:摩尔定律揭示出的硬件水平提升规律,社交媒体时代导致的数据爆炸及人类使用数据的能力(数据挖掘技术)有重大进展。
作者指出,由于大数据的出现,我们的社会正在变得可以计算。例如,美国佛罗里达州的记者曝光的警察超速行驶事件、13年华东师范大学后勤部门发短信询问学生生活费减少事件及2012年世界杯期间一篇《男人一看球女人就网购》的趣事所利用到的大数据技术。作者还对即将到来的普适计算、第三次工业革命进行了介绍。
在这一章中,作者呼应书名,指出数据之巅的形态就是智能社会,并以沃尔沃公路列车和谷歌无人车计划为例进行了说明。
【BitTiger读书会】·第十一期《数据之巅:大数据革命,历史、现实与未来》Figure 8 数据之巅的形态(图片来自互联网)
这一章近40页内容,作者从多方面对数据进行描述,力图给读者呈现大数据的全貌。【这一章浓墨重彩,干货极多】
第八章是智慧城市
这一章是第七章智能社会的实例说明,站在技术角度主要介绍了中美两国机器智能在城市中的具体发展情况,如“众包、众智和众创”,也探讨了云、隐私与未来。如果说前面几章是美国的数据历史舞台剧,那这一章就是面向未来社会的幕后演练。
最后,作者对国家在科技领域如何利用后发优势赶超先进做了分析;作者试图通过本书将数据这个科技符号变成一个文化符号,普及大数据,使大数据进入中国人的视野、融入中国人的血液和意识中。
【BitTiger读书会】·第十一期《数据之巅:大数据革命,历史、现实与未来》Figure 9 智慧城市(来自互联网)
总之,这本书是近年来中文科技领域不可多得的一本好书。它不仅是一本畅销书,更重要的是它试图在我们国人的文化土壤中添加一颗新的种子。作者立意高远,带领读者拿着“数据放大镜”重新审视美国历史,同时对我们国家在数据文化的建设情况进行对比分析。字里行间流露出作者的拳拳赤子心、爱国情。鄙人在此简略叙述,不及书中内容之万一,还是希望大家能够通读此书,知美国数据历史以窥探我们将要面对的未来世界。