假如数据欺骗了你
文/黄老邪
“每天饮用两杯咖啡,患上胰腺癌的风险将极度放大”
“生活在输电线附近的儿童具有更大的患癌风险”
“如果一个人的姓名首字母缩写拥有积极的含义(如ACE),那么他的可以多活三到五年”
看到上面几个论断,大家的第一印象是什么。是质疑,是相信,还是陷入深思?如果我告诉你,这几个结论都是国外著名经济学家、统计学家,通过数十年实验数据的研究而总结出来的成果,你又会做何感想?
我们生活在一个信息爆炸的时代,而信息的本质其实是数据。面对这海量的数据,很多专家学者可以借助各种成熟而先进的分析工具,从这些真实的数据里面给我们抽取出大量荒诞不羁但又似乎无懈可击的结果,这又该如何破解?
前面那三条论断来自一本书,书的名字叫《简单统计学:如何轻松识破一本正经的胡说八道》。
《简单统计学》作者是美国作家加里.史密斯。他是耶鲁大学博士,曾在耶鲁大学任教7年,两度获得教学奖。他的课程因为结合日常生活中的常见实例、深入浅出的分析数据而异常火爆。
《简单统计学》洋洋洒洒26余万字,共分成19个章节。全书通过数十个生动有趣、真实鲜活的案例,给我们一层层揭开数据背后的骗局。
我用三个部分给大家阐述这本书的主要内容。
第一部分:数据是如何欺骗我们的
可以从客观跟主观两方面来分析。
客观方面
1、 混杂因素
混杂因素是指在试验中,能够混淆所研究因素与结果之间联系的那些外部因素。它的存在会对试验结果产生干扰,即出现所谓混杂效应。
说个例子,在2008年欧洲杯和2010年世界杯两届大赛中,有一样生物火了起来,那就是章鱼保罗。它预测14次猜对13次、成功率高达至92.85%,堪称不折不扣的“章鱼帝”。
用常识来看,有预言能力的章鱼是不可接受的。那底层的原理是什么呢?是混杂因素。这里的混杂因素很不容易被大家识破,它是国家国旗的样式。
因为预测的方法是通过在鱼缸旁边放置两个国家的国旗跟食物来让章鱼进行选择。研究发现,章鱼这类生物能够识别明暗度,尤其喜欢横向条纹。而保罗在这么多次的预测中一共只选择了三个国家,分别是德国、西班牙跟塞尔维亚,大家来看下这三个国家的国旗就明白了。原来并不是保罗真的能够预测比赛的结果,它只不过选择了自己喜欢的国旗。
国旗2、 幸存者偏差
书中提到一个例子,二战期间,英国皇家空军计划在飞机上安装厚钢板,以帮助它们抵抗德国战斗机和陆基高射炮的攻击。他们调查并收集了飞机上子弹孔的位置,发现大部分都位于机翼和飞机尾部,而在驾驶舱、发动机和油箱的位置则非常少。于是决定把钢板装在机翼跟飞机尾部。
幸存的飞机这个结论是错误的,因为它使用的数据全部基于在战斗中成功返回的飞机,那些在驾驶舱、发动机、油箱等位置被击中的飞机全部都无法存活下来。这就是数据的"幸存者偏差"造成的错误结论。
3、 视觉误差
看下面两个图。
同样的数据,不一样的曲线这是某公司连续七个季度的收入曲线。这两幅图采用的数据完全一样,可是从视觉上来看,第二张图会让读者产生误导,公司的收入在后两个季度急剧下降!实际上从第一张图可以看到,这个公司的收入水平其实是很稳定的。
这是怎么回事呢?
细心的读者或许已经注意到了,这两张图纵坐设置的不一样,第二张图重新确定了“零点”,于是便放大了波动。
在PPT领域有一句很经典的话:能用图的不用表,能用表的不用字。确实,图像可以帮助我们解释数据,做出推断,获得直观效果。但图像可能会有意无意的扭曲或破坏数据。
《简单统计学》里展示了大量充满误导性的图片,有些甚至是国家权威机构在历史中曾经屡用不爽的,大家不妨去看一看,顺便测试下自己的分辨能力。
主观方面
数据能够欺骗我们,除了上面提到的客观因素,其实主观因素也占据了至关重要的地位。作者加里.史密斯从生物学角度出发,他指出:
人类在漫长的进化岁月中,产生了寻找模式并对其做出解释的内在倾向。
就是说,我们很容易被某种模式(或者说规律)以及解释模式的理论所引诱,因此我们常常关注支持这种理论的数据,而有意或无意的忽视与之相矛盾的数据。这就是所谓的“自选择偏差”。正是因为很多人在数据处理或者识别的过程中有意无意的引入了“选择偏差”,进而导致这些被“筛选”过的数据推导出让人几乎不可反驳的错误结论。
第二部分:是谁在欺骗我们
《简单统计学》里提到了很多在日常生活中我们被数据欺骗的例子,而欺骗的发起者可能是经济分析师,股票专家,甚至是政府机关,他们会出于各种利益角度,通过截取有限数据的方式进行经验总结,并通过向公众传达这种经验论断而获得收益。
值得一提的是,《简单统计学》中作者直言不讳的对很多知名的学者进行了批评。比如说超级畅销书《魔鬼经济学》的作者史蒂芬.都伯纳。书中说,这位作者
过于擅长并炫耀自己在“从数据到结果”这个过程的梳理技能。这将导致他愿意为了满足自己的理论而刻意去搜刮合适的数据,这是非常危险的一种做法。
不独史蒂芬,很多知名的物理学家,数学家,他们同样会在自己的著作中采用一些数据处理上的“伎俩”来欺骗读者。这是因为他们要出版自己的图书,发表自己的论文,提出自己的原创理论,而为了保证理论的完备性,他们便会有意的舍弃不符合理论的数据。
这一点很值得我们普通人警惕,我们平时接触到的各种信息、数据、论断,即使它们出自权威的著作与机构,其真实性也有待检验。
第三部分:在充满了欺骗性的数据面前,我们应该怎么做
《简单统计学》中提到的应对策略总结下就是:常识判断+新数据检验+质疑。
(1)常识判断
很多看起来严谨但不太符合我们平时所接受的数据或论断,往往用常识就可以识别出来。需要强调的是,这里的常识不仅仅是指普通人几乎都具备的跟生活相关的那些通用知识,更本质上是一些较为基础的经济学跟数理统计的知识。
(2)新数据检验
《简单统计学》中反复强调数据跟理论的关系。我们可能被缺少数据的理论欺骗,正如我们可能被缺乏理论的数据欺骗。而对理论进行检验的最好办法就是引入新数据。比如本书的作者就给一个颇有名气的股票分析师寄去了三张图。而那位分析师从图中呈现的数据给出了坚定的股票购买论断。但实际情况是作者寄过去的其实是他的学生完成的硬币抛掷的统计结果。
股票?随机抛掷硬币(3)质疑
巴尔扎克说:打开一切科学的钥匙毫无异议的是问号。面对权威,面对真实的数据,面对看似严谨的理论,我们都需要并且敢于质疑。比如说《简单统计学》这本书,我在阅读的过程中,把书中所有能够计算的数据全部复核了一遍,并且在Excel里用RAND、COUNT、IF等几个简单的函数完成了200余次的硬币抛掷的模拟实验,很有意思。
鉴于篇幅,无法对《简单统计学》一书的内容完全进行阐述,书中还有大量有趣、实用、精妙的案例跟分析,譬如“统计的显著性”、“小概率事件”、“博傻理论”、“辛普森悖论”、“胜者诅咒”等等,全都非常精彩,推荐你去阅读。
随着互联网的迅猛发展,我们进入了数字时代。习总书记在12月8日的中央政治局集体学习中专门论述了大数据时代数据对于我们的重要性,并指出,在这个时代,我们要“善于获取数据、分析数据、运用数据”。
有幸身处这一关键历史潮流之中的我们,面对错乱纷杂的海量数据,更要学会练造一双慧眼,将这数据看得清清楚楚,明明白白,真真切切。
诸君努力!
—The End—