《让世界讲得通》3:统计是数学题还是语文题?4:怎样像强者一样看
《让世界讲得通》3:统计是数学题还是语文题?
数什么,决定了数数的结果。
一个数字到底是大是小,还得看具体的情境才知道。
当你把视角放大、频率放慢,你看到的东西完全不同。
统计学的第三个法则是输入看定义,第四个法则是输出看情境,视角和视野决定内容。
统计学在技术上属于数学,但在实际应用中,我感觉它更偏向于政治、经济学科,统计问题更像是语文题。
你说一家公司的财务报表好不好看,难道是会计决定的吗?像记账这样的常规操作早就标准化了。只要你把数据搜集好,该用什么公式怎么计算你根本不用管,统计软件都是现成的。决定统计结果的不是计算方法,也不是操作软件的统计员小张,而是单位的领导。小张作为一个工具人的作用仅仅是他会“数数” —— 领导虽然不会数数,但是知道该数哪些数。
有一天你打开英国的《卫报》,看见上面一个大标题写着「17岁-19岁的英国女孩,有1/5都有过自残或自杀行为」。你一看太可怕了,还是上网吧,结果你打开手机又看到一个新闻标题「伦敦的谋杀率第一次超过了纽约」。这两个标题都是真实的,而且媒体没有说谎。
遇到这种标题,应该如何反应,才能有点领导气质呢?
要考察这些统计数据的输入和输出。统计学的第三个法则是输入看定义,第四个法则是输出看情境。
1.输入看定义
那些统计数字,到底统计的是什么东西?这是最基本的问题,对吧?但这也是最容易被人忽略、最容易带来误解的问题。统计对象常常没有清晰的定义。树上七个猴地上一个猴,其中怀孕一个猴,而且她下一秒就要生了,你说一共几个猴?该数哪个不该数哪个这条线,你并不好划。
哈福德做节目遇到了一组很奇怪的数字对比。近些年来,英国伦敦以外地区的出生婴儿死亡率,明显比伦敦市要高。这引起了人们的警觉,是不是伦敦以外地区的医疗水平不行了呢?结果不是。
这个事儿的关键在于,到底什么叫“婴儿死亡”。孩子从怀孕到出生大概需要 40 周,如果是 37 周之前出生就是早产,但早产婴儿也是婴儿。伦敦市的标准是 24 周就算是一个生命了,只要是 24 周之后死亡,就算作婴儿死亡;不到 24 周的死亡才叫做流产。
那你说这个 24 周的规定有啥道理呢?难道 23 周的胎儿就不是生命吗?他其实已经长成型会动了啊。英国在伦敦以外的医院,就把“婴儿死亡”的定义,划线到了 22 周。正是因为这个定义的差别,导致了两个地区的婴儿死亡率不同。
这个差距挺明显的。2010 年,美国的婴儿死亡率是千分之 6.1,芬兰是 2.3,人们因此纷纷指责美国,但是这里面也有定义不同的因素。美国医院普遍对婴儿的定义是 22 周。如果我们只看 24 周以后的婴儿死亡率,那么美国其实是 4.2,芬兰是 2.1,仍然有差距,但是差距没有那么大。
再比如开头那个标题,「17岁-19岁的英国女孩,有1/5都有过自残或自杀行为」—— 我们首先得问什么叫“自残(self harm)或自杀”。仔细看那个研究,它统计的并不是那些女孩在过去一年之中有没有像割腕之类的自杀行为 —— 而是从小长到大这么多年来,只要有过任何自我伤害的行为都算:像什么扇自己耳光、烧伤自己的皮肤,滥用酒精、暴饮暴食、厌食症、甚至拔掉头发都算自残,只要那些女孩认为是自残就是自残。那你说五分之一算高吗?事实上如果你只统计自杀成功的比率,英国15-19 岁的女孩中,是每年、每十万人中才有 3.5 个人。
统计定义的这种模糊性非常容易被政客所利用。政客说“我们要加大力度……”,到底什么叫加大力度?是明年给增加拨款吗?比今年多多少?考虑通货膨胀吗?这些都不好说。
2017 年,一个英国政客提议,要在未来五年“冻结非技术移民”。这听着挺有道理,接收移民应该接收稀缺的高级人才,低端的工作机会应该留给本国人,挺好吧?可是什么叫“非技术移民”呢?你细看,政客给的定义是按照职业的年收入划线:如果这个职业的年薪低于 35,000 英镑就算非技术。
可是这合理吗?你要知道很多护士、小学老师、技术员、律师助理、包括一些化学家的收入都低于 35,000 英镑,这些可恰恰是英国需要的、真正的人才。结果 2020 年,英国真的宣布了移民限制,最终把线划在了 25,600 英镑。
数什么,决定了数数的结果。你说现在贫富差距变大,那到底什么叫富人,什么叫穷人?应该算总财产呢,还是算年收入?这两个统计结果的差别是巨大的。
再比如说,现在大家普遍认为新冠是比流感严重得多的病毒,但是也有些人认为新冠就是一场大流感,因为他们认为新冠的实际死亡率并不比流感高很多。这就涉及到到底怎么统计新冠肺炎的死亡率。死亡率 = 死亡人数/感染人数,可是什么叫“感染者”?无症状感染算不算感染?没去医院确诊、自己在家自愈的那些人要不要统计上?还有,当初统计流感的死亡率的时候用的是什么标准,这两个标准一样吗?这些已经不是医学问题了。
2.输出看情境
即便定义清楚,一个数字到底是大是小,我们还得看具体的情境才知道。那个新闻为什么说「伦敦的谋杀率第一次超过了纽约」呢?其实就一组数字:2018 年 2 月,纽约有 14 起谋杀案,而伦敦有 15 起,这是历史上第一次伦敦的谋杀案多于纽约。
那这对伦敦来说是多大的坏事呢?没有具体情境的数字就如同没有测量单位一样。首先你得知道伦敦和纽约各自的人口数量,但是因为两个城市的人口差不多,直接比较数字是可以的。
然后你得考虑时间情境。是不是伦敦治安变差了呢?并不是。我们对比 1990 年全年,伦敦有 184 起谋杀案,纽约有 2262 起 —— 所以不是伦敦变差了,而是纽约变好了。更合理的说法是伦敦的治安一直都很好。
数字的情境包括时间尺度、空间尺度、总人口、GDP、财富总量等等。对这些常用的数字有个基本感觉,你就容易评估新闻里那些数字了。
2020 年 12 月 31 日,纽约时报发表了一篇讲中国扶贫的文章,叫做《工作、房子和牛:中国代价高昂的“运动式脱贫” 》。文章中列举了中国近年来扶贫取得的成就,但是记者表达了他的担心,他认为中国这种扶贫是不可持续的。
有意思的不是这篇文章本身,而是纽约时报读者的评论。按点赞顺序排列看了大概几十条评论,所有这些评论 —— 注意不是“几乎”所有,是所有 —— 都支持中国、反对那个记者。从名字和语气可以看出来他们大多都是美国人,所以你看美国也有愤青。
而这些网友很善于看数字的情境。有好几个评论提到,中国五年间,在扶贫上总共花费了 7000 亿美元 —— 相当于中国GDP的1% —— 而这些钱帮助了 5000 万人脱贫,相当于平均每人每年 600 美元,如果这叫不可持续,那请看:美国政府给富人减税一下子就减掉了 2 万亿美元,美国政府每年给 200 万农民发农业补贴要花去 200 亿美元,相当于每人每年 1 万美元,难道这才叫可持续吗?对比之下中国纳税人花的钱好像更值。
其实现在美国网友对中国的支持率远高于美国媒体,因为他们要拿中国说事儿,去反对美国政府。包括写那篇文章的记者,自己在推特上也说中国扶贫搞得好。那么问题来了,纽约时报为什么非得用批评语气谈论中国呢?为什么美国主流媒体总是报道中国的负面新闻呢?
这并不是说西方媒体有什么同盟式的定要系统性地反华。事实上美国主流媒体上报道美国的负面消息更多。特别特朗普当政这四年,主流媒体就没好话,批美国比批中国狠得多。而这并不完全是媒体人有什么偏见 —— 这其实更是媒体的性质所决定的。
3.为什么新闻没有好消息?
凡是为市场服务的新闻,报道的大多都是坏消息。坏消息会让人感觉更重要,批评的语调会让纽约时报的读者感到更有深度。不过人并不是悲观动物,人是乐观动物。
哈福德说,如果你在伦敦街头随便拦住一个市民,问他对自己未来的经济状况是乐观还是悲观,他十有八九回答乐观。但如果你问他对英国整体的状况是乐观还是悲观,他很可能是悲观的。这显然是一个偏见,如果大多数英国人都认为自己的状况很乐观,为什么英国整体会很悲观呢?这其实是媒体造成的。
哈福德认为,媒体爱报道坏消息,并不是因为人们更喜欢坏消息 —— 而是因为人们更容易注意到坏消息,因为只有坏消息具有突发性和意外性。
好消息往往不值得报道。这是因为事情变好都是慢慢变好的。你说中国昨天减少了几万贫困人口,今天又减少了几万,这是新闻吗?读者想看的是意外事件。而意外事件往往是坏事件。
比如你设想一下,如果下一个小时之内,在你身上要发生一件值得上新闻的大好事,它会是什么呢?其实你现在已经挺好了,如果有什么疾病的话一小时之内也恐怕治不好。除了买彩票中大奖你很难想象有什么大好事能在一小时之内发生。但如果让你想象未来一小时内可能在你身上发生的坏事,那想象空间就大了,比如突然地震、天降陨石之类,简直什么事都有可能发生。坏消息和好消息是不对称的。
所以我们看新闻里的统计数字一定要考虑时间情境,不要过分被短期波动影响。当你把视角放大、频率放慢,你看到的东西完全不同。
有人建议玩这么一个游戏:我们设想 2018 年出了这么一期报纸,它不是日报、周报也不是月报和年报,而是每 25 年才出一期,你说它应该写些什么呢?
它不会写那些鸡毛蒜皮,它写的大概是中国崛起、互联网普及、智能手机出现这三个主题。
那如果是 50 年出一期,它的首页标题大概是「没有发生核战争!」这是因为它得跟 1968 年去对比,而当时正处于冷战。
而如果是 100 年、200 年才出一期,那么人们更关心的就是科技进步、健康水平大大提高,贫困人数大大减少这些事情 —— 这些全都是好消息。
如果你喜欢好消息,你应该考虑更大的时间尺度。
输入看定义,输出看情境,视角和视野决定内容,这些难道不是语文题吗?
《让世界讲得通》4:怎样像强者一样看科学论文
统计学的第五个教训是你有必要了解那些科研结果是怎么做出来的。经常去餐馆的厨房看看不一定能增加你的食欲,但是能让你的认识更接近内行。
几个你已经比较熟悉的事件的最新进展。
1)“嫦娥五号”带回来的 1731 克月球土壤,是人类第一次取得的月球背面的土壤。这个土壤跟之前美国和苏联的月球土壤有什么不同呢?其中有没有水的成分呢?有多少氦3呢?有没有什么令人感到特别意外的物质?答案是现在还不知道,因为科学家仍然在分析之中。
2)2020年12月23日,一颗“火流星”在青海玉树坠落,科学家判断这是一块重达430 吨的陨石。你知道这颗陨石的奇特之处吗?根据科学家的计算,它的运行轨迹和坠落情况都符合陨石的行为规律,这是一颗正常的陨石。
3)最近新出了一本书叫《博弈论:决策致胜的法则》,其中讲到了博弈论的知识。
4)罗胖在跨年演讲中提到了几个有关中国经济的数字,其中特别有一项数字是 2019 年中国向外输出了 530 亿美元的钢材。而我查阅了一下,发现他说的对。
5)我没有感染新冠病毒的症状,所以我没有去做检测。
……
听到这里你可能再也忍不住了。没料你说啥啊?确实,上面这些所谓的进展其实是没有进展,没有哪个媒体会向你报道这样的消息。但是请注意,这些都是正确的消息。
正确,但是不值得报道。意外的消息才值得报道。希望今天人类收到了外星人信号明天有人终于证明了P=NP。
好在科学里的猛料也挺多的。我们最喜欢的是那些「意料之外,情理之中」的研究结果。最好你一听觉得特别新鲜有趣,仔细一想又能相信它是对的,然后最好它还有个普遍的应用。比如下面这些你可能已经耳熟能详的说法 ——
1)「选择的悖论」。心理学家摆出一些果酱让受试者买。当可选的果酱只有 6 种的时候,30%的人从中做出了选择,而且真的花钱买了;可是当可选的果酱有 24 种之多的时候,只有 3%的人做出了选择。这个实验告诉我们,选项太多会让人陷入矛盾而干脆什么都不选。
2)「意志力是一种有限的资源」。如果你今天下午要面对一场意志力的考验,比如说考试,那你中午这顿饭最好吃得任性一点。这是因为强迫自己吃健康饮食会消耗你的意志力,而意志力是一种有限的资源,你应该留着用在下午的关键时刻。
3)「Prime 效应」。你知道吗?仅仅是阅读和使用一组有关“老年”的词汇,你就会收到暗示,感到自己变老了。受试者做了一组文字游戏题,题目中的答案都是像“脱发”、“退休”、“皱纹”、“灰色”和作为老年人度假胜地的“佛罗里达”这样的词,结果受试者做完题,离开房间往外走的时候,他们的走步速度,明显地比做别的题目的对照组要慢:他们不知不觉地把自己当成了老人。
4)「高能量姿态」。如果你马上要参加一场面试,感到自己有点不自信,可以先演练几个姿势。比如你可以像“神奇女侠”那样双腿分开挺身站立,然后双手叉腰。这样的姿势能给你正面的自我暗示,会让你变得更自信。
5)「逆火效应」。当我们面对一个谣言的时候,也许最好的办法是对它置之不理,而不是给它辟谣。有研究表明反驳一个谣言只会加强这个谣言的传播,而且过后人们会忘记它到底是对是错,可能会更容易记住错误的结论。
以上这五个研究结果,它们都非常、非常著名。然而你知道现在心理学陷入了“可重复性危机”,有很多看似惊人的结果都经不起重复验证实验。那你能不能猜一猜,上述这五个研究中,有哪几个,未能经受得住重复验证,现在已经被基本上证伪了呢?
*
心理学家曾经组织过一次跨学校、跨机构的大规模协作,共同选择了 100 项已经发表的研究,对其进行重复验证。验证的结果是 2015 年发布的。你猜这100个研究中,有多少个经受住了验证的呢?
只有 39 个。连一半都不到。科学结论的标准不就是可重复可检验的吗?可是你这里有超过一半的研究都是不可重复的。当然也许那些重复研究做的不准确,你得找很多研究组,各自做很多次才知道到底对不对。刚才说的那五个研究就是这样的情况,现在已经有多个组对它们做过重复验证,结论是相当一致的 ——
那五项研究,全都被证伪了。
具体的文献请参考蒂姆·哈福德的《让世界讲得通》。可这是为什么呢?难道说最早的那些研究者都是故意造假吗?
*
能用普通错误解释的就不要用恶意,我们还是说统计学。出版偏倚是幸存者偏差的一种,它使得你能看到的研究结果,都是比较怪异的研究结果。
发表学术论文和发表新闻报道一样,读者欢迎意外消息。如果你的论文主题是像开头的那五条报道一样,你根本找不到地方发表。做出正确的研究结果很容易,难处在于做出意外的研究结果。
假设你是一个心理学研究者。“人”这个动物的各种特性对你已经都不新鲜了,可是为了发表论文,为了在学术界生存下去,你必须找到人的一个新的、意外的特性。有一天逛超市的时候面对十几种果酱你不知道该选哪一种。在你妻子催促你的时候,你的灵感不期而至。
会不会选项越多,人就越不想选呢?
这个想法很新颖。有点反常识,同时又是那么的合理。从来没人想到过这个道理。而且这个道理还对商家有指导意义。你迅速组织了实验。
你非常希望这个效应是真的。
连你自己都没想到,这个实验将会被写进很多本畅销书里。
*
心理学实验通常都是招募一群人,随机分组,让各组做不同的事情,最后结果是统计出来的。而统计容易问题。接下来发生的事情有多种可能性。
结果可能仅仅是个巧合。也许你招募的受试者人数太少,也许就是那么巧,你观察到面对 6 个果酱选项的人明显比面对 24 个选项的人更愿意花钱。而殊不知,如果有一百个研究者做这样的实验,其中只有一个会得到你这样的结果。你其实是中奖了。
还可能你这个实验的组织有问题。这就好比说组织一场篮球比赛,山东对广东。你想证明山东强于广东,你给自己设定的标准是如果山东队的比分比广东队高十分以上,就算山东队更强。比赛进行到第二节第五分钟的时候,山东队领先广东十分 —— 你认为结果已经出来了,于是你就叫停了比赛,宣布实验结束。
更有可能是你对实验数据做了一定的修饰。对照组有几个人一上来也不看题就买了果酱,他们好像是专门来买果酱的,这样的人不能算数。实验组有个老奶奶犹犹豫豫地就是不买,于是你规定把七十岁以上的受试者都排除在外。反正规则都是你定的,你反复尝试了各种规则,终于定制了一组能让结果出现的规则。
在你看来这些都算不得造假,大家做实验统计都是这么做的,毕竟你没有胡乱编写数据。后来又有一次逛超市的时候,你也问过自己:如果我这个发现是对的,那些超市为什么还给每个商品弄那么多选项呢?你说服自己,这一定是他们还不懂消费者真正的心理。
你的论文发表了。
*
说到这里你可能会问,难道那些论文的审稿人就不好好把把关吗?这很难把关。期刊和审稿人都不可能专门组织一帮人把论文中的实验重做一遍,一般看你的研究方法没问题,结果新颖就行了。而论文发表之后,通常也不会有人专门做实验去验证你的结果。
这就是出版偏倚。验证别人的结果要花费同样的人力物力,可是验证的结果是不值得发表的。你说他做得对也好错也好,期刊不感兴趣。期刊只喜欢新的、意外的结果。
特别是,期刊不喜欢没有效应的结果。2008 年,有人系统性地调查了有关抗抑郁类药物的研究论文,发现 48 篇论文都是说某种药物有效的,只有 3 篇说某种药物无效。然而 48 : 3 远远不是真实的研究结果对比,你还得看那些被期刊拒稿没有发表出来的研究。调查者找出了 23 项没有发表的研究,其中 22 项说某种药物无效,只有 1 项说某种药物有效。再进一步,在那些发表出来的论文中,还有 11 项结果其实是药物无效,只是写论文的时候被粉饰成了有效 —— 把这些都考虑进来,真正的有效vs无效比分应该是 38 : 37。
也就是说那些药物无效的可能性相当大。
那种「世上本无事」式的消息,才是普遍的消息。意外的消息常常是不可靠的消息。使用统计方法得出的科学结论很可能比主流媒体的新闻报道更不靠谱。
*
这让我们如何面对科学论文呢?了解了科学家的复杂心态、科研工作中的各种不堪行为,你最大的收获应该是做一个心比他们更大的强人。他们关注的是自己那个小研究能不能发表,你关注的是那个结论正确不正确,是不是真有用。科学家不是让人仰望的神职人员,他们只不过是我们的工具人。
我们之所以相信科学,不是因为科学这门业务的方法绝对可信,而是因为科学家这个群体很厉害。首先并不是所有学科的论文都那么容易出毛病,通常只是涉及到统计学的研究才会有那么大的不确定性。其次我们「相信科学」信的不是哪一篇具体的论文,而是「学术共同体」的共识,信的是「当前科学理解」,而共识和理解都是经过大量重复验证的结论。
更重要的是,科学共同体非常善于自我更新和自我纠正。现在学术界已经采取了一系列措施去应对可重复性危机和出版偏倚 ——
第一,科学家被鼓励重复验证现有的研究结果,而且鼓励发表。
第二,已经有了专门的期刊(比如说,Trials)用于不带偏见地发表统计实验结果 —— 不论这个实验结果是否有意外发现:你能证明某个东西没有效应,这也是值得了解的结论。
第三,现在流行一个新的研究规范是在开展一项随机实验之前,研究者必须先在某个网站注册一下(这叫 preregistration),事先说好你准备用什么方法、采集和分析哪些数据。这就等于说在篮球比赛开始之前先说好要打多少分钟,这样就避免了你根据比赛情况现场决定如何采集数据。
第四,有感于公众不容易了解当前科学理解,科学家成立了像 “科克伦协作(Cochrane Collaboration, https://www.cochrane.org/)”这样的组织,专门就一些新的像医学和社会科学领域的新进展撰写文章,给你一个最可信的说法。
统计学的第五个教训是你有必要了解那些科研结果是怎么做出来的。经常去餐馆的厨房看看不一定能增加你的食欲,但是能让你的认识更接近内行。