数学思维4:零假设和显著性检验
知识线索
我们今天介绍统计学中的零假设和显著性检验的概念。我们人类容易盲目轻信,习惯在没有联系的事物之间想象出因果关系。为了避免这种错误,我们要借鉴归谬法的思路,用零假设和显著性检验来一步步推理。所谓的零假设,就是要先假设毫无关系、毫无作用,然后,我们再观察实验结果中出现异常情况的概率,如果出现异常情况的概率较高,我们就说,可以推翻原来的零假设,我们发现了统计上的显著性。但是,显著性检验也有误区。所以,统计也是会撒谎的,你得擦亮眼睛。
知识内容
1.死鱼能读出人的情绪变化吗?
我先给你讲个科学界的笑话。2009年,加州大学圣塔芭芭拉分校的神经学家克雷格·巴尼特(Craig M. Bennett )在旧金山的一次国际学术会议上做了个报告,题目是:《大西洋死鲑鱼对人类神经活动的观察》。
他们研究的是什么呢?先介绍一个背景。现在研究脑科学的时候,通常采用的办法是用功能性磁共振成像装置扫描人或动物的大脑,然后观察在特定的行为、情绪下,哪一个大脑的功能区更为活跃。巴尼特和他的小伙伴们就是这么做的。他们煞有其事地把一些人类的照片给一条死鱼看,然后用功能性磁共振成像装置扫描死鱼的脑袋。结果,他们发现这条死鱼竟然能够“正确地”判断出照片中人类的情绪。这个研究当之无愧地获得了2012年搞笑诺贝尔奖。
虽然只是搞笑,但这个研究揭示了一个深刻的道理,人类是容易轻信的,我们会试图寻找世间万物的联系,即使找到的仅仅是错误的联系。我们会在找到第一个支持证据之后就放手,不再思考这种联系到底是不是存在的,是因果关系,还是相关关系。
普通人是这样,科学家也未能免俗。巴尼特的研究小组就是想要挖苦一下有些装模作样的研究。当脑科学家扫描大脑的时候,他们会把大脑分成成千上万个极小的区域。即使是在扫描死鱼的时候,死鱼大脑上每个极小的区域也会随机出现一些噪音。这些噪音中,很可能会有一些看起来跟照片上人的情绪变化相匹配。说白了,这跟看见天上的白云,觉得一会儿像马,一会儿像老头儿,是一样的。
2.从归谬法到显著性检验
那我们怎样才能避免这样的错误?今天,我们就来介绍一下零假设和显著性检验这两个概念。
先说什么是零假设?零假设好比你抓到一个犯罪嫌疑人,但你不能先假设他或她有罪,你要先假设他或她是无辜的。做研究的时候,我们也要用同样的思路。假如你要检测一种新药到底有没有疗效,你不能先假设它是有效的,你只能先假设它是无效的。假如你要研究在得到学习是否真的能提升自己在职场和人生的竞争力,你不能先假设是有用的,只能先假设是没有用的。这就是零假设,零假设是假设毫无效果,或假设丝毫不起作用,或是假设没有任何相关关系。我们在做研究的时候,要从零假设开始,然后通过做实验,或是搜集数据,看看能不能推翻零假设。如果能够推翻零假设,那么,你就能讲,这种新药是有疗效的,或者,在得到学习之后能够提升你的水平。
怎么推翻零假设呢?这要用到显著性检验。在讲显著性检验之前,我们先谈谈亚里士多德提出的归谬法。归谬法的思路是,为了证明某个命题不正确,我们先假设该命题是真的,然后,我们看看能不能推导出来什么结论,如果这个结论明显是错误的,那么,该假设就是假的命题。
我再更严格地表述一下:我们先假定假设H为真,根据H,某个事实F不成立,但是,F是成立的,因此,H不成立。比如,在2017年12月31日那天晚上,北京发生了一起盗窃案。有人怀疑是你作的案。假设H就是:你是这起盗窃案的案犯。如果这个假设成立,那么,你就不应该在2017年12月31日晚上出现在上海的罗胖跨年演讲的现场(事实F)。也就是说,根据H,事实F是不可能成立的,但F成立了,有你在朋友圈发的自拍照为证,因此,假设H是不成立的,你不可能是这起盗窃案的案犯。
在大多数研究中,我们不可能如此斩钉截铁地得出结论。我们最多只能用一种模糊的归谬法。这就是显著性检验的思路。也就是说,我们先假定假设H为真,根据H得到某个结果为O的可能性应该非常小,但是,很不幸,我们看到事件O发生了,因此,H成立的可能性非常地小。比如,我们假定S先生是工作积极认真的,如果他工作是积极认真的,那么,在工作时间发现他打王者荣耀的概率就会很小,可是,我们却发现,此人确实曾有过该开重要的会议了,他还在打王者荣耀,那这说明什么?说明我们原来的假设,也就是说,他工作积极认真的假设很可能是错的。
我们再把显著性检验的程序介绍一下:
第一步:开始实验。
第二步:假定零假设成立。
第三步:观察实验结果中出现事件O的概率,我们把这个概率称为P值。P值反映的是零假设成立的可能性。
第四步:如果P值很小,我们就认为实验结果满足零假设的可能性很小,你可以通过这种归谬法判断,你原来想检验的猜想具有统计学上的显著性。如果P值很大,我们就得承认零假设还没有被推翻。
3.“显著性检验”其实并不显著
通过这样的推理过程,你就能理清思路,在判断相关关系的时候更加谨慎。但是,我还要提醒你,显著性检验里面也有潜在的陷阱,如果不注意,还是会出现认为死鱼能读出人的情绪变化的荒谬观点。
你要记住以下三个陷阱:
P值多小才是显著的呢?在显著性与非显著性之间并没有一条泾渭分明的界限。在实践中,大部分研究者都认为0.05是临界值。可是,这只是一种约定俗成。你有没有注意到,老师在改卷子的时候,更习惯把59分顺手改为60分,所以59分较少,60分更多?在做研究的时候也有类似的情况,如果差一点没有过0.05的临界值,有的研究者就会修改数据,通过“威逼利诱”,把结果改为有显著性。
你不能假设一种因素一定会有影响力。如果你太想得出有影响力的结论,就可能会操纵实验。比如说,我们要研究吃糖豆会不会得痤疮。科学家可能会发现,吃糖豆和得痤疮之间没有关系。但是,他们还可能会分析吃紫色的糖豆、咖啡色的糖豆、粉红色的糖豆、红色的糖豆和得痤疮的关系。照这样分析下去,很可能会像死鱼读出人的情绪一样,偶然地发现某一种糖豆,比如说吃绿色的糖豆和得痤疮之间有相关性。这种研究其实是没有意义的。
不要误解“显著性”。很多科学术语都有误导,显著性这个词就是典型的例子。在我们的日常用语中,显著指的是很重要、很有意义。统计学家进行的显著性检验,并不是为了检验它的重要性。比如,如果我们测试一种新药的疗效,零假设是这种药没有任何疗效。如果能够推翻零假设,我们也仅仅证明了这种药是有疗效的,但是它的疗效可能非常地小。 统计学家认为有显著性,但临床的大夫却会告诉你,这种药在治疗中其实没有任何疗效。