为什么人们习惯通过很少的观察值,就得出结论?
1
什么是样本偏差?
人们习惯通过很少的观察值,就得出结论。这样的结论,往往就存在样本不足导致的偏差。
样本偏差用更通俗的话来说,就是以偏概全。样本偏差经常出现在我们的日常生活中。
例如,我的一个哥们,最近他老婆生了个女儿。同产房共5位宝宝,4女1男,我哥们就对我说,现在生女儿多过男孩太多,以后怕没的嫁。
但实际情况是,全国男女比例严重失衡,男性比女性多3359万。
再比如,吸烟有害健康,患患肺癌的概率很大。我之前也写过一篇被人民日报转载的癌症文章,发给周围吸烟的朋友,劝身边人戒烟。但是这些朋友给出的借口是这样的:
你看隔壁老王,都九十岁了,抽烟抽了一辈子,照样健健康康的。
我高中的班长王二狗,烟酒不沾,三十岁就归了西。
所以呀,抽烟有害健康,都是扯淡骗人的!
看吸烟是否有害健康,应该看的是整个烟民群体和非烟民群体的比较,光一个隔壁老王和王二狗怎么能得出结论。
还有人跟踪过每年的高考状元后来的职业发展路径,最终发现这些状元,绝大多数并没有成为人中龙凤,国之栋梁,于是他们得出结论:
高考状元最终将走向平庸,高考对筛选人才并没什么卵用。
高考状元的容量加起来不过几百人,但非状元人数上千万,几千万人当中出现马云马化腾,当然更正常。
几个清北毕业的人,上知乎回答了个问题,说自己清北毕业,也买不起学区房,甚至也在北京留不下来,于是就有人得出结论:
清华北大的学历不如学区房值钱!
其实,说清华北大毕业买不起房的,也只是发声的少数人,而那些闷声发大财的清华北大人,看到这样的结论,恐怕只会默默地骂一句SB。
以上的例子,统统犯了小样本偏差的统计错误。在之前我有聊过小数定律。
换句话说,考察的样本太少,根本不可能得出可靠的结论。
2
如何避免样本偏差的思维错误呢?
你需要记住一点即可:
统计推断,样本大小越大,越可靠。基于小样本的结论,往往都存在以偏概全的问题。