数据与偏见
一般认为,统计学是一门研究如何有效地收集和分析受到随机影响数据的学科。每一项重要的研究成果都离不开优质数据的默默支持,优质的数据让正确分析得到可靠的结果成为可能。那些臭名昭著的统计错误往往是数据的问题,统计分析本身没有错误,但是用于计算和分析的数据是不恰当的。如果基础数据有问题,再缜密严谨的分析也是徒劳。下面列举一些例子来说明一些不太容易被觉察到的、数据使用上的错误。
一、 发表性偏见
肯定性的研究发现相比于否定性的研究发现来说,更有可能被发表,从而影响我们对事实的判断。假如我们使用了这样的研究的间接数据,就很容易出现问题。假设有人进行了一项严谨的纵向研究,对包含10万样本的数据进行了长达20年的跟踪研究,假如方法没有任何瑕疵。得出玩电脑游戏不会预防直肠癌的结论,每天花费数小时在电子游戏上的人和完全不玩电子游戏上的人患结肠癌的概率一样。但是没有任何一本杂志会发表这样的研究成果。首先玩电子游戏和患结肠癌之间在科学上并不存在强烈的相关性,所以开展这项研究的出发点是什么并不明确。另外“某个因素不能预防癌症”的事实并不算是一个有趣的发现因为毕竟有太多的因素都不能预防癌症。无论是在医学还是其他领域否定性的发现都显得单调乏味。
对于统计学来说,巧合的存在决定了异常事件的发生,只不过是发生的概率很小。所以在100项完成的研究中,就有可能存在一项结论完全不值得信任的情况。比如玩电脑游戏有助于降低患直肠癌的风险这样的结论。但是问题也随之而来,99项证明电子游戏和直肠癌之间不存在任何关系的文章由于研究结果由于枯燥乏味并没有得到发表,而剩下的一项却得到发表。于是阅读科学杂志的人会读到这篇电子游戏和癌症的文章,在他们的眼里这个话题只有这一项研究。这个例子确实奇怪了一些,但是其中反映的问题却是真实、严肃的。
比如《纽约时报》曾经发表过一篇关于抗抑郁药物药效的发表性偏见的文章,文章指出“抗抑郁药百忧解、帕罗西汀等产品的生产厂商故意不发表更多的药物实验结果,就是为了获得政府的许可,误导医生和消费者对药物真实效果的看法。”那些证明这些药物对治疗有效的研究中有94%被发表了出来,而发现这些药物无效的研究中只有14%被发表在刊物上。为了解决这一问题,如今的医学杂志要求所有的研究在刚开始的时候通过项目注册予以告知,编辑可以借此得到某项研究中得到否定和肯定结论的比例。
二、 记忆性偏见
回忆不能是优质数据的可靠来源。我们总是认为现在和过去是有联系的,有因才有果,这才符合人类的思考方式。但是当我们试图解释当前一些特别好或者特别不好的结果时,我们的回忆会出现一些问题。比如1993年一位哈佛大学的研究人员进行了一项关于饮食习惯和癌症的研究,他搜集了两组女性饮食习惯的数据,一组对象为被诊断出患有乳腺癌的女性,另一组由年龄相仿的健康女性组成,通过对他们早年的研究发现:患有乳腺癌的女性在年轻时喜欢吃高脂肪含量高的食物人数明显偏多。
但这项研究并不能揭示饮食习惯和癌症之间的关系,仅仅可以告诉我们癌症是怎样影响一个女人对她早期饮食习惯的记忆的。实际上在所有被调查者还没有人患病之前都接受了一个关于饮食习惯的调查。对比多年后收集的数据,有一个令人震惊的发现是,患有乳腺癌的女性在回忆她们的饮食构成的时候食物的脂肪含量明显上升了,甚至比她实际摄入的要高的多;而没有换上乳腺癌的女性则没有这一倾向。
纵向研究是基于时间序列数据的,横向研究是基于当前收集的截面数据。没有记忆性偏见是纵向研究优于横向研究的一个方面。
三、 幸存者偏见
当样本中有一些或许多数据缺失,导致样本组成在观测期间发生改变,从而影响到分析的结果的时候,幸存者偏见就出现了。例如某个培训机构宣称学校里的一批学生在过去四年里成绩稳步提高。这一过程中不存在虚假行为,没有任何对描述性数据的错误使用。这批学生每一年的成绩在平均分、中位数、高分段学生比例等各方面都都优于上一年。我们很容易得到这批学生成绩确实在提高的错误结论。实际上这很有可能是因为成绩最差的学生最有可能离开,随着越来越多的这类学生离开培训机构,剩下的学生成绩自然会逐渐上升。所以在进行一个长期实验的时候要关注样本组成的变化。
四、 选择性偏见
选择性偏见产生的原因是没有使用严格设计的抽样方法,使得每个样本单位的入样概率与计算的不同,那么最后在使用样本估计总体情况的时候就会出现错误。1938年《文学文摘》主办的美国民意调查测验的统计错误根源就是一个存在偏见的样本。《文学文摘》作为当时影响力较大的新闻周刊向该杂志的订阅者寄去了一份调查问卷,总共加起来有1000万名美国公民受到了这份问卷,这在当时已经算得上是天文数字了。但实际上预测结果正好相反。这是因为所选样本并不能反映总体情况,订阅该杂志的读者相对收入较高,所以支持共和党的人数较多。对于民调,或者对于使用样本估计总体的问题来说,往往是样本越多,结果越准。但是如果样本本身就存在问题,也就是获得样本的抽样过程存在问题,那么样本量越大,结论就越偏离正确的方向。