为什么大多数发表的研究结论是错误的
原文:Why Most Published Research Findings Are False
作者:John P. A. Ioannidis
译:张小邪
总结
人们越来越担心的是,目前大多数已发表的研究结果都是错误的。研究主张成立的概率可能取决于研究的功效和偏倚、同一问题上其他研究的数量、以及每个科学领域中所探究的关系中真与假的比例。在这种框架下,当研究领域较小时;当效应值较小时;当被测关系的预选数量更多而预选次数更少时;当设计,定义,结果和分析模式具有更大灵活性时;当存在更大的金钱和其他利益和偏见时;当更多的团队参与科学领域以追求统计学意义时,研究结论就不太可能成立。模拟表明,对于大多数研究设计和设置,研究结论为假可能性更大。此外,对于一些当前科学领域,声称的研究结果可能通常只是对普遍存在的偏倚的准确测量。在本文中,我将讨论这些问题对研究的组织和解释的影响。
不断涌出的证据有时反驳了已发表的研究结果,随之而来的是困惑和失望。从临床试验和传统流行病学研究[1-3]到最现代的分子研究[4,5],研究设计的范围都存在驳斥和争议。越来越多的人担心,在现代研究中,错误的研究结果可能是已发表的研究主张的大多数乃至绝大多数[6-8]。然而,这并不令人惊讶。可以证明,大多数声称的研究结果都是错误的。在此,我将研究影响这一问题的关键因素及其中的一些推论。
为假阳性调查结果建模
几位方法学家指出[9-11],研究结论的非重复(缺乏证实)率高是追求便利的结果,然而,仅仅基于对单个研究在形式上的统计学显著性评估,就得出此研究结果毋庸置疑的结论,这种做法是站不住脚的(形式上的统计显着性,通常指p值小于0.05)。研究结论的真伪并不总是能恰当地用p值(P-Value)表示和概括,但是,不幸的是,有一种普遍的观点认为医学研究文章应仅基于p值进行解释。研究结论在此定义为任何形式上能具有统计显著性的关系,例如有效的干预措施,信息性预报器,风险因素等等。其实 “负面”研究也非常有用。 “负面”实际上是一个误称,而且这种误解很普遍。但是,这里我们只针对研究者声称存在的关系,而不是无效的发现。
It can be proven that most claimed research findings are false.
如前所述,一项研究发现确实为真的概率取决于该事实为真的先验概率、研究的统计能力以及统计显著性水平[10,11]。想象一个2×2的表格,在表格中将研究结果与科学领域中真实关系的黄金标准进行比较。在一个研究领域中,关系存在真和假两种假设。令R为现场测试的“真关系”与“假关系”的数量之比。 R是该领域的特征,它可以有很大的变化,这取决于该领域是以高度可能的关系为目标,还是在可能的数千个假设中只搜索一个或几个真实的关系。为了简化计算,我们也可以认为,在这些领域中,要么只有一个真实的关系(在许多可以被假设的真实关系中),要么在几个现有的真实关系中找到任何一个的功效是相似的。一个关系为真的先验概率为R⁄(R+1)。研究发现真关系的概率反映的是功效1-β(1减去第二类错误率)。当没有一个关系真正存在时,声称关系为真的概率反映了Ⅰ型错误率,α。假设在该领域中正在探究c关系,表1中给出了2×2表的期望值。在基于正式的统计显著性声明了一项研究发现后,得出的结论是后验概率为真的预测值,PPV(positive predictive value)。 PPV也就是Wacholder等人所说的假阳性报告概率的补充概率[10]。根据表1,可以得出PPV =(1-β)R/(R-βR+α)。因此,如果(1-β)R>α,则研究发现更可能为真。通常,由于绝大多数研究者都取α= 0.05,因此这意味着,如果(1-β)R> 0.05,则研究结果更可能是对的。
不太容易理解的是,全球各地不同研究人员团队的偏倚和重复进行的独立测试的程度可能会进一步扭曲这一状况,并可能导致研究结果真正属实的可能性更小。我们将尝试在类似的2×2表的环境中对这两个因素进行建模。
偏倚
首先,让我们将偏倚定义为各种设计,数据,分析和表示因素的组合,这些因素往往会在不应该产生的时候产生研究结果。假设u是那些本不应该成为的 "研究结果",但最终却因为偏倚而呈现和报告为分析结果的比例。即使研究设计,数据,分析和陈述是完美的,也不应将偏倚与机遇变异相混淆,后者有一定概率会导致某些发现是错误的。在分析或报告结果的过程中,偏倚可能导致对分析或报告结果的操纵。断章取义或歪曲事实的报告是这种偏倚的典型形式。我们可以假设u并不取决于是否存在真实的关系。这不是一个不合理的假设,因为通常不可能知道哪些关系确实是真实的。在存在偏倚的情况下(表2),PPV =([1-β] R +uβR)⁄(R +α-βR+ u-uα+uβR),PPV随u的增加而减小,除非1-β ≤α,即在大多数情况下为1-β≤0.05。因此,随着偏倚的增加,研究结论正确的机会将大大减少。图1中显示了针对不同功效水平和针对不同验前比(译者:即R)的情况。
反过来,真正的研究结果有时可能会因为反向偏倚而无效。例如,对于较大的测量误差,关系会在噪音中丢失[12],或调查人员无法有效使用数据,或他们没有注意到统计上显着的关系,或可能存在利益冲突,从而使他们倾向于 "埋没"重要的研究结果[13]。尚无良好的大规模实证证据表明,在不同的研究领域中,这种反向偏倚可能发生的频率有多高。然而,或许可以公平地说,反向偏倚并不常见。此外,测量误差和数据使用效率低下的问题可能正变得不那么频繁,因为随着分子时代技术进步,测量误差已经有所降低,研究者对数据的处理也越来越复杂。无论如何,反向偏倚可以与上面的偏倚相同的方式建模。同样,反向偏倚不应该与机遇变异混为一谈,后者可能会因为机会而错失一段真正的关系。(译者:上一段说偏倚越大,错误结果被认为真的可能性越低。这一段说,偏倚过大,有可能让真正的结果被埋没。)
多个独立团队参与测试
几个独立的团队可能正在解决同一组研究问题。随着研究工作的全球化,几个研究团队(通常是几十个团队)可能会探索相同或相似的问题,这几乎是一种惯例。不幸的是,在某些领域,到目前为止,主流的心态一直是专注于单个团队的孤立发现,孤立地解释研究实验。至少有一项研究报告宣称有研究结果的问题越来越多,这就使得人们的注意力向这些问题倾斜。在关于同一问题的几项研究中,至少有一项研究声称其研究发现有统计学意义的概率很容易估计。对于n个等功率的独立研究,2×2的表(如表3)所示:PPV=R(1−βn)/(R+1−[1−α]n−Rβn)(不考虑偏倚)。随着独立研究数量的增加,除非1−β<α,即典型的1−β<0.05,否则PPV有下降的趋势。在图2中显示了针对不同功效水平和不同的验前比的情况。对于不同功率的n个研究,在i = 1到n的情况下,βn被βi的乘积所取代,但推论是相似的。
推论
方块1中显示了一个实际示例。基于上述考虑,可以得出有关研究发现确实为真的概率的一些有趣的推论。
方块1: 案例分析——低验前比的科学研究
我们假设一组研究人员进行了全基因组关联研究,以测试100,000个基因多态性中的任何一个是否与精神分裂症的易感性有关。根据我们对该病的遗传性程度的了解,我们可以合理地预计,在被测者中可能有10个左右的基因多态性与精神分裂症真正相关,这10个左右的基因多态性的相对近似优势比在1.3左右,并且对其中任何一个基因多态性的识别能力也相当相似。那么R=10/100,000 =10-4,任何一种多态性与精神分裂症相关的先验概率也是R/(R+1)=10-4。我们还假设该研究具有60%的功效来找到α= 0.05时优势比为1.3的关联。那么可以估计,即使在P值勉强越过0.05的阈值发现了统计学上的关联性,那么后验概率与先验概率相比,研究后的概率增加了12倍左右,但仍然只有12×10-4
现在,让我们假设研究人员可以操纵他们的设计,分析和报告,以使更多的关系超过p = 0.05阈值,即使这并没有严格按照最初的研究计划进行设计和分析,也没有严格按照结果的全面报告。这种操纵可以通过偶然的纳入或排除某些患者或对照组、事后的亚组分析、调查最初未指定的遗传对比、疾病或对照组定义的改变,以及结果的选择性或扭曲报告的各种组合来进行。市售的 "数据挖掘 "软件包实际上是以通过数据挖掘产生统计学意义上的结果为荣。在u=0.10的偏倚下,研究结果为真的后验概率只有4.4×10-4。此外,即使在没有任何偏倚的情况下,当十个独立的研究小组在世界各地进行类似的实验时,如果其中一个小组发现了一个正式的统计学上有意义的关联,那么研究结果为真的概率只有1.5×10-4,几乎不比我们在进行这些广泛的先验概率高多少!这就是我们的研究结果。
推论1: 一个科学领域的研究样本越小,研究结果越不可能是真的。
小样本量意味着较小的功效,对于上述所有函数,真正研究结果的PPV值随功效向1-β= 0.05降低而降低。因此,在其他因素相同的情况下,在进行大研究的科学领域,如心脏病学的随机对照试验(几千名受试者随机化)[14],比起小研究的科学领域,如大多数分子预测因子的研究(样本量小100倍)[15],研究结果更有可能是真实的。
推论2: 一个科学领域的效应值越小,研究结果就越不可能是真的。
功效也与效应值有关。因此,在效应大的科学领域,如吸烟对癌症或心血管疾病的影响(相对风险3-20),与公认效应较小的科学领域,如多基因疾病的遗传危险因素(相对风险1.1-1.5)[7],研究结果更有可能是真实的。现代流行病学越来越被迫以较小的效应规模为目标[16]。因此,真实研究成果的比例预计会下降。按照同样的思路,如果一个科学领域的真实效应值非常小,那么这个领域很可能会受到几乎无处不在的假阳性主张的困扰。例如,如果复杂疾病的大多数真正的遗传或营养决定因素的相对风险低于1.05,那么遗传或营养流行病学的研究将在很大程度上是乌托邦式的。
推论3: 在一个科学领域中,受测关系的数量越多,选择的数量越少,研究结论的真实性越低。
如上所述,后验概率为真(PPV)在很大程度上取决于验前比(R)。因此,研究结果在验证性设计中,如大型III期随机对照试验或荟萃分析(meta-analyses)等,比起假设生成实验,研究结果更有可能是真的。基于大量经过汇编和测试的信息,被认为具有很高信息量和创造力的领域应具有极低的PPV,如微阵列和其他以发现为导向的高通量研究[4,8,17]。
推论4: 在一个科学领域中,设计、定义、结果、分析模式的灵活性越大,研究结果越不可能是真实的。
对于一些研究设计,如随机对照试验[18-20]或荟萃分析[21,22]等,灵活性增加了将 "负面 "结果转化为 "正面 "结果的可能性,即偏倚u。遵循共同的标准很可能会增加真实发现的比例。研究结果也是如此。相较于设计了多种结果(例如精神分裂症结果的量表),当结果是明确和普遍认同的(如死亡),真实的结果可能更常见[23]。类似地,与分析方法仍处于实验阶段(例如,人工智能方法)并且只报告“最佳”结果的领域相比,使用普遍认同的、刻板的分析方法(例如,KaplanMeier曲线图和对数秩检验)的领域[24]可能产生更大比例的真实结果。不管怎么说,即使在最严格的研究设计中,偏倚似乎也是一个主要问题。例如,有强有力的证据表明,选择性结果报告,对报告的结果和分析进行操纵,即使对于随机试验也是一个常见的问题[25]。仅仅取消有选择的出版,并不能使这个问题消失。
推论5: 一个科学领域中,经济利益、其他利益和偏见越大,研究结果就越不可能是真的。
利益冲突和偏见可能会增加偏倚u。利益冲突在生物医学研究中非常常见[26],虽然通常它们的报道不足且数量较少[26,27]。偏见不一定有经济根源。某一特定领域的科学家可能纯粹因为相信科学理论或致力于一己的发现而产生偏见。许多看似独立的、以大学为基础的研究可能只是为了给予医生和研究人员晋升或终身教职的资格,而不是出于其他原因。这样的非财务冲突也可能导致报告结果和解释被扭曲。有声望的研究者可能通过同行评审程序压制反驳他们的研究结果出现和传播,从而使他们的研究领域延续错误的教条。经验证据表明,专家意见极不可靠[28]。
推论6: 一个科学领域越热门(涉及的科学团队越多),研究结果越不可能是真的。
这似乎是自相矛盾的推论,因为如上所述,当许多研究人员团队参与同一领域时,个别发现的PPV会降低。这可能解释了为什么在引起广泛关注的领域中,我们因重大发现而兴奋不已时,紧随其后的是深深的失望。随着很多团队挤入同一领域工作,随着大量实验数据的产生,要想击败竞争对手,时机变得至关重要。因此,每个团队可能会优先追求和传播其最令人印象深刻的 "正面 "成果。只有当其他团队在同一问题上找到了“正面”关联时,“负面”结果才可能变得具有传播吸引力。在这种情况下,驳斥一些著名期刊上的说法可能是有吸引力的。有人提出了Proteus现象这个术语来描述这种快速交替出现的极端研究主张和极端相反的反驳现象[29]。经验证据表明,这种极端对立的序列在分子遗传学中非常普遍[29]。
这些推论分别分析了每个因素,但这些因素往往相互影响。例如,在普遍认为真实效应值较小的领域工作的研究者,可能比在普遍认为真实效应值较大的领域工作的研究者更有可能进行大型研究。或者,偏见可能会在一个热门的科学领域盛行,进一步削弱其研究结果的预测价值。持有高度偏见的利益攸关方甚至可能制造障碍,破坏获得、传播相反结果的努力。反过来,一个领域很热门或能吸引浓厚的投资兴趣,有时会促进研究规模的扩大和研究水平的提高,从而提高其研究结果的预测价值。或者,大规模以发现为导向的测试可能会发现大量的重要关系,使研究者有足够的内容汇报及进行进一步的搜索,从而避免了数据挖掘、操纵。
对于大多数研究设计和大多数领域而言,大多数研究发现都是错误的
在本文描述的框架中,PPV超过50%是相当困难的。表4提供了针对各种情况(可能是特定研究设计和设置所特有的)针对功效的影响,基于真实与非真实关系的比率和偏倚所开发的公式进行模拟的结果。从一项进行良好、有充分功效、以先验几率为50%(干预有效)开始的随机对照试验中发现,一项发现最终有大约85%的情况下是正确的。对高质量随机试验的验证性荟萃分析预期会有相当相似的表现:潜在的偏倚可能会增加,但与单一的随机试验相比,功效和预检机会更高。相反,如果R≤1:3,来自非结论性研究的荟萃分析结果很可能是错误的。来自功效不足的早期临床试验的研究发现,如果存在偏倚,仅有约四分之一的研究结果可能为真,甚至更少。以探索为导向的流行病学研究表现更差,特别是在功效不足的情况下,但即使功效充足,如果R=1:10,流行病学研究也可能只有五分之一的可能是真的。最后,在以发现为导向的研究中,如果测试的关系超过真实关系的1,000倍(例如,测试了30,000个基因,其中30个基因可能是真正的罪魁祸首)[30,31],即使在实验室和统计方法、结果和报告的标准化程度相当高、偏倚很小的情况下,每个已确认的关系的PPV也非常低。
已确认的研究结果往往可能仅仅是对普遍存在的偏倚的准确度量
如前述,大多数现代生物医学研究都是在研究前和研究后获得真实发现的概率非常低的领域进行的。让我们假设,在一个研究领域中,根本没有任何真正的发现。科学史告诉我们,至少根据我们目前的理解,过去科学工作常常浪费在完全没有真正科学信息的领域。在这样的“零场”中,理想情况下,在没有偏倚的情况下,所有观察到的效应大小都会在零场附近偶然变化。观察到的结果偏离预期的程度仅仅是偶然的,这仅仅是对普遍存在的偏倚的纯粹衡量。
例如,让我们假设缺乏营养或饮食习惯实际上是形成特定肿瘤风险的重要决定因素。我们还可以假设,科学文献研究了60种营养素,并声称所有这些营养素都与罹患这种肿瘤的风险有关,而在比较摄入量上限和下限的相对风险在1.2至1.4之间。那么,声称的效应值只是衡量了这些科学文献的产生过程中所涉及的净偏差。其实际上是对净偏差的最准确的估计。甚至可以说,在 "零场"之间,声称效应值更高的领域(往往伴随着医学或公共卫生重要性的声称)只是那些维持了最严重的偏倚的领域。
对于PPV很低的领域,为数不多的真实关系不会对整体情况造成太大扭曲。即使某些关系是正确的,观察到的效应分布的形状仍然可以清楚地衡量该领域所涉及的偏倚。这个概念完全颠覆了我们看待科学成果的方式。传统上,研究人员会兴奋地将巨大而极其重要的影响视为重要发现的迹象。在现代研究的大多数领域中,太大和太显著的影响实际上更有可能是巨大偏倚的迹象。它们应引导研究人员仔细地进行批判性思考,以了解其数据,分析和结果可能出了什么问题。
当然,在任何一个领域工作的研究人员都很可能不愿意接受这样一个事实,那就是,他们的职业生涯所处的整个领域都是一个 “零场”。然而,其他方面的证据,或技术和实验的进步,可能最终会导致一个科学领域的瓦解。衡量一个领域的净偏倚,也可能有助于了解其他领域的偏倚范围,在这些领域中,类似的分析方法、技术和冲突可能会在其他领域中使用。
我们怎样才能改善这种情况?
大多数研究结果都是错误的,这是不可避免的吗?还是我们可以改善这种情况?一个主要的问题是,我们不可能百分之百肯定地知道任何研究问题中的真相是什么。在这方面,纯粹的 "黄金 "标准是无法实现的。然而,有几种方法可以提高后验概率。
提供更有力的证据可能会有所帮助,例如大型研究或低偏倚荟萃分析,因为它更接近未知的“黄金”标准。然而,大型研究仍可能存在偏倚,应该承认并避免这些偏倚。此外,对于当前研究中提出的数百万和数万亿个研究问题,大规模证据是不可能获得的。大规模证据应该针对先验概率已经相当高的研究问题,这样一个重大研究发现会使得后验概率可以被认为是相当确定的。当主要概念而不是狭义的、具体的问题能够得到检验时,也就特别指出了大规模证据的存在。一个否定的结论不仅可以反驳一个具体的建议主张,甚至可以驳斥整个领域或相当一部分的主张。根据狭义标准选择大规模研究的表现,例如特定药物的营销推广,这在很大程度上是浪费研究。此外,人们应该警惕的是,极大规模的研究,也许更有可能为一个与空值没有真正意义上区别的小效应,找到形式上的统计学显著性差异[32-34]。
其次,大多数研究问题都是由多个团队解决的,强调任何一个团队的统计学研究结果都是有误导性的。重要的是证据的整体性。通过提高研究标准和减少偏见来缩小偏倚也可能有所帮助。然而,这可能需要改变科学心态,而这可能很难实现。在一些研究设计中,通过研究的前期注册,如随机试验等,可提高成功的概率[35]。这是因为注册将对假设生成研究构成挑战。在领域内对数据收集或研究人员进行某种注册或联网可能比注册每个假设生成实验更可行。不管怎么说,即使我们在其他领域的研究注册方面没有取得很大的进展,但制定和遵守协议的原则可以从随机对照试验中更广泛地借鉴。
最后,我们不应该追逐统计学上的显著性,而应该提高我们对R值范围(验前比)的理解,这是研究真正能够发挥作用的地方[10]。在进行实验前,研究者应该考虑他们所测试的是真实关系而不是非真实关系的概率。推测的高R值有时会被确定。如上所述,只要在伦理上可以接受,应该对那些被认为是相对成立的研究结果进行偏差最小的大型研究,看看这些研究结果被证实的频率有多高。我怀疑有一些既定的 "经典 "将无法通过检验[36]。
然而,大多数新发现将继续来自验前比很低,甚至非常低的假设生成研究。那么,我们应该承认,单项研究报告中的统计显著性检验仅提供了部分情况,而不知道在报告之外和相关领域内的相关研究中,一共进行了多少检验。尽管有大量的统计文献可以进行多重检验校正[37],但通常情况下,我们不可能知晓报告作者或其他研究团队在报告研究发现之前进行了多少数据挖掘。就算这一点是可行的,我们也无法得知验前比是多少。因此,不可避免的是,人们应该对在相关研究领域和研究设计中被探究的关系中,有多少种关系是真实的,做出大致的假设。我们考虑的范围越广泛,就越有可能在独立研究中为确定验前比提供指导。在其他相邻领域中发现的偏倚经验也将是有益的借鉴。
在其他邻近领域检测到偏倚的经验也将有益于借鉴。尽管这些假设在很大程度上是主观臆断,但它们在解释研究主张并将其置于上下文中仍然非常有用。