医学研究根本不靠谱
这两天刚看完万维钢老师的《万万没想到》这本书,其中《医学研究能当真吗?》一节讲得是科学研究中的可信度和适用性问题。介绍了学者Ioannidis的两项研究,其中一篇是用数学方法证明了“在医学研究中被广泛使用的统计方法,其实是非常脆弱的体系”,今天就来研读一下这篇大作
Ioannidis, John P. A. “Why Most Published Research Findings Are False.” PLoS Medicine 2.8 (2005): e124. PMC. Web. 23 Jan. 2018.
在现代科学研究中,大多数甚至绝大多数研究声称的结论都是错误的,作者研究了影响这个问题的关键因素及其一些推论:
1.Modeling the Framework for False Positive Findings
研究发现真实的可能性取决于研究之前的先验概率prior probability, 统计效力the statistical power和显著性水平the level of statistical significance。
假设R=某领域被测的具有真实相关性的个数/无关的个数 (R=a/b),它是该领域的自然属性。为了计算方便,我们假定在众多假说中只有一个是真的(a=1), 那么先验概率=a/(a+b)=a/(a+a/R)=1/(1+1/R)=R/(R+1)。
研究发现真实相关性的概率为 1 − β (1减去Type II error rate), Type I error rate α 是指研究后声称没有得到真实结果的概率
c 是研究中被检测到的关系,其期望值见表1
表1在表1中,后验概率为真的可能性PPV (positive predictive value)= (1 − β)R⁄(R− βR + α) ,因此当(1 − β)R> α时,一个研究结果更有可能是真的。由于绝大多数情况下以α = 0.05来判定,也就是当(1 − β)R> 0.05时,认定结果为真。
遗憾地是由于bias偏差u的存在(见表2), PPV = ([1 − β]R + uβR)⁄(R + α − βR + u − uα + uβR), 除非1 − β ≤ α, 例如 1 − β ≤ 0.05,否则偏差u越大,PPV越小
比表1更复杂 reverse bias也需要被考虑接着作者还考虑了团队合作的影响,对于n个同等效力的独立研究,PPV = R(1-βn)/(R + 1 - [1 - α] n - Rβn)(见表3,不考虑偏差)。随着越来越多的独立研究加入,PPV趋于减少,除非1 − β < α。
因此,由于偏差和独立团队研究的影响,仅仅根据P值<0.05来定义显著性是远远不够的,现在的医学研究流行将effective interventions, informative predictors, risk factors或者 associations 等只要达到了p<0.05这个formal statistical significance就是Research findings。“Negative”用词不当,所谓的null findings实际上是存在的。
2.推论
推论1:在科学领域进行的研究越少,研究发现为真的可能性就越小
Small sample size means smallerpower and, for all functions above, the PPV for a true research finding decreases as power decreases towards 1 − β = 0.05.
Corollary 2: The smaller the effect sizes in a scientific field, the less likely the research findings are to be true.
Corollary 3: The greater the number and the lesser the selection of tested relationships in a scientific field, the less likely the research findings are to be true.
Corollary 4: The greater theflexibility in designs, definitions,outcomes, and analytical modes in a scientific field, the less likely theresearch findings are to be true.
Corollary 5: The greater the financialand other interests and prejudices in a scientific field, the less likely the research findings are to be true.
Corollary 6: The hotter a scientific field (with more scientific teams involved), the less likely the research findings are to be true.
3.小结
作者总结了某项研究的真实性存疑可能跟下列因素相关:
1)该领域内的研究较少
2)effect sizes 较少
3)有更多的数量和更少的预选测试 preselection of tested relationships
4)在实验设计、定义、结果和分析模型上的灵活度较大
5)涉及金钱利益或偏见
6) 为追求统计学意义而拉进来更多的团队
对于许多当前的科学领域,声称的研究结果通常可能仅仅是对普遍存在的偏见的一种简单衡量,还举例说明Most Research Findings Are False for Most Research Designs and for Most Fields,PPV>50%是非常难实现的。
针对这些情况,可以采取的解决办法有:1)Better powered evidence, 大规模的研究或者低偏差的meta-analyses;2)在团队合作中制定标准,消除偏见 3)应该提高对R (the pre-study odds)的理解而不是一味追求p值,因为那才是影响research efforts的关键
除了数学推导,作者还统计了顶级期刊上发表的医学论文的有效性来证明自己的观点,用事实说话(其研究结论2005年发表在JAMA上),有时间大家可以看看
其实我一直在听万老师的得到专栏,订阅了两集收获很大,因为大部分使用场景是在路上听音频,没做笔记学后即忘,所以这次看书特意把好句子和学习心得记录了下来,当然也包括写下本文~