以数据,洞察社会。

柯尔莫哥洛夫最后的问题

2020-05-06  本文已影响0人  洞口麻雀

在COVID-19(新型冠状病毒肺炎)疫情的背景下,人们接触到更多的统计学名词:空白对照组、设计双盲随机对照试验、核酸检测阳性率、提高治愈率,降低病亡率等。例如钟南山院士在介绍广医防疫经验时就提到了空白对照和双盲随机对照。

大敌当前,坦白说,你敢用空白对照吗?如果他发展得很重怎么办?

在治疗第一、科研第二的情况下,我们怎么能设计双盲随机对照?不可能。

中国在抗击新冠疫情中的谨慎,不仅体现在临床试验的方案设计上,而且在多版《新型冠状病毒肺炎诊疗方案》中对用药的剂量都有明确的规定。现代药物对人体功能的影响似乎是非常精确的,一毫克或两毫克的剂量就可以引起血压或神经的巨大变化。

不过,药理学研究已经证明,这些影响因素是用概率分布理论设计和分析的,它们实际上是概率分布的参数。统计的基本思想在于,科学研究的真实对象是数据的概率分布。

统计学名词对于我们来说或许有点陌生,但是当人们解决问题没有十足的把握时,一般都会用概率进行表达。当我们运用概率的时候,一般就是人类承认自己的无知。

概率仅仅是我们无知程度的度量。 -- 亨利·庞加莱

我们认识的所有的「确定性」是「不确定性」,概率是对「不确定性」的测度。人们花了很大的精力用于让人们理解概率,试图将概率的数学思想与现实生活联系起来。

那么,人们真的理解概率吗?

概率在现实生活中意味着什么?这也是柯尔莫哥洛夫最后的问题。



01 数据

北京时间2020年4月24日凌晨,WHO(世界卫生组织)官网发布了瑞德西韦治疗重症COVID-19的临床试验研究结果。

数据显示,这项瑞德西韦治疗重症COVID-19的临床试验原计划入组453例,实际入组237例,其中瑞德西韦治疗组158例,标准治疗对照组79例,死亡率分别为13.9%和12.8%,无统计学差异。结果认为,瑞德西韦治疗未明显改善COVID-19重症患者临床症状。

该研究团队随即在官网上发布声明,表示此项试验由于入组率过低而提前终止,其结果很难具有统计学意义。随后WHO发言人称无意间发布了研究团队提供的初稿,在意识到失误后随即撤下。

北京时间2020年4月30日,王辰院士以及曹彬教授所领衔的科研团队于The Lancet发表题为《Remdesivir in adults with severe COVID-19: a randomised, double-blind, placebo-controlled, multicentre trial 》的研究,评估了瑞德西韦用于出现较严重临床症状的新冠肺炎确诊病患的疗效,根据论文得出的结论,与安慰剂组相比,通过瑞德西韦治疗并不能加快 COVID-19 患者的恢复速度,也不能减少 COVID-19 患者的死亡。

图源:The Lancet


02 模型

对于被WHO泄露的实验设计中,不同的治疗方法是随机分配给患者的。实验启动后观察结果,假设两种疗法具有相同的效果。由于患者和疗法的匹配是随机的,因此任何其他分配方式都会得到类似的结果。

随机的疗法标签对结果没有影响,可以在患者之间调换——前提是两种疗法具有相同的效果。因此,该试验的事件空间就是可以实现的所有可能随机分配方式的集合。

瑞德西韦治疗组和标准治疗对照组的显著性检验,属于两个样本率差异的显著性检验,根据提供的数据可以得出该假设检验的原假设H0和备择假设H1:

H0:瑞德西韦治疗组和标准治疗对照组的死亡率无显著性差异。

H1:瑞德西韦治疗组和标准治疗对照组的死亡率有显著性差异。

P值与原假设的对或错的概率无关,它是关于数据的概率,P值是当原假设H0为真时,得到所观测的数据的概率。

根据被WHO泄露的数据构造统计量并进行P值的计算,P-Value>显著性水平(α=0.05),接受原假设,即认为瑞德西韦治疗未明显改善COVID-19重症患者临床症状。

假如这项临床试验的统计分析显示,瑞德西韦治疗组和标准治疗对照组的疗法之间存在显著性差异。这是否意味着医学界可以肯定瑞德西韦疗法能够治疗新的COVID-19重症患者?这是否意味着它适用于一定比例的COVID-19重症患者?它是否仅仅意味着瑞德西韦疗法仅仅对于研究中选择的这一部分人群更加有效?

统计学的显著性检验只能与随机化实验共同使用。要想将概率应用到现实生活中时,必须确定计算这些概率所依据的事件空间。

在抽样调查领域,概率在现实生活中的含义是非常明确的。

当统计方法被用于天文学、社会学、流行病学、法律或者天气预报等观测性研究时,这一含义就没有那么明确了。因为不能确定所计算的概念的事件空间,就无法证明一个模型比另一个模型更加合理,因此这些领域常常出现争议。


03  洞察

现实非常复杂,充满了各种意外、混乱和轰动性事件。人们构造的科学模型永远无法完整地描述现实。科学革命必然经历一个模型更替的过程。

首先,科学家往往会提出一个现实模型,这个模型看上去符合现有数据,而且完全可以用于预测试验结果。

然后,随着数据的积累,对模型做出修改以满足新的发现,于是模型越来越复杂,增加了对特殊情况的处理和看上去不成立的扩展。

最终,模型变得不再适合实际使用。此时,具有创造性的思想家会提出一个完全不同的模型,引发一场科学革命。

统计革命就是这种模型更替的一场连环颠覆的思想盛宴。

决定论哲学掌控了19世纪早期的科学,人们相信一切事情的发生都是由宇宙初始条件和描述运动的数学公式决定的。

19世纪末期,人们发现,牛顿和拉普拉斯使用过的定律只是一种粗略的估计,科学逐渐使用一种新的模式,即现实的统计模型。到了20世纪末,几乎所有学科都转移到了使用统计模型的阵营。

大众文化没有跟上这种科学的脚步,有些模糊的概念和表述(如“相关性”、“概率”、“风险”)成为了大众词汇,大多数人也知道了一些科学领域上的不确定性。不过大多数人并没有意识到哲学观念已经发生了深刻转变。

科学研究的对象不是可以观察到的事物,而是描述观测值概率的数学分布函数。

当我们进入21世纪,统计思想几乎在所有学科中完全击败了决定论。但是,我们可以想象的到,统计革命最终也将走到尽头,被另一种体系取代。

仅凭人类智慧不可能组织出一个能够近似描述真实客观世界的思想体系。任何此种尝试都将具有本质上的错误。

到最后,这些错误将会变得越来越明显,人们只能不断修改科学模型并最终将其抛弃,选择另一个更加精妙的模型。

当人们在现实生活中寻找概率的意义时,通常会去寻找柯尔莫哥洛夫抽象概率空间的实际意义。

柯尔莫哥洛夫却选择了另一种方法,将他的概率公理以及解决数学问题的方法彻底推翻,他认为信息论不是概率计算的结果,而是概率的起源……

也许有一个人,会接过柯尔莫哥洛夫留下的火把,开创一种以数字计算机的本质为哲学基础的分布理论。

也许在某个地方,另一位 R. A. Fisher 已经出现在当今科学的前沿领域,他很快就会以人们从未想过的见解和观点,给世界带来巨大的惊喜。


关注公众号,回复【临床研究】获取完整资料。
上一篇下一篇

猜你喜欢

热点阅读