334：missing data（一）

2024-04-20 本文已影响0人林芷文的日常碎碎念

理想情况下，受试者所有的访视、检查数据都收集到的话，能对临床试验数据的分析起到积极作用。

但是我们知道可能因为各种各样的原因，比如受试者单纯地不想继续进行试验（提前退出）、或者约定访视的那天拉肚子了不来了等等，都有可能造成临床试验数据的不完整，这些情况都很常见，所以缺失数据(missing data)就这样产生了。

对于缺失数据的正确和准确处理，有时候甚至能决定一个临床试验是否成功。

通过试验，我们能够可靠地检测和测量治疗组和对照组之间的差异，从而实现有效的治疗。其目的是避免得出治疗无效的错误结论(称为II型错误)。试验的统计效能(power)随着样本量的增加而增加，或者随着结果的可变性的减少而减少，因此使用尽可能多的随机研究参与者是很重要的。

从分析中排除缺失值的受试者将导致样本量减少，从而降低试验的统计效能，使检测治疗效果变得更加困难。同时治疗效果估计中的偏差是指治疗组比对照组更倾向于治疗组，通常是由于在估计标准误差时忽略了缺失值周围的不确定性造成的。

关于缺失数据导致的偏倚是一个非常重要的问题，这种偏倚的风险取决于缺失数据与治疗和结果的关系。

上面是为什么在临床试验中考虑缺失数据的影响，而不是收集到多少数据就用多少数据进行分析。不是我写的，所以读起来文绉绉的。

我们无法知道每个缺失值的原因，所以所有缺失的数据都需要解释和确认。那么我们怎么确认什么样的缺失数据是重要的、需要考虑的？关键因素就是缺失机制、治疗分配和结果之间的关系。这种关系可以分为:MCAR,MAR,MNAR,这个我们后续详细学习一下。

在ICH E9 5.3 只是简单地强调了缺失数据是临床试验中的一个潜在偏倚来源。并说明了只要缺失数据的处理方法合理，尤其是在方案中预先定义了这些方法，则试验可以被认为是可靠的；然后没有可推荐的普遍使用的缺失数据处理方法。应该对缺失数据的处理方法做敏感性研究，特别是当缺失数据的比例较大时。

最后补充一下ICH E9(R1)对于缺失数据的说明:

对于既定估计目标的分析有意义、但未收集到的数据。它应该与不存在的数据，或由于伴发事件而被认为没有意义的数据区分开来。

上面这段话还是好理解的，后续文章将继续对缺失数据进行拓展以及如何处理缺失数据进行描述。

大家也可以参考EMA发表的一篇指导原则，这里面对于缺失数据相关的东西有更详细的解释。

《Missing data in confirmatory clinical trials - Scientific guideline》