读书笔记

《为什么》第四章 去除因果关系的混杂因子

2019-10-26  本文已影响0人  苏耀勇

第四章的主要内容是讲,在不能采用随机大样本对照实验的情况下,如何使用do算子去除因果关系的混杂因子。

最早的一次对照实验:

公元前597年,巴比伦王洗劫了犹大国,带回了数以千计的俘虏。亚施毗按照国王的指示寻找“那些没有缺陷、相貌英俊、技能全面、通达知识、理解科学的孩子”,接受教育,以后为国家服务。

其中有个叫丹尼尔的男孩拒绝按照安排吃皇家饭,喝皇家酒。出于宗教原因,他和他的朋友一定要吃素食。亚施毗拿对此感到非常为难。

丹尼尔向亚施毗拿提出,吃素不会削弱他们服务国王的能力。并提议做一次对照实验:“给我们10天时间,让我们4人只吃蔬菜,让另一组孩子吃皇家的肉,喝皇家的酒。10天后,让两组进行比较”。

最终,丹尼尔和他的三个同伴胜出,后来在素食饮食下健康成长。国王也为他们的智慧和学识(当然还有他们那健康美丽的外表)所折服,并留下了一段传奇。

这个关于丹尼尔的故事就是一个对照实验,虽然相对于现代的实验来讲,还有很多问题,比如样本数不够、时间不够等,没有剔除混杂因子影响。但是它同样有着现代实验的光辉:前瞻性对照试验在今天仍然是可靠科学的一个标志。要知道,我们现在还有多少人,因为听说朋友采取某种饮食,并减肥成功,因此自己就照着做呢?

利用随机对照实验去除混杂因子

混杂因子的定义晦涩难懂,本来我想说,对原因x和结果y之间的因果关系造成干扰,影响的因素就是混杂因子。可惜这样说是不准确的。但是可以通过举例子加强对混杂因子的理解。比如前面丹尼尔的实验,丹尼尔和他的三个伙伴以前的身体状况和知识就是对照实验的混杂因子,甚至可以说他们的基因也可能是混杂因子。还有,著名的斯坦福囚犯实验中,参加实验的人都是白人、年轻人。因此,就有人认为实验结果不具备代表性,就是因为,这里面,人种和年龄等因素就是斯坦福实验的混杂因子。

为了消除混杂因子的影响,科学家引入了随机对照实验。这本书中并没有提到大样本,但是我认为足够的样本是消除混杂因子必备的基础。为什么随机大样本实验能够消除混杂因子的影响?随机可以将各种混杂因子分布在样本中,而你可以按照你需要控制的因素对样本进行分组,样本足够多,分布的就足够均匀,混杂因子的影响就去除的越彻底。通过这样,就可以获得干预概率P(Y|do(X)),也就是我们要研究的因果关系。随机大样本对照实验可以说是现代医学实验的金标准,在另一本书《这么吃才科学》中,就提到了很多不被作者认可的实验,原因就是实验样本太少。比如有些实验的样本只有二三十个人而已。在这种情况下,是无法消除混杂因子影响的,那么结论的有效性就非常值得质疑。

大样本随机对照实验是金标准,但是,有些研究是不能采取这钟方法的,例如在研究肥胖对心脏病的影响时,我们不能随机安排病人肥胖与否,或者干预可能是不道德的(例如研究吸烟的影响,我们也不能要求随机选择的一些人抽上10年的烟)。再或者,对于某些较为复杂、参与起来不方便的试验,我们可能会在招募受试者时遇到困难,而勉强找到的志愿参与者又无法代表我们的目标总体。这时候,本章提出的“后门标准”(back-door criterion)的方法,它可以明确识别出因果图中哪些变量是去混因子。

利用因果图和后门标准去除混杂因子

因为有些地方无法使用对照实验,那么这场因果革命带来的方法就能派上用场了。这突破了一直以来的一个结论:一项观察性研究(其中受试者自行选择是否接受处理)永远不能阐明一个因果结论。

使用这个方法,首先要熟练使用因果图,上一章已经讲过,因果图由3个基本形式组成:链接合、叉结合、对撞结合。在你所绘制的因果图中,x和y之间有些路径是因果路径,有些地方是非因果路径。为了去除X和Y中的混杂,我们只需要阻断它们之间的每个非因果路径,而不去阻断或干扰所有的因果路径就可以了。换句话说,就是保留因果关系之间的信息流动,阻断非因果关系之间的信息流动。这样,我们将后门路径(back-door path)定义为所有X和Y之间以指向X的箭头为开始的路径;如果我们阻断了所有的后门路径(因为这些路径允许X和Y之间的伪相关信息在管道中流通),则我们就完成了对X和Y的去混杂。

为了理解这段话,我费了很大的功夫,只能从因果图中进行举例了。


在上面这张图中,X←A→B和B←C→Y是叉结合,A→B←C是对撞结合,因此,x的信息流不会按照这条路径X←A→B←C→Y流动,因此可以说,这张因果图中并没有混杂因子。


如果在B和X之间增加一个路径,B→X,那么,X←B←C→Y这条路径就被打通了。我们需要将这条非因果关系的路径中断,杜绝它带来的不利影响。最简单的方式是控制C,就阻断了这条非因果关系路径。要注意的是,如果我们通过控制B来关闭这条路径,那么我们就打开了M形路径X←A→B←C→Y。而要关闭这一路径,我们还必须控制A或C。这个方法就是第四章讲解的后门标准去除因果关系中的混杂因子。

从这里看,能够准确的画出因果图,是准确做出分析的重要前提。否则,重要的因素没有在因果图中出现,去除混杂因子就无从谈起。

上一篇下一篇

猜你喜欢

热点阅读