数据和因果性(第四章):消灭潜在变量

2019-11-17  本文已影响0人  东瓜科蛰

最近热播的《少年的你》似乎有意将施虐者的行为归结为施虐者的家庭环境,虽然他们的行为是通过性格这一中间变量完成的。三个变量用因果图表示就是“家庭→性格→霸凌”,但是,除了家庭、性格,肯定还有其他因素导致霸凌,比如,“家庭→性格→霸凌←学校”。然而,我们要知道在多大程度上,学生的霸凌是家庭导致时,就需要知道“家庭→霸凌”的直接因果效力,而且还需要确保没有潜在变量影响“家庭→……→霸凌”。由于单纯从数据的概率分布中无法获知潜在变量对我们所要研究的变量之间的影响,消灭潜在变量一直是统计学的重点和难点。在“家庭→性格→霸凌”这个因果链中,或许,“基因”就是之前未曾被考虑到的潜在变量,这就说明在“家庭→性格→霸凌”这个因果链条中存在一个后门路径——“家庭→性格←基因→霸凌”,这个后门路径会影响我们判断家庭导致霸凌的因果程度。更为麻烦的是,很可能我们不知道有什么具体潜在变量。

20世纪六十年代,吸烟是否会导致肺癌,在统计学界吵得不可开交。否定这一观点的学者会认为,是因为存在吸烟基因,这个基因导致人们抽烟,也导致抽烟的人得肺癌,相反,抽烟无法因果地导致人们得肺癌,这里得因果路径是“吸烟←基因→肺癌”。一种解决方法是用随机对照组实验。随机选择两组人,一组抽烟,另一组不抽烟,然后经过若干年之后,看看抽烟组是否得肺癌。为什么随机对照组实验能够确定吸烟是否是肺癌的原因?因为随机选择的两个组,除了是否抽烟,他们没有任何区别,换句话说,通过随机对照,研究者控制了“基因”这一变量。但是,随机对照组之所以可以确定潜在变量,正是考虑了数据之间的因果关系。混杂不是统计学概念,而是一个因果概念(第117页)。

因果图的优势是可以根据“后门标准”,让研究者识别出因果图中的哪些变量是去混因子。一旦知道去混因子是什么,研究者可以有意收集这些数据,以确定是否真是如此。在因果图中,要确定“X →Y”是否存在潜在影响因子,只要计算P(Y|X)是否等于P(Y|do(X))。为了消除潜在变量的影响,必须阻断“X →Y”的后门路径。在因果图中,有且仅有三种因果关系,分别是“A→B→C”,“A←B→C”,“A→B←C”。要阻断后门路径,就是阻断信息在A和C中的流动。在第一种和第二种情况中,我们只需要控制B,而在第三种情况中,只要不控制B即可。例如,在一个更长的因果链条中,“A← B←C→D←E→F→G←H→I→J“,要阻断信息在A和J中传播,要做的无非是控制B,C,E,F,G, H, I的任何一个,但由于存在对撞链,不需要做任何事,信息仍不能在这个因果链条中传播。如果Z能出去X和Y之间的混杂,,那么Z不是X的后代,以及Z能够阻断所有后门路径。

上一篇下一篇

猜你喜欢

热点阅读