统计学4-辛普森悖论
对撞因子
对撞因子(Collider)【1】,在统计学和图模式中,是指同时被两个以上的变量影响的变量,而这些影响对撞因子的变量之间不一定有因果关系。因为在环路图上会显示为有两个以上箭头指入的节点,所以称为对撞因子。
在设计实验、挑选样本或进行统计分析时,如果有意或者无意间控制了对撞因子,会造成自变量和因变量之间出现没有实际因果关系的
伪关系
。
例子
在二次世界大战期间,沃德·亚伯拉罕发现盟军飞回来的飞机中,机翼上有最多弹痕,机尾和引擎最少。他提议补强最少弹痕的地方,而不是中弹最多的地方。因为这些飞机可以飞回来,说明中弹的位置不重要,而其他位置中弹的飞机没能飞回来,所以才没有观察到哪些位置中弹。有弹痕的位置
和重要的位置
是两个变量,是否被击落
是对撞因子,因为没被击落
的条件已经自动被控制了,所以变量之间出现负相关。这种现象称作幸存者偏差。
再以篮球为例,如果只看 NBA球员,会发现身高比较高的人得分率没有比较高。这是因为身高矮还能进NBA的人必然是用其他有时补足了身高的弱势。 身高
为自变量,篮球得分率
为因变量,是NBA球员
是对撞因子。
辛普森悖论
如果控制对撞因子后造成相反的相关性,称为辛普森悖论【2】。
当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年,E.H.辛普森在他发表的论文中阐述此一現象後,该现象才算正式被描述解释。后来就以他的名字命名此悖论。
请看下面的例子
一所美国高校的两个学院,分别是法学院和商学院。新学期招生,人们怀疑这两个学院有性别歧视。现作如下统计:
法学院
性别 | 录取 | 拒收 | 总数 | 录取比例 |
---|---|---|---|---|
男生 | 8 | 45 | 53 | 15.1% |
女生 | 51 | 101 | 152 | 33.6% |
合计 | 59 | 146 | 205 |
商学院
性别 | 录取 | 拒收 | 总数 | 录取比例 |
---|---|---|---|---|
男生 | 201 | 50 | 251 | 80.1% |
女生 | 92 | 9 | 101 | 91.1% |
合计 | 293 | 59 | 352 |
根据上面两个表格来看,女生在两个学院都被优先录取,即女生的录取比率较高。现在将两学院的数据汇总:
性别 | 录取 | 拒收 | 总数 | 录取比例 |
---|---|---|---|---|
男生 | 209 | 95 | 304 | 68.8% |
女生 | 143 | 110 | 253 | 56.5% |
合计 | 352 | 205 | 557 |
在总评中,女生的录取比率反而比男生低。
借助一幅向量图可以更好的了解情况:
Simpson_Paradox.jpg
这个例子说明,简单的将分组数据相加汇总,是不能反映真实情况的。
就上述例子说,导致辛普森悖论有两个前提。
- 两个分组的录取率相差很大,就是说法学院录取率很低,而商学院却很高。而同时两种性别的申请者分布比重相反。女性申请者的大部分分布在法学院,相反,男性申请者大部分分布于商学院。结果在数量上来说,拒收率高的法学院拒收了很多的女生,男生虽然有更高的拒收率,但被拒收的数量却相对不算多。而录取率很高的商学院录取了很多男生,使得最后汇总的时候,男生在数量上反而占优。
- 有潜在因素影响着录取情况。就是说,性别并非是录取率高低的唯一因素,甚至可能是毫无影响的。至于在学院中出现的比率差,可能是随机事件。又或者是其他因素作用,比如入学成绩,刚好出现这种录取比例,使人误认为这是由性别差异而造成的。例如,如果报考法学院的女生较多,可能会出现女生的录取分数线高于男生的情况。
为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时,我們必需清楚了解情况,以综合考虑是否存在造成此悖論的潜在因素。