《为什么》第二章:因果推断的起源
如题所示,这一章主要讲解的是因果关系的历史和起源。从高尔顿的弹珠台,到卡尔.皮尔逊的相关性、到休厄尔.赖特的路径图和贝叶斯定律。
高尔顿的弹珠台:
高尔顿用这种类似弹珠台的仪器解释遗传特性,比如身高在人类中的分布基本上符合(a)这样的钟形(正态分布)。但是,这样的模型存在一个致命的缺陷,如果用若干级弹珠台模拟若干代人群的遗传特性的话,底部的钟形分布就会越来越宽,越来越散开,这意味着身高的人的后代会越来越高,身矮的人的后代会越来越矮。这不符合人类真实的高度分布曲线,1000年前没有3米高度人,现在也没有。
实际上,高个子男性的儿子往往身高也比普通人高——但总体上很可能不如他们的父辈高;矮个子男性的儿子往往身高比一般人矮——但很可能不如他们的父辈矮。除了基因遗传因子,影响身高的因素还有很多,高尔顿的模型太过简单,当然无法解释真实世界。后来有人将这种现象称之为:向均值回归。
卡尔.皮尔逊的相关性
父辈和子辈身高的分析
为了研究父辈和子辈身高的现象,高尔顿做了详细地统计和分析:
图中实线部分的意思是,当某一区间父辈的高度,对应子辈平均(可预测)的高度,它的斜率低于虚线部分,虚线部分斜率为1,也就是父辈和子辈高度一样的直线。因此,这意味着,如果父辈高了1cm,子辈并不会高1cm,而是介于0-1cm之间,这取决于实线部分的斜率是多少。这根实线也被称为回归斜率。
后来,高尔顿的弟子卡尔.皮尔逊推导出了回归斜率公式,并称为“相关系数”,现在,当我们要了解相关不同变量之间的关系,它们之间关系有多强时,相关系数是我们第一个考虑的因素。甚至,很长时间以来,统计学界将相关性奉为和牛顿定律一般的圣皋,并且将因果关系摒弃了。高尔顿在他的《科学语法》(The Grammar of Science,1892)中,这样表达因果关系:
一个特定的事件序列在过去已经发生并且重复发生,这只是一个经验问题,对此我们可以借助因果关系的概念给出其表达式……在任何情况下,科学都不能证明该特定事件序列中存在任何内在的必然性,也不能绝对肯定地证明它必定会重复发生。
皮尔逊更进一步说:“描写两个事物之间关系的终极的科学表述,总可被概括为……一个列联表(contingency table)。”
这师徒两个家伙可能走得太远了,不仅仅将因果关系摒弃了,甚至连所有的物理公理也全部否定了?物理定律不就是一个个因果关系的阐述吗?还是说,目前已知的公理也只是在等待被推翻而已?皮尔逊说:“力作为运动的因,与树神作为生长的因可以等同视之“。好了,不讨论物理公理,从反面看,却存在一些他们难以接受的所谓“伪相关性”。书中提到两个案例:
- 一个国家的人均巧克力消费量和该国诺贝尔奖得主的人数之间存在强相关。这种相关性显然是很愚蠢的。真正的原因是富裕的西方国家吃巧克力的人更多而已。
- 尤尔发现英国某年的死亡率与由英国教堂主持婚礼的婚姻在总体中的比例之间有着极高的相关性(0.95)。这难道说明上帝要惩罚婚姻幸福的信徒吗?或许,这只是两者在时间序列上的偶合而已。
皮尔逊解释,真正的相关性能够表明变量之间的一种“有机关系”,而伪相关则不能。但什么是“有机关系”呢?这难道不是因果关系的另一种叫法?
皮尔逊遇到的难题,给另外一个人提供了机会。他就是休厄尔.赖特。
休厄尔·赖特、豚鼠和路径图
休厄尔.赖特在美国农业部工作,负责饲养豚鼠。在工作之余,赖特研究豚鼠毛色与遗传基因、环境、其他因素的关系。为了研究各个因素之间的关系,赖特画出了一个关系图:
其中D表示发育因子,H表示遗传因子,E表示环境因子,Chance表示随机因子。基本上,这张路径图显示了所有可以想到的可能影响后代豚鼠毛色的因子。
通过分析和计算,赖特得出结论:在随机繁殖的豚鼠中,42%的毛色变异是由遗传因子引起的,58%是由发育因子引起的。
这张路径图,其实就是一个因果关系图,各种因子对后果都有一定权重的影响。有人质疑赖特,在得出结论前就画出了路径图,通过因果假设证明出因果关系,这是否存在循环论证的问题呢?
我想,假设存在因果关系这一点上,这是赖特和高尔顿截然不同的地方。不过,赖特最终能够计算出具体的路径系数,也就是各个因子的权重影响,说明,这超越了循环论证。
豚鼠毛色的案例告诉我们,“相关关系不等于因果关系”这个判定应该让位于“某些相关关系确实意味着因果关系”。这对于我们的因果关系学习是一个巨大的进步,和第一章的结论相呼应:只使用从因果关系之梯第一层级的数据,你是不可能回答属于因果关系之梯第二层级的问题的。这也是,作者不断重复地给大数据、无模型分析方法的爱好者提出的建议:
我们可以尽可能地梳理出数据所能提供的信息,但它永远无法让我们超越因果关系之梯的第一层级,也永远无法回答“各种因的相对重要性”这种简单的问题。
赖特的路径图,是因果关系科学的一个里程碑,但是就这个路径图来说,还存在一些问题。就是说,路径图太过于简单。比如:路径图假设任意各个变量之间的关系都是线性的,这样就可以使用一个简单的路径系数来描述因果关系,如果方程不是线性关系呢?如果各变量之间还有复杂耦合关系呢?确实现实生活中存在很多这样的问题,但是,我认为,解决这个问题的方法即便是需要进一步研究,也绝不能走向摒弃因果关系,只有相关性的老路上去。
从客观性到主观性——贝叶斯
贝叶斯分析的原型是这样的:先验判断+新的证据得到经过修正的判断。这一章只是简单的描述了贝叶斯定律,下一章就是详细叙述贝叶斯定律的时候。
注:文章同时会发布在同名的steemit上。