不拆不成器

大数据时代的金饭碗——通晓因果,点石成金

2019-08-02  本文已影响1人  草籽CZ

如果你知道万事万物的因果关系,你不是神,就是上帝。

人人都想知道原因。老板想知道这个月的业绩上不去是什么原因,家长想知道孩子成绩不理想是怎么回事儿,医生想知道癌症怎么治疗才有效,你也很想知道为什么大数据就能成为金饭碗......因为,知道了“因”,就会有“果”。谁不想以最快的方式,收获结果?

可现实是残酷的,人们习惯于把不是原因的东西当成了原因,而不自知。请试着回答以下几个问题:

◎定期接受全面体检就能长寿吗?

◎用IPAD会导致孩子学习能力下降吗?

◎上好大学收入会更高吗?

想必很多人的回答都是肯定的,之所以会做出肯定的回答,是因为他们混淆了“因果关系”和“相关关系”。如果长期“似是而非”会怎么样?你很可能是捡了芝麻,丢了西瓜,费时费力费钱地做低功效的事情,而忽视了真正重要的真相。何不一剑封喉,直击要害呢?

《原因与结果的经济学》这短短的140页的书,清晰地介绍了什么是因果关系和相关关系,以及如何判断因果关系,是一本“因果推理”的入门书籍。在大数据时代,缺的不是数据,缺的是如何对数据进行分析,得出有价值的因果关系,这才是点石成金的法门。掌握了入门的钥匙,你离登堂入室还远吗?

1.何谓“因果关系”和“相关关系”?

如果两个事件中,前一个事件是后一个事件的原因,后一个事件是前一个事件的结果,则两个事件之间存在“因果关系”;如果一个事件变化后,另一个事件也随之发生变化,但二者不属于原因和结果的关系,则称它们之间存在“相关关系”。

判断因果关系的三个要点

判断两个变量属于因果关系还是相关关系时,可以通过以三个问题进行质疑。

①是否“纯属巧合”?

②是否存在“第三变量”?

③是否存在“逆向因果关系”?

如果两个变量之间存在因果关系,当原因再次出现时,相同的结果也会出现,而不存在“纯属巧合”“混杂因素”或“逆向因果关系”。另一方面,如果两个变量的关系只是相关关系,那么就会存在“纯属巧合”“混杂因素”或“逆向因果关系”中的某一种情况。在相关关系的情况下,即使原因再次发生,也几乎不会得到相同的结果。

举个例子。科学研究表明,定期接受全面体检与长寿与否没有因果关系。这里先点明结论,是套用它来说明因果与相关关系。接受体检可以预防生活习惯病,或者发现潜在的疾病,看似二者有因果关系,但是体检不能预防某些特殊疾病的发生,更不能保证不生病。也就是说,原因(体检)再次出现,不一定得到预想的结果(长寿)。存在着影响长寿的其他原因(混杂因素),而使得体检和长寿不构成因果关系。

再说一个美国的一个研究结论,看电视没有影响孩子的学习成绩,而且还对条件是母亲低学历、非白人人种的孩子的学习成绩提高产生了显著效果。这个结果是否可以迁移到中国来,先不能过早下结论,需要进一步研究。这个研究很有意思,可以推理,电视作为信息传播的工具,接收者是学习状态,而不是消遣状态,对学习能力提升是有帮助的。相反,如果IPAD被用来打游戏,恐怕就需要做引导了,而不是断然拒绝。做父母的需要相信,孩子可以选择如何使用一个工具,而不是徒增焦虑。

2.证明因果关系需要“反事实”

因与果的关系,是一前一后发生的。要证明因果关系,就需要像时光穿梭一样回到原因发生前的状况,再制造一个虚拟的形态——如果没有原因事件发生,结果事件会如何发展。这好比是“历史穿越剧”的人物离奇地走一遍,把经历在未失忆前复现一次。一个结果事件以两个版本各“运行”一次,就可以证明是否存在因果了。第一个版本,我们称为事实版本,原因事件发生了,产生了现在的结果事件,这是真实的情况。第二个版本,我们称为虚拟版本(反事实版本),原因事件没有发生,过了同样的时间,你关注的事件(结果)会如何呢,这是反事实的情况。这里就会出现两组数据,一组是事实,一组是反事实。

所有的因果关系寻找的方法,本质上的共同目标就是“制造可以比较的组,用最贴切的值替代反事实”。

只有两个组的初始条件非常接近一致,才能够进行比较。为此,验证因果关系的重中之重就变为如何制造近似值,或者如何对现有数据进行最接近的匹配。下面我们来简要了解一下这个过程。

3.提取数据,点石成金的方法


第一种,设计随机对照组。这是因果推理的理想形态。比如,用小白鼠验证某药物的作用。把该群小白鼠随机分为两组。所谓随机,就是排除人为因素。你可以想象这种随机情景:让这群小白鼠从小河沟东岸迁徙到西岸,小河沟上只有一根木棍桥,每次只能通过一只小白鼠,你就在西岸分单双号接收它们。单号组你可以选择1,3,5,7...号,你绝不能选择1,3,4,7...号,这就构成了随机分组。分组完毕后注射病原让它们染病,一组投药治疗,另一组不给药正常饲养,然后看投药组的痊愈率。当痊愈率达到一定统计指标后,就可以证明该药物的有效性了。

第二种,自然实验法。利用法律实施前后、制度变化、自然灾害、战乱等造成两种不同的分组。你可能无法预料到世事的各种变化,没有前期的数据积累。怎么办?可以向大数据的拥有者科技公司、政府、科研结构寻求帮助。如果你恰巧就在那里工作,你更拥有得天独厚的获得金数据的条件。

这里介绍一个美国的研究案例。为了研究“医生性别”与“患者死亡率”是否有因果关系,本书的作者之一津川友介参与了该研究工作。研究者把住院医生(美国有这样专门的医生,他们不对外坐诊和急诊)接收的患者的死亡率进行统计分析。统计死亡率时间段界定为从登记入院开始后30天。医院给这些患者分配的医生,属于自然情况。患者被分配男医生或者女医生,都由医院按接诊制度,根据当天值班医生的情况执行,患者无法干预。研究者之所以这样设计研究方案,是考虑如何更加自然,并最大可能避免其他干扰因素。研究得出的结论是,女医生负责的患者死亡率更低。

第三种,组合相似个体的匹配法。比如说,想要验证上更好的大学是否毕业后学生的收入会有显著性差异。你不能简单比较两个学校毕业后5、10年后学生收入数据,因为两个学校的学生学习能力在上大学前已经有客观差距了,它们不是可以比较的数据。哪些是必须考虑到的,才能够形成可以匹配的A学生和B学生呢?这里列举部分数据供你参考:年龄、民族、出生地、入学成绩、毕业高中的规模、毕业高中的教师素质、父母的学历和职业、童年阅读学习经历等等。以前想得到的数据并不容易,在大数据时代,组合相似个体,将会变得可能和现实。这再次说明,数据不一定是阻碍,关键是如何调取数据,设计你的因果关系分析思路。

研究表明,上好的大学与收入高低没有因果关系。该研究采用了组合相似个体匹配法。相似个体的匹配,你可以简单理解为某A学生报考985大学差几分未能被录取,而选择读了211大学。与之匹配的某B学生直接考上了另一所自己心仪的211大学某专业。A与B分数齐平,其他条件也很相似,两所211大学的排名有一定的差距。要注意的是,这个结论不是指,读985大学的与读普通二本大学的学生之间的两组人。这样分组,存在分数“断层”,他们本就不属于可比较的对象。

第四种,其他方法。书中介绍了关注跳跃的断点回归设计、利用第三变量的工具变量法、排除趋势影响的双重差分法等。这些方法都是数据分析的基础入门知识。

4.现有数据都不适合用来评估因果关系,怎么办?

那就用相关关系了,回归线是描述相关关系的一种方法。通过软件,让数据在坐标系里分布在离这条回归线最合理的位置。相关关系虽不是因果关系,但退而求其次,也可以给自己和上司一个交代了。当然,做到这一步,你已经离找到因果关系更近了一步。

数据是枯燥的,数学也是抽象难懂的,有这样一本入门的书作为指引,看似无聊的数据,被你充分用起来的时候,你会发现世界原来就是这些数字联系起来的符号,因果关系才是你需要的符号表达。

上一篇下一篇

猜你喜欢

热点阅读