大数据时代的金饭碗——通晓因果，点石成金

2019-08-02 本文已影响1人草籽CZ

如果你知道万事万物的因果关系，你不是神，就是上帝。

人人都想知道原因。老板想知道这个月的业绩上不去是什么原因，家长想知道孩子成绩不理想是怎么回事儿，医生想知道癌症怎么治疗才有效，你也很想知道为什么大数据就能成为金饭碗......因为，知道了“因”，就会有“果”。谁不想以最快的方式，收获结果？

可现实是残酷的，人们习惯于把不是原因的东西当成了原因，而不自知。请试着回答以下几个问题：

◎定期接受全面体检就能长寿吗？

◎用IPAD会导致孩子学习能力下降吗？

◎上好大学收入会更高吗？

想必很多人的回答都是肯定的，之所以会做出肯定的回答，是因为他们混淆了“因果关系”和“相关关系”。如果长期“似是而非”会怎么样？你很可能是捡了芝麻，丢了西瓜，费时费力费钱地做低功效的事情，而忽视了真正重要的真相。何不一剑封喉，直击要害呢？

《原因与结果的经济学》这短短的140页的书，清晰地介绍了什么是因果关系和相关关系，以及如何判断因果关系，是一本“因果推理”的入门书籍。在大数据时代，缺的不是数据，缺的是如何对数据进行分析，得出有价值的因果关系，这才是点石成金的法门。掌握了入门的钥匙，你离登堂入室还远吗？

1.何谓“因果关系”和“相关关系”?

如果两个事件中,前一个事件是后一个事件的原因,后一个事件是前一个事件的结果,则两个事件之间存在“因果关系”;如果一个事件变化后,另一个事件也随之发生变化,但二者不属于原因和结果的关系,则称它们之间存在“相关关系”。

判断因果关系的三个要点

判断两个变量属于因果关系还是相关关系时,可以通过以三个问题进行质疑。

①是否“纯属巧合”?

②是否存在“第三变量”?

③是否存在“逆向因果关系”?

如果两个变量之间存在因果关系,当原因再次出现时,相同的结果也会出现,而不存在“纯属巧合”“混杂因素”或“逆向因果关系”。另一方面,如果两个变量的关系只是相关关系,那么就会存在“纯属巧合”“混杂因素”或“逆向因果关系”中的某一种情况。在相关关系的情况下,即使原因再次发生,也几乎不会得到相同的结果。

举个例子。科学研究表明，定期接受全面体检与长寿与否没有因果关系。这里先点明结论，是套用它来说明因果与相关关系。接受体检可以预防生活习惯病，或者发现潜在的疾病，看似二者有因果关系，但是体检不能预防某些特殊疾病的发生，更不能保证不生病。也就是说，原因（体检）再次出现，不一定得到预想的结果（长寿）。存在着影响长寿的其他原因（混杂因素），而使得体检和长寿不构成因果关系。

再说一个美国的一个研究结论，看电视没有影响孩子的学习成绩，而且还对条件是母亲低学历、非白人人种的孩子的学习成绩提高产生了显著效果。这个结果是否可以迁移到中国来，先不能过早下结论，需要进一步研究。这个研究很有意思，可以推理，电视作为信息传播的工具，接收者是学习状态，而不是消遣状态，对学习能力提升是有帮助的。相反，如果IPAD被用来打游戏，恐怕就需要做引导了，而不是断然拒绝。做父母的需要相信，孩子可以选择如何使用一个工具，而不是徒增焦虑。

2.证明因果关系需要“反事实”

因与果的关系，是一前一后发生的。要证明因果关系，就需要像时光穿梭一样回到原因发生前的状况，再制造一个虚拟的形态——如果没有原因事件发生，结果事件会如何发展。这好比是“历史穿越剧”的人物离奇地走一遍，把经历在未失忆前复现一次。一个结果事件以两个版本各“运行”一次，就可以证明是否存在因果了。第一个版本，我们称为事实版本，原因事件发生了，产生了现在的结果事件，这是真实的情况。第二个版本，我们称为虚拟版本（反事实版本），原因事件没有发生，过了同样的时间，你关注的事件（结果）会如何呢，这是反事实的情况。这里就会出现两组数据，一组是事实，一组是反事实。

所有的因果关系寻找的方法，本质上的共同目标就是“制造可以比较的组，用最贴切的值替代反事实”。

只有两个组的初始条件非常接近一致，才能够进行比较。为此，验证因果关系的重中之重就变为如何制造近似值，或者如何对现有数据进行最接近的匹配。下面我们来简要了解一下这个过程。

3.提取数据，点石成金的方法

第一种，设计随机对照组。这是因果推理的理想形态。比如，用小白鼠验证某药物的作用。把该群小白鼠随机分为两组。所谓随机，就是排除人为因素。你可以想象这种随机情景：让这群小白鼠从小河沟东岸迁徙到西岸，小河沟上只有一根木棍桥，每次只能通过一只小白鼠，你就在西岸分单双号接收它们。单号组你可以选择1,3,5,7...号，你绝不能选择1,3,4,7...号，这就构成了随机分组。分组完毕后注射病原让它们染病，一组投药治疗，另一组不给药正常饲养，然后看投药组的痊愈率。当痊愈率达到一定统计指标后，就可以证明该药物的有效性了。

第二种，自然实验法。利用法律实施前后、制度变化、自然灾害、战乱等造成两种不同的分组。你可能无法预料到世事的各种变化，没有前期的数据积累。怎么办？可以向大数据的拥有者科技公司、政府、科研结构寻求帮助。如果你恰巧就在那里工作，你更拥有得天独厚的获得金数据的条件。

这里介绍一个美国的研究案例。为了研究“医生性别”与“患者死亡率”是否有因果关系，本书的作者之一津川友介参与了该研究工作。研究者把住院医生（美国有这样专门的医生，他们不对外坐诊和急诊）接收的患者的死亡率进行统计分析。统计死亡率时间段界定为从登记入院开始后30天。医院给这些患者分配的医生，属于自然情况。患者被分配男医生或者女医生，都由医院按接诊制度，根据当天值班医生的情况执行，患者无法干预。研究者之所以这样设计研究方案，是考虑如何更加自然，并最大可能避免其他干扰因素。研究得出的结论是，女医生负责的患者死亡率更低。

第三种，组合相似个体的匹配法。比如说，想要验证上更好的大学是否毕业后学生的收入会有显著性差异。你不能简单比较两个学校毕业后5、10年后学生收入数据，因为两个学校的学生学习能力在上大学前已经有客观差距了，它们不是可以比较的数据。哪些是必须考虑到的，才能够形成可以匹配的A学生和B学生呢？这里列举部分数据供你参考：年龄、民族、出生地、入学成绩、毕业高中的规模、毕业高中的教师素质、父母的学历和职业、童年阅读学习经历等等。以前想得到的数据并不容易，在大数据时代，组合相似个体，将会变得可能和现实。这再次说明，数据不一定是阻碍，关键是如何调取数据，设计你的因果关系分析思路。

研究表明，上好的大学与收入高低没有因果关系。该研究采用了组合相似个体匹配法。相似个体的匹配，你可以简单理解为某A学生报考985大学差几分未能被录取，而选择读了211大学。与之匹配的某B学生直接考上了另一所自己心仪的211大学某专业。A与B分数齐平，其他条件也很相似，两所211大学的排名有一定的差距。要注意的是，这个结论不是指，读985大学的与读普通二本大学的学生之间的两组人。这样分组，存在分数“断层”，他们本就不属于可比较的对象。

第四种，其他方法。书中介绍了关注跳跃的断点回归设计、利用第三变量的工具变量法、排除趋势影响的双重差分法等。这些方法都是数据分析的基础入门知识。

4.现有数据都不适合用来评估因果关系，怎么办？

那就用相关关系了，回归线是描述相关关系的一种方法。通过软件，让数据在坐标系里分布在离这条回归线最合理的位置。相关关系虽不是因果关系，但退而求其次，也可以给自己和上司一个交代了。当然，做到这一步，你已经离找到因果关系更近了一步。

数据是枯燥的，数学也是抽象难懂的，有这样一本入门的书作为指引，看似无聊的数据，被你充分用起来的时候，你会发现世界原来就是这些数字联系起来的符号，因果关系才是你需要的符号表达。

大数据时代的金饭碗——通晓因果，点石成金

1.何谓“因果关系”和“相关关系”?

2.证明因果关系需要“反事实”

3.提取数据，点石成金的方法

4.现有数据都不适合用来评估因果关系，怎么办？

猜你喜欢

热点阅读