掌握数据分析思维的第一步:如何思考问题?
文末有福利~
在数据分析思维当中,有一个非常重要的概念——反事实。
也就是说我们只能想象未发生的事情,而不能断定未来,在数据分析中叫做挖掘预测。因此正确的判断因果关系非常难,无论在工作还是日常生活中。尤其是对于刚刚入门数据分析的人来说,很容易陷入反事实的陷阱之中。
日常决策的因果关系
假设有这么一个场景:我昨天没有睡好,天又下雨,结果我开车出去撞了护栏。
同时他又假设以下陈述均为事实:
我昨晚没睡好。
天下雨。
我在国内第一次开车。
北京交通标识不清楚。
当时正好一个人奔跑过来,让我惊恐。
我开车前喝了一杯酒。
我酒量不高。
那么这个事故的原因是什么?都挺像的。
作者分析,为什么你会觉得“下雨”是一个原因:
如果当天是天晴,那么天晴能不能成为事故的一个原因呢?大部分人可能会认为天晴作为事故的一个原因比较奇怪。
这可能是因为我们有个潜在假设,就是天晴是常态的,而下雨不是常态。但如果一个地方一天 24 小时,一年 365 天都在下雨,那么天晴就成了一个不正常的状态。在这种情况下,天晴反而让我不习惯,最后让我撞到护栏上去了。
所以我们在说“下雨”是一个原因时,背后其实已经在潜在假设正常状态是指天晴了。
由此他提出一个观点:我们在分析原因时,潜在假设了一个正常的参考系。
就像划火柴着火,如果你问原因是什么,人们会说是划火柴,而不会说是存在氧气。
认知科学家、心理学家 Steven Pinker (史蒂芬·平克) 在《思想本质》里解释说,我们通常把易于识别的那个因素当作原因:
人们莫名其妙地将其中一个必要条件识别出来,以此作为一个事件的原因,同时却将其他条件作为该事件发生的动因和辅助因素,即使这些条件与那个被识别出的原因是一样不可或缺的。这些必要条件间的区别并不在于物理事件间的连接或它们所遵循的规律,而在于与某些其他事态的隐性对比。
日常生活中的因果判断,和我们的认知,即大脑对于因果的理解有关系。
认知理解的因果关系
我们来考虑这么一个问题:
一辆有轨电车马上要撞向 5 个毫不知情的铁路工人。假设此时你正站在交换机旁边,你可以将电车扳到另一条轨道上,但那样会撞上另一个毫不知情的铁路工人。你会扳动开关吗?
然后想象另一个场景:
你站在一座大桥上俯瞰,你可以扔下重物让电车停止,以避免撞向 5 个工人,而唯一的重物是你旁边的胖子。你会把他扔下去吗?
大多数人在第一种情况中选择会,而第二种情况选择不会。同样是牺牲 1 人救 5 人,为什么会有这样的差异呢?
平克通过人类语言中动词的研究,解释说,人类的因果关系识别基于一个“力动态”的心智模型。
在因果场景中,一个参与者被称为“主动力”:一个被设想为具有运动或静止内在倾向的实体。另一个参与者被叫做“拮动力”:一个在主动力上施加外力的实体,这个外力通常是对主动力内在倾向的反作用力。
如果拮动力的力量大于主动力的内在倾向性,那么主动力从运动状态变为静止,或反之。如果拮动力的力量小于主动力的内在倾向性,那么主动力则保持原始状态
简单说就是,关于有因果相互作用的两个物体,我们会假设一个是有内在运动或静止倾向的实体,而另一个是加之在它身上的力量(因)。最后这个实体是否运动(果),与它内在倾向性和外在力量大小的差异决定。
就像下图,方块和椭圆分别代表有内在静止和运动倾向的主动力,箭头代表拮动力(注意有大小之分)。红色代表主动力最终运动,蓝色代表静止,那么有 4 种状态:
研究中的因果关系
1、因果关系三层级
开篇我们提到了“反事实”,这是《为什么:关于因果关系的新科学》中的概念。这本书的作者 Judea Pearl (朱迪亚·珀尔)是图灵奖得主,计算机科学家和哲学家。
他指出,因果关系有 3 个层级。看下面这张图应该可以大概明白:
现在的机器学习、深度学习还处在第一层。
第二层是干预,例如头疼,服用阿司匹林。是在干预一个变量(人体内阿司匹林的量),以影响另一个变量(头疼的状态)。
最高层“反事实”,假如吃完阿司匹林,头不疼了。那是因为吃药引起的吗?还是因为我听到了某个好消息?还是因为我当时吃的食物?我们需要能乘坐时光机回到过去,改变历史:假如我当时没有吃阿司匹林,会发生什么?
引用书里的一张图,美国诗人 Robert Frost (罗伯特·弗罗斯特)的作品《未选择的路》体现了反事实的概念:
2、相关不是因果
统计学里有个段子:一个国家的人均巧克力消费量和诺贝尔奖得主的人数之间存在正相关。
那我们是不是要多吃巧克力呢?
事实可能是,在富裕的西方国家,吃巧克力的人更多,在教育和科研上投入更多,因而产生更多诺奖得主。这个“富裕”,同时导致了更多的巧克力消费和更多的诺奖得主,是一个“混杂”因子。
混杂是一个一直以来困扰统计学家问题。朱迪亚·珀尔指出,统计学家总是高估或者低估混杂的影响
例如,在有些研究中,能看到一长串被控制的变量:收入、年龄、种族、宗教、身高、头发颜色、性取向、健身频率等等。而有的时候,又不愿意去控制一些变量。
混杂之所以在统计学中如此难解决,根据作者的观点,是因为它不是一个统计学概念,而是一个因果概念,属于因果关系之梯第二层。
但是在平常的工作中,还是有一些方法可以让我们更好地区分相关与因果。在《原因与结果的经济学》里,作者提出,判断因果还是相关,可以先问 3 个问题:
是否“纯属巧合”?
是否存在第三变量?
是否存在逆向因果关系?
正确理解因果关系,是思维升级的利器。
关注我的公众号“数据分析不是个事儿”,回复“素材”,即可获得数据分析大礼包