数据分析避坑必读:让人怀疑人生的七大悖论
数理统计学是数据分析的基础理论,我们之前所有为数据分析所做的工作,比如梳理指标、筛选数据、可视化等等,都是为了我们能够更好地找到数据之间的关系,利用统计学原理对这些关系进行界定和联系。
但是在实际分析中,我们很可能会因为没有避开数理统计中常见的“坑”,造成我们最终分析结果与实际偏差很大, 我主要总结了三个方面:
错把数理关系当成因果关系
不同变量之间会存在悖论
数据统计有偏差
一、不要把数据统计关系当成因果关系
我们先看三个例子:
1、彩票悖论
首先根据假设检验,如果原假设概率非常小,就可以拒绝原假设。假设0.0001就是一个非常小的概率,组织一次公正的10000张彩票抽奖活动,按照之前的假设,1号彩票中奖的概率是0.0001,是要拒绝的,依次类推,我们可以拒绝所有的彩票,那么就没有彩票可中奖,但现实情况是总会有中奖的彩票,这是统计和逻辑不相符的一个例子。
2、无票入场者悖论
假设在一个有1000个座位的音乐厅举办一场音乐会,主办单位只售出了499张票,但当音乐会开始的时候,1000个坐席却都坐满了,这时主办单位有权向每个人收票钱,因为每个人无票入场的概率都是50.1%,这样音乐厅虽然只有1000个座位,却将会有1499张门票的收入,但实际情况并非如此。
3、生日悖论
先来看一个问题:如果一个班里有23个同学,那么他们当中至少有两个人生日相同的概率是多少?
按照常识我们会觉得这个概率应该挺小的,毕竟一年365天,23个人撞期,还是挺小的,然而结果却是50%,也就是说有50%的概率这23个人中有两个人生日相同。
这里的50%到底是什么意思呢,是说只要是一个班里有23个及以上的学生,就一定有一半的概率两个人同一天生日吗?
来,请回看我们这一节的标题:统计关系并不等于因果关系,这句话很重要,理解它更重要。
上面3个例子说明了以概率为依据做决策是不合逻辑的,然而逻辑和统计本身却是大不相同,在逻辑上,一个命题只有对和错两种划分,而在统计上,却可以说成对的概率有50%,错的概率为20%,就是这一点不确定性造就了以逻辑推理和统计为基础所得决策上的不一致,或者说矛盾,这就是统计关系不等于因果关系。
在进行数据分析的时候,我们尤其要注意这个坑:比如当我们的数据显示肺癌的人80%都是因为抽烟时,我们就不能说所有抽烟的人都会导致肺癌。
二、变量关系存在的两个悖论
1、辛普森悖论
指当我们对两个变量进行分组研究时,在分组中都占优势的一方,在总评中反而成为失势的一方。
比较著名的当属1973年加利福尼亚大学伯克利分校性别歧视的例子,男生录取率为44%,女生录取率为35%,根据这个数据有人就觉得该校有性别歧视的倾向,但如果每个院系分开来看录取率的话,可以发现,A B D F四个院女生的录取率都高于男生。这个悖论告诉我们一个简单的统计数字不能完全描述其背后的复杂意义,和我们平时熟知的描述性统计分析有点矛盾哦,可以好好思索一下。
2、伯克森悖论
伯克森悖论,指的是两个本来无关的变量之间体现出貌似强烈的相关关系。
如假设某学生的文化成绩高那么他的体育成绩就不好,体育越好,文化成绩就越差,这好像也成为了我们平时的一个认知,班上的尖子生好像体育成绩都不怎么好,这种现象是怎么出现的呢?
假设学生要参加两种类型的考试,即文化和体育课,其中任何一种类型的考试达90分以上就可以毕业,那么毕业的学生要么在文化考试中考到90分以上,或者在体育考试中考到90分以上,或者在两门考试中都考到90分以上。通常情况下正常人只需要选择一种类型的考试努力发挥到极致就好了,另一个没关系对吧,因此会呈现出学生的文化成绩和体育成绩是负相关的关系。
伯克森悖论还可以用来解释为什么很多人都存在帅哥都是渣男的印象,还有颜值超高的小鲜肉演员演技不忍直视,这些现象。
三、统计偏差造成数据分析失误
1、赌徒谬论
赌徒谬论是指,相信一个结果已经发生了,那么再发生的机会就会很低。
比如一个赌徒在打赌硬币是正面朝上或是背面朝上时的情景,前面5次的结果都是正面朝上,那么下一次他觉得反面朝上的概率会更大,这就是赌徒谬论。为什么说是谬论呢?因为高中的时候我们就学过扔硬币这个问题的概率,每扔一次一枚硬币是一个独立的事件,正面朝上和反面朝上的概率相同都是0.5,不受前面扔了多少次的影响,也就是说虽然前面5次都是正常朝上,下一次仍是正面朝上的概率也还是0.5。
聊到这,可能有些人会不理解了,或者脑海里依稀记得好像老师讲过,扔一枚硬币扔个1000次,正面朝上和反面朝上的次数都是接近一半的呀,能想到这里的同学,恭喜你,已经入门了。
确实如此,但请看清楚前提:扔1000次,这就是大数定理,当我们大量重复某一相同实验时,最后的结果会稳定在某一数值附近,但把大量重复事件的规律运用在少数的事情上就错了。
2、幸存者偏差
指的是只能看到经过某种筛选而产生的结果,忽略了被筛选掉的关键信息。
在二战期间,人们发现幸存的轰炸机中,机翼中弹的数量很多,而机身中弹的却很少。因此人们认为我们应该加固飞机的机翼,其实不然,就是因为机翼中弹多还能飞回来,所以机翼中弹并没有影响飞机返航;而机身中弹的少则说明了子弹打中机身对飞机的影响更大,导致飞机不能返航,在这个飞机问题中,只统计到了幸存下来的飞机,以此下结论,是不正确的。
现实生活中也有很多幸存者偏差的案例,比如感觉周围都是本科以上的人,而实际上中国具备本科以上学历的人,只占总人口的3%。还有为什么感觉知乎上应届生人人都是月薪过万,因为你看到的都是月薪过万的人在答题,月薪低于1万的都处于沉默状态。