2021-01-10 身边的统计悖论——辛普森悖论
2021-01-10 本文已影响0人
祥云的简书
情景:季度要结束了,又该拿数据说话了。拿到数据后,业务急冲冲得跑过来,“怎么回事,我们A类班续费率从之前的60%上升到了70%,B类班也上升突破到了35%,都变好了,整体续费率应该是变好了呀,正要跟老大汇报呢。你却跟我说整体续费率下降了,你赶紧看看,是不是统计错啦?”。
面对业务的质疑,是不是慌了呢?(坏了坏了,他说的好像有道理呀)
其实,莫慌。相信自己,比例的问题嘛,整体并一定就是所有个体的简单平均哦,有时候,整体他就不是简单的等于所有个体的和或者平均呢。
这时候,可以跟业务亮一下续费率背后的分母-样本数量是多少了。可以回答业务:“你们不能忽略每个季度的学员来源分布,要看看是哪类班的人数比重更大,是不是发生了变化!我们整体的续费率受到主要班型的学员影响比较大。之前的几个季度,你看,学员主要集中在A类班,续费率大概在60%。但是到了最后一个季度,学员主要来源于B类班,B类班的续费率一直低于A类班,虽然也上升了,但是上升后的续费率35%还是比A类班前几个季度的60%低,当学员来源发生了变化,我们就要谨慎计算了。你们可以用学员人数和续费人数汇总下,来验证下这个结果”。
上述情景中遇到的问题,在工作中,当我们对业务指标进行各维度的下钻分析时,是比较常见的一种数据陷阱,需要警惕。在统计学上,这被称为“辛普森悖论”。
辛普森悖论,由英国统计学家E.H.辛普森于1951年提出,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。(推荐一篇相关文章,https://www.sohu.com/a/235918522_114819)