2021-01-10 身边的统计悖论——辛普森悖论

2021-01-10 本文已影响0人祥云的简书

情景：季度要结束了，又该拿数据说话了。拿到数据后，业务急冲冲得跑过来，“怎么回事，我们A类班续费率从之前的60%上升到了70%，B类班也上升突破到了35%，都变好了，整体续费率应该是变好了呀，正要跟老大汇报呢。你却跟我说整体续费率下降了，你赶紧看看，是不是统计错啦？”。

面对业务的质疑，是不是慌了呢？（坏了坏了，他说的好像有道理呀）

其实，莫慌。相信自己，比例的问题嘛，整体并一定就是所有个体的简单平均哦，有时候，整体他就不是简单的等于所有个体的和或者平均呢。

这时候，可以跟业务亮一下续费率背后的分母-样本数量是多少了。可以回答业务：“你们不能忽略每个季度的学员来源分布，要看看是哪类班的人数比重更大，是不是发生了变化！我们整体的续费率受到主要班型的学员影响比较大。之前的几个季度，你看，学员主要集中在A类班，续费率大概在60%。但是到了最后一个季度，学员主要来源于B类班，B类班的续费率一直低于A类班，虽然也上升了，但是上升后的续费率35%还是比A类班前几个季度的60%低，当学员来源发生了变化，我们就要谨慎计算了。你们可以用学员人数和续费人数汇总下，来验证下这个结果”。

上述情景中遇到的问题，在工作中，当我们对业务指标进行各维度的下钻分析时，是比较常见的一种数据陷阱，需要警惕。在统计学上，这被称为“辛普森悖论”。

辛普森悖论，由英国统计学家E.H.辛普森于1951年提出，即在某个条件下的两组数据，分别讨论时都会满足某种性质，可是一旦合并考虑，却可能导致相反的结论。（推荐一篇相关文章，https://www.sohu.com/a/235918522_114819）

2021-01-10 身边的统计悖论——辛普森悖论

猜你喜欢

热点阅读