辛普森悖论与人生哲学

2020-12-15  本文已影响0人  数据蝉

1.案例在前

假如我们拿到了这样一份转化数据,想要分析哪种系统的设备转化效果更好,该如何分析呢?


image.png

(1)我们来看,按照系统类型和设备类型分类比较的话:


image.png

所以问题出在哪里了呢,我们的结论应该是什么呢???


image.png

2.透过现象看本质

2.1 发生原因

误区产生的原因说起来也很简单,就在于将两个维度的数据,归纳成了一个维度的数据,并进行了合并。我们可以看到,基数较大的Android平板把“整体转化率”的数据带偏了。

2.2 引入理论

这个现象就是经典的辛普森悖论:即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。

2.3 应对策略

避免辛普森悖论的关键是要同时参考不同用户间的事实全貌。

2.4 场景延申

2.4.1 A/B测试

一个常见的A/B测试误判例子是这样的:拿1%用户跑了一个重大版本,发现试验版本购买率比对照版本高,就说试验版本更好,我们应该发布试验版本。

而事实上,我们选取的试验组里往往会挑选那些乐于交流、热衷产品、又或者是付费率高粘性高的用户,把他们的数据与全体用户对比是不客观的。当最后发布试验版本时,反而可能降低用户体验,甚至造成用户留存和营收数据的双双下降。

2.4.2 质与量不对称

辛普森悖论就像是欲比赛100场篮球以总胜率评价好坏,于是有人专找高手挑战20 场而胜1场,另外80场找平手挑战而胜40场,结果胜率41%,另一人则专挑高手挑战80场而胜8场,而剩下20场平手打个全胜,结果胜率为28%,比 41%小很多,但仔细观察挑战对象,后者明显较有实力。

量与质是不等价的,无奈的是量比质来得容易量测,所以人们总是习惯用量来评定好坏,而此数据却不是重要的。

2.4.3 哲学意义

除了质与量的迷思之外,辛普森悖论的另外一个启示是:
如果我们在人生的抉择上选择了一条比较难走的路,就得要有可能不被赏识的领悟,所以这算是怀才不遇这个成语在统计学上的诠释。

上一篇 下一篇

猜你喜欢

热点阅读