辛普森悖论在生活中的作用
概念
对数据分层统计和整体统计结果可能是不一样的。
例子
NBA球星,勒布朗.詹姆斯 和 卡尔.马龙,都是篮球场上的长寿球员。也是NBA历史上的著名前锋。我们想比较一下他们的投篮命中率。
首先看二分球
article1.jpeg | article2.jpeg | |
---|---|---|
勒布朗.詹姆斯 (命中/出手=命中率) | 卡尔.马龙 (命中/出手=命中率) | |
二分球 | 10564/19245=54.9% | 13443/25900=51.9% |
三分球 | 1860/5409=34.4% | 85/310=27.4% |
詹姆斯在职业生涯透出了19245个二分球,命中10564个,命中率54.9%
马龙在职业生涯透出了25900个二分球,命中13443个,命中率51.9%
詹姆斯更高一些
再来看三分球
詹姆斯在职业生涯透出了5409个三分球,命中1860个,命中率34.4%
马龙在职业生涯透出了85个三分球,命中310个,命中率27.4%
还是詹姆斯更高一些
我们发现无论是二分球还是三分球,都是詹姆斯命中率更高。
那么二分球和三分球一起统计。也应该是詹姆斯命中率更高才对呀?事实真的如此吗?
詹姆斯一共投出了24654个球命中了12424个,命中率50.4%
马龙一共投出了26210个球命中了13528个,命中率51.6%
反而是马龙更高
这个是怎么回事,这悖论,解释起来并不是很难。无论是詹姆斯还是马龙他们二分球命中率都显著高于三分球,因为二分球更容易进。詹姆斯投了5千多个三分球,拉低了自己的整体命中率,而马龙一共投了3百多个三分球,所以整体命中率高于詹姆斯。
简单来说,如果一个人多去干那些成功率高的事,就会让他的整体成功率变大。这就是辛普森悖论的本质。
房价的例子也是
加入一个城市去年市区房价6万一平,郊区房价2万一平,市区和郊区房源比例1:1,那么全市房价:(6万x1+2万x1 )/2 = 4万。那么去年平均房子价格4万一平
今年市区涨到6.5万,郊区涨到2.5万,市区和郊区房价都涨了5000元,但是由于郊区房子大量入市,市区郊区比例变成1:3,全是平均房价就变成(6.5万x1+2.5万x3 )/4 = 3.5万,反而下降5000元
这也是辛普森悖论,虽然数据是客观和真实的,但是不同的人利用同样的数据确可以讲出不同的故事。
比如一个人更喜欢詹姆斯,就可以用二分球和三分球的分层数据来支持自己。如果一个人更喜欢马龙,就可以考虑全体命中率。
如果我劝你买房,就会拿出市区和郊区分层数据告诉你房价在上涨。
如果我想说明放假稳定,甚至下跌,想忽悠你卖房,就可以用全市平均数据告诉你房价在下跌。
马克吐温说:世界上有三种谎言,谎言,该死的谎言和数据统计。用真实的数据推测出一个未经过证实的结论,并以此为根据来煽动仇恨达到自己的目的是许多阴谋论家的最爱。
所以你还相信销售说的话吗?