【白话数据分析】聊聊“幸存者偏差”与“随机对照实验”
01 举个栗子
场景1:小时候更优秀,成年后越来越平庸?
你是否觉得小时候的自己更优秀,而成年后的自己正在变得越来越平庸?你也许只是被随机性欺骗了。想一想吧,每一次升学和就业,你身边的人都换了一茬儿。如果你曾经是某一个团体里的佼佼者,那么你就会跟其他群体里的佼佼者被分到一块儿。在新的团体里,大家都同样优秀,你也就更容易显得普通,但这不过是假象罢了。只需要看一看顶级名校学生的自我评价,你就会发现人类是多么容易被随机性蒙蔽双眼,这些经过激烈竞争而突围的年轻竟然经常觉得自己智力欠缺,他们要做的只不过是多接触其他学校的人。
场景2:上了大学又怎样?还没打工挣得多?
过年回家会不会被其他人说,上了大学又怎样?还没有我打工挣得多?
如今很多人在说,谁谁谁当初没好好上学如今照样挣大钱,而好多用功读书的人,毕业后反而不如那些没好好学习的人混得好。并且因为这样的例子有很多,所以很多人得出“上学没有用处”,“读书无用”的结论。
这些其实只是个例,因为基数太大,所以看起来有很多。2010年第六次全国人口普查的官方口径,可以算出来大专以上文化程度的人口仅占总人口的8.7%左右。可以看出学历低的人数远高于学历高的人数,所以即便低学历者成功率远低于高学历者,也照样会导致低学历者出现大批成功人士。
对于高学历者,普通人既会关注成功的人,也会关注那些没成功的人,并且高学历却落魄的人尤其受关注,容易被当作新闻报道;而对于低学历者,普通人往往只关注成功者,忽视了广大学历低又没成功的人。正是因为忽视了这些“沉默的数据”,才产生「读书无用」这种错误结论。
貌似“卑之无甚高论”,但是你真的看懂了吗,其核心问题是“我们需要重点研究那些非幸存者”,因为无法生存下去是系统性风险,我们需要先保证生存下来才能谈发展,而过多关注“幸存者”只不过是锦上添花而已。
02 什么是“幸存者偏差”?
幸存者偏差是指:当研究一种事件或现象时,只对幸存者进行研究而忽略那些未幸存下来的人或事物,可能会导致对结果的偏差。当我们评估一个系统、产品、组织或者行业时,仅考虑它们现存的元素,忽略了曾经存在但已经失败的元素。这种情况导致我们误以为现存元素比实际上更具代表性,因此偏向于低估系统的失败率。
幸存者偏差产生的原因:
数据丢失:在这种情况下,未幸存下来的人或事物的数据可能不存在,因此无法对其进行研究。
选择偏差:在这种情况下,研究者可能会主观地选择对幸存者进行研究,而忽略未幸存者。
幸存者偏差的影响:
对结论的偏差:因为只研究幸存者,可能得出错误的结论,因此忽略了关键信息。
对决策的影响:幸存者偏差也可能影响决策,因为决策者可能根据错误的结论做出错误的决策。
03 如何避免“幸存者偏差”?
如何避免幸存者偏差?有以下一些建议:
获取全面的数据:研究者应该对所有可用的数据进行研究,以避免偏差。
避免选择偏差:研究者应该避免主观地选择对幸存者进行研究,而应该以客观的方式对所有数据进行研究。
正确评估风险:研究者应该正确评估风险,以避免对结果产生偏差。
关注未幸存者:研究者应该关注未幸存者,以避免偏差。
总体而言,避免幸存者偏差需要研究者具有全面的数据,客观的分析方法和正确评估风险的能力。只有在所有这些方面都得到考虑时,才能得出准确的结论和做出正确的决策。
04如 何设计随机对照实验?
要设计科学有效的随机对照实验,请遵循以下步骤:
定义研究问题:正在测试什么,假设是什么?
确定研究人群:正在研究谁或什么?
将参与者随机分配到治疗组和对照组:这有助于确保各组之间的任何差异都是由于治疗而不是其他因素造成的。
对治疗组进行治疗并观察:这可能涉及给药、使用特定疗法或将参与者暴露于特定环境因素。
比较治疗组和对照组之间的结果:这样做是为了确定治疗是否有效以及假设是否得到支持。
例子
一位研究人员想要确定一种新的降压药是否有效。
1. 研究问题:与安慰剂相比,新药是否能有效降低血压?
2. 研究人群:高血压成人
3. 随机分配:参与者被随机分配接受新药或安慰剂。
4.给药:治疗组的参与者服用新药,而对照组的参与者服用安慰剂。
5. 结果比较:研究人员在一段时间后测量两组的血压,并比较结果以确定新药与安慰剂相比是否能有效降低血压。
05 总结
研究成功者往往比较简单,因为大家都在研究,很容易就产生了共识,但不是那么成功或者失败者则鲜有人关注,或者泛泛而谈,因为多数人认为没成功有什么好学的。这个观点自然有它的道理,但是从博弈论的角度而言,研究大家都在研究的东西收益较低。
信息的价值在于你比别人多知道一些或者比别人先知道。着重研究别人没注意到的信息,收益更大,宏观上讲,这叫逆向思维。我们砥砺前行,我们试图去看清事物真相,但我们往往会停留在事物的表面现象,停留在解决表面问题或者容易解决的问题,对未知的事物充满恐惧和困惑。