收录优秀文章

最简单概率论的五个智慧

2018-10-21  本文已影响40人  郝文东

随机

概率论最基础的思想:有些事情是无缘无故的发生。更准确的说,有些事情的发生,跟他之前发生的任何事情都没有因果关系。

      如果一个人考上好大学,人们会说这她只是努力学习的结果,如果一个人事业成功,怎么会说这是他努力工作的结果。如果一个人买彩票中了大奖,可这是为什么呢?没有任何原因,这完全是一次随机事件。

  大多数事情并不是完全随机事件,却有一定的随机因素,偶然和必然结合在一起就没那么容易理解了。人们通常的错误理解,想用必然去解释偶然。

      体育比赛是个典型的例子,球队赢了球人人有功,记者都帮忙分析取胜之道,球队输了球,人人有责,里里外外都要进行反思。比赛是充满偶然的事件,你所能做的只是尽可能争取胜利,哪怕你准备得再好,总有一些因素是不确定的,就是我们通常说的运气。事实上,现代职业化竞技体育中的参赛者之间的实力差距并没有天壤之别,决定比赛结果的偶然因素非常大,强队也能输给弱队,这正是现代体育的重要特征,也是其魅力所在。

     对于智者而言,偶然因素是不值得较真的,这场比赛输了下场可以赢回来,只要输少赢多,你还是强队。

     理解随意性,我们都知道有些事情发生就发生了,没有太大可供解读的意义,我们不能从这些事上获得什么教训,不值得较真,甚至根本就不值得采取行动。不能因为民航有事故概率就不坐飞机,只需要确认民航比其他公司更安全就好了。为偶然事件大惊小怪,是幼稚的表现。

     管理者有一个常见的思维模式,一旦出了事就必须集体反思,制定相关政策以避免类似事故再次发生,但极小概率事故其实是不值得过度反应的,那样只会把错误变成伤疤,会让组织越来越官僚主义,正确的办法是告诉犯错的员工这是个错误,就完了。

    失败者没必要妄自菲薄,胜利者也要知道自己的成功是有侥幸的。

误差

     既然大多数事件都同事包含偶然因素和必然因素。那就可以排除偶然因素去,只用必然因素做判断,但别忘了,还有误差。

     即使实验条件再精确,也无法避免随机干扰的影响,所以做科学实验往往要测量多次,用平均值之类的统计手段得出结果。

     物理学家得出希格斯粒子的质量是:125.3+-0.4(stat)+-0.5(sys)GeV 质量是125.3,其中有0.4统计误差有0.5的系统误差。

     真实质量只有一个,他在这个范围中。“真实值”非常不容易得到,而且别忘了科学实验是非常理想化的世界,大多数事情根本没有机会多次测量。既然如此,我们的测量结果的解读就更加小心,如果只能测一次,我们必须根据以往的经验或者别处别人的类似案例来估计一个大致的误差范围。 

     有了物质差的概念,我们就要学会忽略误差范围内的任何波动。

     中国2014年1月,国家统计局公布了2013年全国居民收入基尼系数为0.473,新闻报道说“该数据较2012年的0.474水平略有回落,但仍显示居民收入差距较大。”这个回落只有0.001,从统计角度来说没有什么意义,可能你的测量误差就远远大过0.001。

     假设一个同学考了两次才过英语四级,第一次57分,第二次63分,他说这是略有进步,这不叫进步,这都在误差范围之内。

赌徒谬误

   假如你一个人在赌场赌钱,比如玩老虎机,你一上来运气不太好,依然输了很多吧,这时候你是否有一种强烈的感觉,很快就该赢了?

     这是一种错觉。赌博是完全独立的随机事件,这意味着下次的结果跟之前所有的结果没有任何联系,已经发生的事情不会影响未来。

    假设瓶子里装了六个球,上面写着1到6,如果你前几次抽到的6比2多,那么你是否会以为之后的几次抽到2的概率比6大?不会!

     这种错觉来自概率论中一个“大数定理”,以为随机就意味着均匀,如果过去一段时间内发生的事情变大不那么均匀,人们错误的以为未来的事情会尽量往“抹平”的方向走。用更多的2去平衡之前多出来的6但大数定理的工作机制并不是跟过去搞平均,它的真正意思是说:如果未来,你在进行非常多次的抽奖,你会得到非常多的2和非常多的6以至于他们之前的一点点差异变得微不足道。

两个笑话

一个人坐飞机的时候总是带着一颗炸弹,他认为这样就不会有恐怖分子炸飞机了——因为一架飞机上有两颗炸弹的可能性非常小。

战场上的士兵有个说法,如果战斗中有炸弹在你身边爆炸,你应该快速跳到那个弹坑,——因为两颗炸弹不太可能正好打到同一个地方。

在没有规律的地方发现规律

独立随机事件的发生是没有规律和不可预测的,这是个非常重要的智慧。

     彩票分析学是深受彩民喜爱的一门显学。这门学问完全合法的出现在各种晚报新浪网搜狐网甚至是人民网上。他们认为彩票中奖号码跟股票一样,存在“走势”,他们使用“双色历史号码”“余数走势”“五行码”使用“奇偶分析”“跨度分析”“大中小分析”帮助彩民预测下一期中奖号码。跟赌徒谬误不一样,赌徒谬误是认为前面多次出现的号码不会继续出现,而彩漂分析学则认为中奖号码存在走势,分析师相信里面有规律。但彩票一定是没有规律的,也许分析师并不是骗人,很可能他们真的相信自己找到了彩票的规律。 

      发现规律是人的本能,春天过后是夏天,乌云压顶常下雨,大自然中很多事情的确是有规律的。

     我们的本能工作如此之好,以至于我们在明明没有规律的地方也能找规律来,人脑很擅长理解规律,但很不擅长理解随机性。发现规律任何时候都可以帮助我们更好地生存下去,而理解随机性只是在现代社会才有意义的一项技能。

      在没有规则的地方应找规律是个相当容易的事情,只要你愿意,忽略所有不符合你就要规律的数据。

      有一门学问,认为地震和各种自然灾害会按照严格的某种数学规律发生,甚至用研究数学——的办法去预测地震,这个方法叫做“可供度性理论”,它的创始人是中国科学院院士翁文波。可供度性理论跟地震没有任何关系,他只是简单的把一些年份数字进行加减组合。事实上,就算我们相信冥冥中有一种神秘的机制在左右地震,这个机制也可以纯粹由数学决定,而与地质无关,“可公度性理论”也站不住脚,这里面根本就没有一个自洽的操作规则,对此具体的预测到底应该采用什么数字组合非常随意。假设,让两个最好的学生同时使用这两个理论去预测,他们将有极大的可能,得出完全不同的结果

     未来是不可被精确预测的,这个世界并不像钟表那样运行。

小数定律

    我们知道在数据足够多的情况下,人们可以找到任何自己想要的规律,只要你不在乎这些的严格性和自洽性。

    如果数据足够少,有些规律会自己跳出来,你甚至不相信都不行。

     比如一个著名的定律是“巴西队的礼物”,只要巴西队夺冠,下一届的冠军就将是主办大赛的东道主。除非巴西队自己将礼物收回,这一定律在2006年被破解。“1982轴心定律”,世界杯冠军球队以1982年世界杯为中心呈对称分布,这个定律在2006年也被破解。

     还有一些没被破解的,比如凡是得了联合会杯或者美洲杯,就别想在下一届世界杯夺冠。只要王治郅参加季后赛,八一队就必然得总冠军。

     这些看似没有道理的神奇定律则大多数已经被破解。之所以神奇,是因为纯属巧合,世界杯总共才进行了80多年,20多届,只要数据足够少,我们总能发现一些没有被破解的规律。

     如果数据少,随机现象看上去会很不随机,甚至非常整齐,感觉好像真的有规律一样。

     1940年伦敦大轰炸,当时伦敦在德军v2导弹的攻击下,损失惨重,报纸公布标记了所有受轰炸地点的伦敦地图。之后,人们发现轰炸点的分布很不均匀,有些地区反反复复被轰炸,而有些地区却毫发无损。

     难道德军在轰炸伦敦的时候故意放过了某些地区吗? 

      对英国军方来说,对英国军方来说,这是一件非常恐怖的事情,因为这意味着v2导弹的精确度比预想要高得多,可以精确的轰击目标。而伦敦居民在相信那些没有遭到轰炸地区是德国间谍所住的地方,这些人甚至开始搬家。

     然而事实证明v2是一个精确度相当差的实验性武器,与其说导弹还不如说是大炮,德军只能大概的打向伦敦而无法精确的控制落点,也就是说,伦敦各地区受到的轰炸完全是随机的。直到1946年,有人从数学角度分析了轰炸数据,把整个可能受到轰炸的区域分为576个小块,发现其中229个块没有受到任何轰炸,而八个小块收到了四次以上的轰炸,这些数据虽然不均匀,但完全符合随机分布,实际上科学家用计算机模拟的办法得出很多“看上去很不随机”的随机结果。

     问题的关键在于随机分布不等于均匀分布,可人们往往以为如果是随机分布的,那就应该是均匀的,殊不知这一点就在样本非常大的时候才有效。

     如果统计数字很少,就很容易出现特别不均匀的状况。这个现象被诺贝尔经济学奖得主丹尼尔卡尼曼称为小数定律。

     大数定律是我们从统计数字中推测真相的理论基础。大数定律说,如果样本足够大,那么事物出现的频率就能无限接近它的理论概率也就是他的本性。所以如果调查发现某一地区的疾病发病率就高,我们就可以大致认为这个地区这种疾病发生率真的很高。如果有一个20人的乡村中学,突然有两个人考上清华大学,跟一个有2000人的中学,每年都有两百人考上清华大学,完全没有可比性。

     如果你的样本不够大,你什么也说明不了。

     正因为此,我们才不能只凭自己的经验,哪怕是加上家人和朋友的经验对事物作出判断。我们的经验非常有限,别看个例,看大规模统计。有些作家听说两三个负面新闻就敢写文章,把社会批得一文不值,这种人不是另有目的就是蠢。

上一篇 下一篇

猜你喜欢

热点阅读