《模型思维》02:为什么我们从来没有见过1米长的蚂蚁?
小时候你有没有想过这样的问题:为什么我们从来没有遇到过1米长的蚂蚁,也没有见过1千克重的麋鹿?
我们今天的主角正态分布就能为你解答这些问题。
1. 正态分布曲线
正态分布相信很多人在学校的数学课上学过, 一条中间高,两端逐渐下降且完全对称的曲线,因为长得很像一个“钟”,也被叫做“钟形”曲线。
要学习这个正态分布,我们得先了解它的属性。
正态分布和我们人类一样也有高矮胖瘦,我们一般用体重(公斤和斤)和来形容形容人类的体型,而要形容正态分布曲线的胖瘦,我们用方差和标准差。
方差是衡量一个正态分布的离散程度,即数据与均值之间距离的平方的平均值,而标准差( σ)就是方差的算术平方根。
所以啊,标准差大的正态分布曲线“更胖”,标准差小的正态分布曲线则显得瘦一些。
第二个属性是对称,这个很好理解,和我们人类一样,左半边身体有什么,右半边身体就有什么。
第三个属性是平均值,它的平均值就是该曲线的最高点。
这个怎么理解呢?
根据wiki百科的统计,我们国家19岁男性的平均身高是175.5cm,由于身高是符合正态分布的,我们可以得出19岁男性身高175.5cm人数是最多的(因为它位于曲线的中心且最高点)。
知道了这些属性,我们就可以来理解正态分布曲线数据分布的特征。
2. 非常罕见的”大事件“
对于一个正态分布曲线,大约有68%的结果在均值的一个标准差内,大约95%的结果在两个标准差内,并且超过99%的结果在三个标准差内。
你看,正态分布虽然允许任何大小的结果或事件,不过“大”事件是非常罕见的,与均值距离超过五个标准差的事件发生的概率为200万分之一。
我们根据这份身高正态分布的统计,计算一下超过5个标准差的身高是多少,以东北区男性身高为例,169.3cm + 5.66cm * 5 = 197.6cm,169.3cm - 5.66cm * 5 = 141cm,也就是说每200万个东北男性,只有一个男性身高是高于197.6cm,或者低于141cm。我们没有见过身高超过3米的人类,因为已经超过了23个标准差了,这个概率已经小到几乎不可能。
你看,如果数据符合正态分布曲线,也就意味着不会出现太大的偏差,也就是太大或太小的数。
这就可以解释为什么飞机设计师不需要为身高5米的人预留腿部空间,为什么我们从来没有遇到过1米长的蚂蚁,也没有见过1千克重的麋鹿。
3. 中心极限定理
接下来我们来思考这样一个问题:如果一个小镇有500个家庭,每个家庭一个星期支出符合正态分布曲线,那整个小镇一个星期的总支出是否符合正态分布?
根据中心极限定理:只要各随机变量是相互独立的,每个随机变量的方差都是有限的,且没有任何一小部分随机变量贡献了大部分变差,那N ≥20个随机变量的和就近似一个正态分布。
在一个拥有500个家庭的小城镇中,每个家庭平均每个星期花费100美元。在这些人中可能有些人这个星期只花50美元、下个星期则花150美元,另一部分人可能每3个星期花费300美元。而其他人则可能每个星期的花费在20至180美元之间。只要每个人的支出都只有有限的变差并且没有任何一小部分人贡献了大部分变差,那么分布的总和必定是一个正态分布,其均值为50 000美元。每个星期的总支出也将是对称的:可能高于55 000美元,也可能低于45 000美元。
PS:书中的例子是小镇500个人,我觉得用家庭会更加贴切,同一家庭里面的人并不相互独立,比如家庭里有一个人去买了菜,家庭的其他成员就不太可能再去买菜。
同样的逻辑,人们购买的香蕉、牛奶以及炸玉米饼的数量也都是正态分布的。
正态分布除了能够解释为什么我们遇不到一些特别大或特别小的事件,还能解释为什么罕见结果在规模小的群体中更常见。
4. ”世界上最危险的公式“
为什么最好的学校往往规模较小,为什么癌症发病率最高的郡县人口通常较少呢?
这里我们要用到一个公式,它曾被美国统计学家霍华德·魏纳称为“世界上最危险的公式”——平方根法则。
对于N个相互独立的随机变量,都具有标准差σ,那么这些随机变量的值的标准差为:
也就是说,在个体相同标准差下,总体数量大的群体的标准差要比总体数量小的标准差小得多,由此可以推断,在小群体中(因为标准差更大)更容易观察到更多的好事和更多的坏事。
在20世纪90年代,盖茨基金会和其他一些非营利机构就曾倡导将大学校分拆为小学校,因为“最好的学校都是小学校”,现在我们知道,那不过是平方根法则下的必然结果。
正态分布除了能够解答现实问题,还能帮助我们把控产品质量。
5. 六西格玛
一家企业专业生产制造门把手所用的螺栓。它生产的螺栓必须天衣无缝地与其他制造商生产的旋钮组装在一起。规格要求是螺栓直径为14毫米,但是任何直径介于13毫米与15毫米之间的螺栓也可以接受。如果螺栓的直径呈正态分布,均值为14毫米,标准差为0.5毫米,那么任何超过2个标准差的螺栓都是不合格的。两个标准差事件发生的概率为5%,这个概率对于一家制造企业来说太高了。
要想降低次品的发生概率,企业要做的就是就是降低标准差,或者提高可接受的直径范围,让其次品与均值的距离大于6个标准差,这样次品率就降低为 0.0000002%。
六西格玛字面意思就是6个标准差,最早由摩托罗拉公司在20世纪80年代中期提出。
为什么说是字面意思?因为现实我们很难做到6个标准差的合格率, 现实行业通用的六西格玛际上相当于4.5西格玛水平,也就是每百万次有3.4个次品。
你看,学习正态分布,我们不仅能够解答为什么日常看到一些特别离奇的事情,为什么小群体更容易发生大事件,甚至让产品质量提高到一个非常高的标准,这就是模型思维的力量,它是我们理解和改变世界的有力工具。