2022-08-19认识正态分布—这个世界上最简单和最基础的分布
有人天真的人认为我们的世界在很多领域经常发生极端事件,在一些领域中也许存在这样特别极端的例子,但是,其实很大一部分领域,极端现象都非常少,就像世界上没有身高15米的人一样,因为我们的世界大部分事物服从正态分布。
1. 正态分布的三个数学特性
“正态分布”这个词,听上去挺复杂,但它的英文叫normal distribution,直接翻译过来就是“正常的分布”“一般的分布”,意思是其它分布都是特殊的,只有正态分布是一般的、正常的。咱们国家台湾的教科书通常叫它“常态分布”,从名字上,我们也能感受到它的重要性。
有趣的是,正态分布不仅非常重要,而且还特别简单。说起正态分布曲线,就是一条对称的倒钟形曲线,中间很高,两边下降,像个鼓起的小山。图片就长这样:
在正态分布的曲线图里,横坐标代表随机变量的取值范围,越往右,随机变量的值就越大。纵坐标,则代表概率的大小,最底下的概率是0,越往上概率越大。因为这条曲线是左右对称的,所以中间的最高点,就代表平均值出现的概率最大,数据最多,而两边陡峭下降,就意味着越靠近平均值,数据越多,越远离平均值,数据就越少。正态分布能给人充分的掌控感,每个案例相差都不会很大,通常翻不了天。
平均值和标准差就都可以用平时的流量数据统计出来。有了平均值和标准差你就可以大致估算各种事件发生的概率:95%的事情都发生在两个标准差之内,99.7% 的事情发生在三个标准差之内。有个极客说要找个美貌程度在两个标准差之外的女朋友,那就意味着她要比 97.5%的人都漂亮。就像这个图:
从上面的例子我们可以知道正态分布的三个特性:
一是均值就是期望。也就是正态分布曲线中间最高点的横坐标,不仅代表随机变量的平均值,而且还等于它的数学期望,平均值也就代表随机事件的价值。
二是极端值很少。这有两层含义:一是极端值出现的概率很低,二是极端值对均值的影响很小。也因此,正态分布是稳定的系统。
性质三:标准差决定胖瘦。前面讲过,标准差就是方差的平方根,也能用来描述随机变量的波动情况。在正态分布中,标准差越大,数据的波动越剧烈,钟形曲线就越矮胖,标准差越小,数据越集中,钟形曲线就越高瘦。
2.决定正太分布的是中心极限定理
并不是所有随机事件都满足正态分布,想要学会判断什么样的事件满足正态分布,需要了解“中心极限定理”。中心极限定理说,如果一个事件满足下面这些条件,它的分布就是正态分布。
[if !supportLists]① [endif]它是由多个(至少20 个)随机变量相加的结果;
[if !supportLists]② [endif]这众多的随机变量是互相“独立”的,且每个随机变量的方差都只有有限大;
[if !supportLists]③ [endif]起到决定性作用的因素也是多个。
中心极限定理的表达方式有好几种,但核心的数学性质只有一条——大量独立的随机变量相加,无论各个随机变量的分布是怎样的,它们相加的结果必定会趋向于正态分布。换句话说,正态分布是必然产生的。而这个证明源于严格的数学推导,是一定正确的。
3.正态分布是所有分布的参照系和世界的宿命
正态分布就像一个标准、一个参照系,服从正态分布,可以直接用它分析,不服从正态分布,也可以为人类指明继续探索的方向。如果一个这个随机事件不服从正态分布,那它就一定不满足正态分布背后的中心极限定理。而不满足中心极限定理,我们就能知道,要么是它的影响因素不够多,要么是各种影响因素不相互独立,要么是某种影响因素的影响力太大等,就给我们继续探索指出了思路。
中心极限定理告诉我们,正态分布普遍存在。比如,影响人身高的因素很多,营养、遗传、环境、族裔、性别等都有影响,这些因素的综合效果就使人的身高服从正态分布。
所有的分布,不是正态分布,就是在变成正态分布的路上。信息论领域发现了“熵最大原理”,就是说,在一个孤立系统中,熵总是在不断增大。正态分布就是所有已知均值和方差的分布中,信息熵最大的一种分布。
如果熵不断增长是孤立系统确定的演化方向,那熵的最大化,所以就是孤立系统演化的必然结果。最终任何分布叠加最终都会形成正态分布,所以无论是对数分布还是幂律分布,无论是指数分布还是其他任何分布,只要自身不断演化,不断自己叠加自己,最终也一样会变成正态分布,好像冥冥中自有定数。
参考资料:
得到app《刘嘉·概率论22讲》《万维钢·精英日课3》。
(关注、点赞、转发)(全网同名:书童寒不冷)