刘嘉概率论22讲《十二,正态分布,最简单却最重要的概率分布》
正态分布是概率分布中最重要的分布,再数学家眼里,他是远远高于其他分布的。
其他分布都是特殊的,只有正态分布是正常的,一般的,从名字上,我们也能感受到它的重要性。
有趣的是正态分布不仅重要而且简单,就像一条对称的倒钟形曲线,中间很高,两边下降,像个鼓起的小山包。
再正态分布的曲线里,横坐标代表随机变量的取值范围,越往右,随机变量的值就越大,纵坐标,则代表概率大小,最底下的概率是0,越往上概率越大。这样曲线上随便找一点,确定他的横坐标,纵坐标,我们就知道了这个值出现的概率是多少。
因为这条曲线左右是对称的,所以中间的最高点,就代表平均值出现的概率最大,数据最多,而两边陡峭下降,就意味着约靠近平均值,数据越多,越远离平均值,数据就越少。
当然,我们不能停留在这种粗糙的描述上,要理解正态分布,必须了解他的三个数学性质。
1,均值就是期望
也就是说,正态分布中间最高点的横坐标,不仅代表随机变量的平均值,而且还等于他的数学期望,这是经过数学证明的,在概率论中,正态分布的均值和期望是一个意思,是一件事儿的两种表达。
我们前面讲过,数学期望代表长期价值,而现在平均值又是数学期望,也就是说,在正态分布中,平均值就是代表随机事件的价值。
为什么我们会用高考的平均成绩衡量一所高中的教学质量,为什么我们会有平均收益率来衡量一家基金公司的收益,平均值就代表这个随机事件的价值。
只有在正态分不里,平均值才有这个意义,如果不是正态分布,平均值就没啥意义了,比如地震,谁也没听说过平均强度和平均损失这样的说法吧。
2,极端值很少
还记得正态分布的图吗?越靠近平均值,这条曲线越高,出现的概率越大,越远离平均值,这条曲线就越低,出现的概率就越小。这说明,正态分布大多数的数据都集中在平均值附近,极端值很少。
极端值很少这句话有两个含义:意识极端值出现的概率很低,二是极端值对均值影响很小,也因此,正态分布非常稳定,拿人的身高来说吧,它大体服从正态分布,所以即便姚明加入,我们的平均身高也不会有太大变化。
3,标准差决定胖瘦
同样是正态分布图,有的曲线要矮胖一些,有的曲线要高瘦一些,为什么
因为标准差不同,标准差就是方差的平方根,也能用来描述随机变量的波动情况。正态分布中,标准差越大,数据的波动越剧烈,钟形曲线就越矮胖,标准差越小,数据越集中,钟形曲线就越高瘦。
为什么说正态分布简单,因为在正态分布中,平均值等于期望,决定这条曲线的最高点,方差决定胖瘦,决定曲线的弯曲度。简单的两个数据,就确定了这条曲线的形状。
不同的正态分布曲线可以比较吗?
可以的,
第一,只有均值不同,能比较好坏。
第二,只有标准差不同,能比较波动
第三,标准差和均值都不同,能比较专业和业余