正态分布和中心极限定理
1.正态分布
正态分布(Normal distribution),又名高斯分布(Gaussian distribution)。
正态分布的均值,决定了分布的位置。
其方差或标准差,决定了分布的幅度。标准差SD越小,则曲线越高尖,反之则越矮胖。
95%的测量值介于均值±两个标准差
2.中心极限定理
中心极限定理:从均值为μ,方差为σ2的任意一个总体中抽取样本量为n的样本,当n足够大时,样本均值 的抽样分布近似服从均值为μ,方差为σ2/n的正态分布。
1.均匀分布验证
让我们从均匀分布开始:
这个分布从0到1,在0和1之间选择数值的概率相等。我们可以从这个均匀分布中随机抽取20个样本,然后计算这些样本的平均值。
通过多次随机抽取20个样本,将得到的均值进行绘图,在直方图上加上100个平均值后:很容易看出这些平均值是正态分布的。
image.png
即使这些平均值是用均匀分布的数据计算出来的,平均值本身不是均匀分布的, 而是正态分布的。
2.指数分布验证
这次我们从指数分布开始:
像以前一样, 我们可以从这个指数分布中采集20个随机样本,并且就像以前一样, 我们可以计算出所有样本的平均值。
即使这些平均值是用指数分布的数据计算出来的,这些平均值却不是指数分布的,相反, 这些平均值是正态分布的。
事实证明你从什么样的分布开始并不重要,如果你从这些分布中采集样本,那么平均值都将是正态分布的。
但是知道平均值是正态分布的有什么实际意义呢?
当我们做一个实验时, 我们并不总是知道我们的数据来自什么分布,但是因为中心极限定理,我们知道样品平均值将是正态分布的,因为我们知道样本的平均值是正态分布的,我们可以:
用平均值的正态分布来确定置信区间,通过t-检验, 从中我们可以判断两个样本的平均值是否有差异。
通过方差分析, 从中我们可以判断三个或更多样本的平均值是否存在差异
注: 有些其他领域的人认为为了保证中心极限定理的正确性,样本大小必须至少为30。这只是一个被认为安全的经验法则,而非必须!