从正态分布到假设检验

2020-07-29  本文已影响0人  JudeArcturus

正态分布

一维正态分布的概率密度函数为:
f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^2}}
即随机变量X服从均值为\mu,方差为\sigma^2的正态分布,记作X \sim N(\mu,\sigma^2)。特别的,当\mu=0\sigma=1时成为标准正态分布。其函数图像如下所示:

正态分布函数

正态分布的性质

当我们由于缺乏关于某个实数上分布的先验知识而不知道该选择怎样的形式时,正态分布是默认的比较好的选择,其中有两个原因:

  1. 想要建模的很多分布的真实情况是比较接近正态分布的。中心极限定理说明很多独立随机变量的和近似服从正态分布。这意味着在实际中,很多复杂系统都可以被成功地建模成正态分布的噪声,即使系统可以被分解成一些更结构化的部分。
  2. 在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性。因此,可认为正态分布是对模型加入的先验知识量最小的分布。

分位数

设随机变量X的累积分布函数为F(x),对于任意0<\alpha<1,称F(x)=P(X<x_{\alpha})=\alphax_{\alpha}为此分布的分位数。根据实际需要和表示的不同,分位数可进一步细'分为以下几种:

假设检验里的p值与这一概念紧密相关。

中心极限定理

设随机变量X_1,X_2,...,X_n,...独立同分布,具有相同的数学期望和分布,E(X_n)=\mu,D(X_n)=\sigma^2,n=1,2,...,则对于任意实数x,有
\lim_{n\rightarrow \infty}P\{\frac{\sum^{n}_{i=1}X_i - n\mu}{\sqrt{n}\sigma}\}=\Phi(x)
即当n足够大时,\sum^{n}_{i=1}X_i 的标准化\frac{\sum^{n}_{i=1}X_i - n\mu}{\sqrt{n}\sigma}近似服从标准正态分布N(0,1),或者说\sum^{n}_{i=1}X_i近似地服从N(n\mu,n\sigma^2)

在实际问题中,很多情况下我们并不知道所采样的随机变量所服从的概率分布。但由于中心极限定理,使得对任意分布的统计分析成为可能,这也是假设检验的基石之一。

假设检验

假设一个糖果厂商出品的一种袋装糖果,其标称重量为\mu,方差为\sigma^2。为了判断出场的糖果是否符合自己设计的标准。厂商对一批货物进行抽取了n袋称重,每袋的重量为X_1,X_2,...,X_n
得到的结论可以分成2中:

  1. H_0:该批商品符合设计要求。
  2. H_1:该批商品不符合设计要求。
    其中H_0又成为零假设。那么,假设H_0是真的,那么就意味着这批货物的实际重量应该服从均值为\mu,方差为\sigma^2的分布(具体分布未知)。那么,根据中心极限定理,我们可以得到一个统计检测量U=\frac{\overline{X}-\mu}{\sqrt{n}\sigma},其中\overline{X}=\frac{1}{n}\sum^{n}_{i=1}X_i,U\sim N(0,1)
    由于商品的重量不应过高或过低,因此这里是双侧分位数的概念。假定我们设定p值为0.05,即对于一个服从标准正态分布的随机变量XX<x_{1-0.025}X>x_{0.025}的概率为0.05。换句话说,对于我们的统计检测量U来说,当H_0为真时,U没有落在区间(x_{1-0.025},x_{0.025})的概率只有5%。这个概率实在是有点太小以至于我们更愿意相信原假设不成立。这就是假设检验的概念和原理。
上一篇 下一篇

猜你喜欢

热点阅读