抽样分布

2020-03-20 本文已影响0人生信F3

抽样分布

定义：样本统计量的概率分布，是一种理论分布。
——在重复选取容量为 n 的样本时，由该统计量的所有可能取值形成的相对频数分布。
意义：提供了样本统计量长远而稳定的信息，是进行统计推断的理论基础，也是抽样推断科学性的重要依据。

1 样本统计量

简称统计量，指的是样本的函数，并且此函数不含有未知参数。常见的统计量有：样本均值，样本方差，样本极差等。

样本统计量是随机变量！！！

虽然总体参数是一个固定的值，但由于抽样的随机性，用来估计总体参数的样本统计量是一个随机变量。而想要全面、准确的刻画一个随机变量的所有特征，必须依赖于该随机变量的统计分布和概率密度函数。

2 正态分布

高斯分布，自然界中最重要最基本的分布。
正态分布的标准化（简化计算概率的工作）

3 三大抽样分布

有很多统计推断是基于正态分布的假设，以标准正态分布变量为基石而构造的三个著名统计量在实际中有广泛的应用，这是因为这三个统计量不仅有明确背景，而且其抽样分布的密度函数有显式表达式，它们被称为统计中的“三大抽样分布”。这三大抽样分布即为著名的卡方分布，t分布和F分布。

参考： https://blog.csdn.net/anshuai_aw1/article/details/82735201

3.1 卡方分布

假设 $X\sim N(\mu,\sigma^2)$ ，则 $z=\frac{X-\mu}{\sigma} \sim N(0,1)$ ，令 $Y=z^2$ ，则 $Y$ 服从自由度为1的 $\chi^2$ 分布， $Y \sim \chi^2(1)$ 。
若随机变量 $X_1,X_2,\cdots,X_n$ 相互独立，且均服从标准正态分布，则它们的平方和：
$\sum_{i=1}^{n}X_i^2 \sim\chi^2(n)$ 其概率密度函数及图像为

image
的重要特征：

分布的变量值始终为正；
分布的形状取决于其自由度n的大小，通常为不对称的正偏分布，但随着自由度的增大逐渐趋于对称；
期望为 $E(\chi^2)=n$ ，方差为 $D(\chi^2)=2n$ （n为自由度）；
可加性：若 $U \sim \chi^2(n_1),V \sim \chi^2(n_2)$ ，则U+V这一随机变量服从自由度为 $n_1+n_2$ 的 $\chi^2$ 分布。

3.2 t分布

设随机变量 X 服从标准正态分布 $N(0,1)$ ，随机变量 Y 服从自由度为 n 的 $\chi^2$ 分布，且 X，Y 相互独立，则：
$t=\frac{X}{\sqrt{Y/n}}$
服从自由度为n的t分布。

t 分布的概率密度函数
$f(t)=\frac{\Gamma(\frac{\nu+1}{2})}{\sqrt{\nu\pi}·\Gamma(\frac{\nu}{2})}(1+\frac{t^2}{\nu})^{-\frac{\nu+1}{2}} \quad (\nu,\ degrees\ of\ freedom)$

伽马函数： $\Gamma(x)= \int_{0}^{\infty}{t}^{x-1}e^{-t}dt\ (x>0)$ , 简单性质： $\Gamma(x+1)=x\Gamma(x)$ 。

image

3.3 F分布

若 $U \sim \chi^2(n_1)，V \sim \chi^2(n_2)$ ，且U和V相互独立，则：
$F=\frac{U/n_1}{V/n_2}$
称F为服从自由度n1和n2的F分布，记为 $F \sim F(n_1,n_2)$

image

4 统计量的抽样分布

4.1 样本均值的抽样分布

正态变量线性函数的分布

image

此处随机变量 $X_1,X_2,\cdots,X_n$ 可看做<u>有放回的</u>从总体中抽取 n 个个体的观测值，因此 $X_1,X_2,\cdots,X_n$ 是独立同分布的。再结合期望和方差的运算法则，即可得到上述表示。

正态分布再生定理

当总体服从正态分布 $N(\mu,\sigma^2)$ 时，来自该总体的容量为 n 的样本均值 $\overline{x}$ 也服从正态分布， $\overline{x}$ 的数学期望为 $\mu$ ，方差为 $\sigma^2/n$ ，即 $\overline{x} \sim N(\mu,\sigma^2/n)$ 。