2018-02-12

2018-02-12  本文已影响0人  KningTG

统计量及其统计抽样分布

统计量

def.统计量

$\quad\quad$ 不依赖于任何未知参数,仅与样本相关的量,一般记为$T(X_1, \ldots,X_n)$

常用统计量

$\quad\quad$ $m_k =\frac{1}{n} \sum_{i=1}{n}X_ik$ 样本k阶(原点)矩 反映 总体k阶矩

$\quad\quad$ $\overline{X} = \frac{1}{n} \sum_{i=1}^{n}X_i $样本均值 反映 总体X数学期望,即样本一阶原点矩

$\quad\quad$ $\nu_k = \frac{1}{n-1} \sum_{i-1}^{n}(X_i - \overline{X})^2$ 样本k阶中心矩 反映 总体k阶中心距

$\quad\quad$ $S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2$ 样本方差 反映 总体X方差,即样本二阶中心矩

$\quad\quad$ <u>值得注意的是</u>:

$\quad\quad$$\quad\quad$ 中心距的$\frac{1}{n}$ 被修正为$\frac{1}{n-1}$

次序统计量

$\quad\quad$ 如中位数,分位数,极差等,都是由次序决定的一类重要统计量

充分统计量

$\quad\quad$ 假如某个统计量被提取后能 包含 有关总体的全部信息,称其为充分统计量

$\quad\quad$ 比如,当已知$X=(X_1,\ldots,X_n)$ 为来自$N(\mu, \sigma^2)$ ,

$\quad\quad$$\quad\quad\quad$若$\sigma^2$ 已知,则认为$\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$ 为 $\mu$ 的 充分统计量

渐近分布

$\quad\quad$ 我们想要知道当样本量$n\to\infty$ 时,统计量$T(X_1, \ldots,X_n)$ 的极限分布会是怎么样

$\quad\quad$ 比如在下文中的中心极限定理,其实就是在说$\frac{\sqrt{n}\thinspace \overline{X}} {\sigma} \to N(0,1)$

$\quad\quad$ 同时我们也不难知道$S^2 \to \sigma ^2$ ,因此其实可以说$\frac{\sqrt{n}\thinspace \overline{X}} {S} \to N(0,1)$

正态分布导出的统计学三大分布

def.$\chi^2$ 分布

$\quad\quad$ 若$X_1,\ldots,X_n$ 相互独立并且服从$N(0,1)$ 分布,则他们的平方和$\sum_{i=1}^{n} {X_i ^2}$ 服从$\chi^2(n)$ 分布

$\quad\quad$ 此处我们暂时不关心它的密度函数,仅仅给出一些常用统计量和它的性质

$\quad\quad$$\quad\quad$ 数学期望$E(\chi^2) =n$

$\quad\quad$$\quad\quad$ 方差$D(\chi^2) = 2n$

$\quad\quad$$\quad\quad$ 可加性,若$\chi_1^2 \sim\chi^2(n_1), \chi_23\sim\chi2(n_2)$ ,且相互独立,则$\chi_1^2 + \chi_2^2 \sim\chi^2(n_1+n_2)$

def.$t\thinspace$分布

$\quad\quad$ 若随机变量$X \sim N(0,1)$ ,$Y\sim\chi^2(n)$ 且$X,Y$ 相互独立,$t(n)=\frac{X}{\sqrt{Y/n}}$ 称为t分布

$\quad\quad$ 待补充。

def.$F$分布

$\quad\quad$ 若随机变量$Y,Z$ 相互独立,且分别服从自由度为m与n的$\chi^2$ 分布,

$\quad\quad$ $F(m,n)=\frac{Y/m}{Z/n}$

$\quad\quad$讲了一大堆我并不懂统计学三大分布存在的意义是什么!wtf?

样本均值的分布与中心极限定理

$\overline{X}$ 的抽样分布

$\quad\quad$ 当$X \sim N(\mu,\sigma^2)$时,$\overline{X} \sim N(\mu, \frac{\sigma^2}{n})$

$\quad\quad$ (几乎等于废话)

中心极限定理

$\quad\quad$ 懒得做赘述了...就是假设总体分布不是很偏的情况下,最终样本均值分布会逼近正态分布

参数估计

参数估计基本原理

估计量与估计值

$\quad\quad$ 比如一个班级的某次考试分数,抽样得到的样本均值$\overline{x}$ 为我们的 估计量,而其具体值80分是我们的 估计值

点估计与区间估计

点估计

$\quad\quad$ 用样本统计量的某个取值直接作为总体参数$\theta$ 的估计值

$\quad\quad$ 但想想都觉得通过一个统计量就定下估计值太不可靠了...于是引出区间估计

区间估计

$\quad\quad$ 在点估计的基础上,给出一个由总体参数估计得到的一个区间范围

$\quad\quad$ 从某种程度上来说,置信区间就像是为捕获未知参数撒出去的网,撒出去的网因样本不同而不同,但未知参数(如总体均值)待在原地待捕捉,捕获的概率称为置信度。

评价估计量的标准

无偏性

$\quad\quad$ 指 估计量抽样分布的数学期望 等于 被估计量的总体参数

$\quad\quad$ 如$\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}{n}(X_i-\overline{X})2$ 为有偏估计量,我们证明其期望不为$\sigma^2$
$$
\begin{align}
\hat{\sigma}^2 &= (\frac{1}{n} \sum_{i=1}{n}X_i2) - \overline{X}^2 \
E(\hat{\sigma}^2) &= (\frac{1}{n} \sum_{i=1}{n}E(X_i2)) - E(\overline{X}^2) \
&= E(X^2) - E(\overline{X}^2) \
&= [D(X) + E^2(X)] - [D(\overline{X}) + E^2(\overline{X})] \
&= \sigma^2 + \mu- \frac{\sigma^2}{n}-\mu =\frac{n-1}{n}\sigma^2
\end{align
}
$$
$\quad\quad$ 这正好说明了我们为什么取$S^2$ 为我们对$\sigma^2$ 的无偏估计量,

$\quad\quad$ 而此处总体(原点)矩由样本矩估计的原理来自大数定理: $n\to\infty, \overline{X^k}\to E(X^k)$

有效性

$\quad\quad$ 在无偏估计的条件下,估计值的方差越小,估计就越有效

一致性

$\quad\quad$ 随样本量增加,估计量的值 要<u>越来越逼近</u> 被估总体参数

一个总体参数的区间估计

总体均值的区间估计

$\quad\quad$ 进行区间估计时,我们需要考虑总体

$\quad\quad$ (i)是否为正态分布 (ii)总体方差是否已知 (iii)样本属于大样本($n\ge30$)还是小样本($n<30$)

正态总体、方差已知,或非正态大样本(中心极限)

$\quad\quad$ 样本均值在标准化后随机变量服从标准正态分布,即
$$
z \thinspace = \thinspace \frac{\overline{x}-\mu} {\sigma / \sqrt{n}} \thinspace \sim N(0,1)
$$
$\quad\quad$ 当置信度为$1- \alpha$ 时,取$z_{\alpha/2}$ 为标准正态分布<u>右侧面积</u>为$\alpha /2$ 时的值,则我们的置信区间由我们的点估计值和估计误差组成,可以写为$\overline{x}\pm z_{\alpha/2}\sigma_{\overline{x}}$ 或 $\overline{x} \pm z_{\alpha/2}s_\overline{x}$ (视总体方差是否可知决定)

正态总体、方差未知、小样本

$\quad\quad$ 样本均值在标准化后随机变量服从自由度为(n-1)的t分布,即
$$
t \thinspace =\thinspace \frac{\overline{x}-\mu}{s/\sqrt{n}} \thinspace \sim \thinspace t(n-1)
$$
$\quad\quad$ 与上例类似,当置信度为$1- \alpha$ 时,取置信区间为$\overline{x} \pm t_{\alpha/2}s_{\overline{x}}$

总体方差的区间估计

$\quad\quad$ 这里只讨论正太总体方差的估计问题,显然由定义选择用$\chi^2$ 分布来构造总体方差的置信区间

$\quad\quad$ 根据推导我们得到,在$1- \alpha$ 的置信度下,置信区间为
$$
\frac{(n-1)s2}{\chi_{\alpha/2}2} \le \sigma^2 \le \frac{(n-1)s^2}{\chi_{1- \alpha/2}^2}
$$

两个总体参数的区间估计

一般来说,对于两个总体,我们关心的参数主要为$\mu_1-\mu_2$ 等,此处只做简单介绍

独立样本

大样本估计

$\quad\quad$ 下式的得出比较显然,下式中$\sigma^2$ 显然可替换为$s^2$
$$
(\overline{x_1} - \overline{x_2}) \pm z_{\alpha/2}\sqrt{\frac{\sigma_12}{n_1}+\frac{\sigma_22}{n_2}} \quad (P=1- \alpha)
$$

小样本估计

$\quad\quad$ 需要分为两种情况

$\quad\quad$ - 方差$\sigma_12,\sigma_22$ 未知且相等

$\quad\quad$ - 方差$\sigma_12,\sigma_22$ 未知且不相等

$\quad\quad$ 具体公式先留着,和预料的有点区别,暂时不是很理解t分布是怎么用来估计的

假设检验

假设问题的提出

$\quad\quad$ 我们先提出一个简单的例子:

$\quad\quad$ 1989年某地新生儿平均体重为3190g,现从1990年新生儿中抽取100g,测得平均体重为3210g。

$\quad\quad$ 问:平均体重是否有明显差异?

假设的表达式

$\quad\quad$ 我们取原假设为"无明显差异"

$\quad\quad$$H_0:\mu=3190(g)$ (更一般地,我们可以写为$H_0:\mu=\mu_0$ )

$\quad\quad$ 但正如我们所说的,这仅仅是个假设,完全可以被拒绝。被拒绝时,我们选择另一面。

$\quad\quad$ 我们称$H_1 \neq 3190(g)$ 为备择假设,一般形式同上

两类错误

$\quad\quad$ $\alpha$ 错误(弃真错误):原假设正确,判断其错误。

$\quad\quad$ $\beta$ 错误(取伪错误):原假设错误,判断其正确。

$\quad\quad$ 通用原则:哪一类错误<u>后果严重</u>,就首要控制它。

$\quad\quad$ 比较显然的一点是$\alpha$ 和 $\beta$ 错误此消彼长,弃真错误多说明标准太高,但这也意味着取伪错误会更少

假设检验一般流程

$\quad\quad$ 首先提出原假设和备择假设

$\quad\quad$$\quad\quad$ $H_0:\mu=3190(g)$

$\quad\quad$$\quad\quad$ $H_1:\mu \neq 3190(g)$

$\quad\quad$ 确定适当的检验统计值,并计算数值

$\quad\quad$$\quad\quad$ 比如在上例中我们采用z统计量的话,则标准得分应为$z=\frac{\overline{x}-\mu_0}{\sigma/\sqrt{n}}$

$\quad\quad$ 确定置信区间,一般取$\alpha = 0.05$ ,因为我们常认为,小概率的标准为0.05

$\quad\quad$ 然后判断就很简单了

$\quad\quad$$\quad\quad$ 若$|z|<|z_{\alpha/2}|$ ,不拒绝$H_0$

$\quad\quad$$\quad\quad$ 若$|z|>|z_{\alpha/2}|$ ,拒绝$H_0$

$\quad\quad$ 那...岂不是假设值落不落在置信区间的简单判断了?略过后面很大一块重复置信区间的内容

$\quad\quad$ 但是这里会出现一个问题,我们的弃真错误始终是0.05,不同的被拒绝假设无法被区分。引出p-value

$\quad\quad$ p-value一般取决于三个因素:

$\quad\quad$$\quad\quad$i)样本数据与原假设差异 ii)样本量 iii)被假设参数的总体分布

单侧检验

$\quad\quad$ 若命题为$\mu = \mu_0$ 的形式,我们一般如上采用双侧检验,也就是$\mu > \mu_0$ 和$\mu < \mu_0$ 其一成立则拒绝原假设

$\quad\quad$双侧检验中,一般取$P>0.025(\alpha/2)$ 为接受条件

$\quad\quad$单侧检验中,一般取$P>0.05$ 为接受条件,如下图为 右单侧检验

<img src="https://ss0.bdstatic.com/70cFvHSh_Q1YnxGkpoWK1HF6hhy/it/u=332862361,3699234221&fm=27&gp=0.jpg" width="30%" />

上一篇下一篇

猜你喜欢

热点阅读