2018-02-12

2018-02-12 本文已影响0人 KningTG

统计量及其统计抽样分布

统计量

def.统计量

$\quad\quad$ 不依赖于任何未知参数，仅与样本相关的量，一般记为$T(X_1, \ldots,X_n)$

常用统计量

$\quad\quad$ $m_k =\frac{1}{n} \sum_{i=1}^{n}X_ik$ 样本k阶(原点)矩反映总体k阶矩

$\quad\quad$ $\overline{X} = \frac{1}{n} \sum_{i=1}^{n}X_i $样本均值反映总体X数学期望，即样本一阶原点矩

$\quad\quad$ $\nu_k = \frac{1}{n-1} \sum_{i-1}^{n}(X_i - \overline{X})^2$ 样本k阶中心矩反映总体k阶中心距

$\quad\quad$ $S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2$ 样本方差反映总体X方差，即样本二阶中心矩

$\quad\quad$ 值得注意的是：

$\quad\quad$$\quad\quad$ 中心距的$\frac{1}{n}$ 被修正为$\frac{1}{n-1}$

次序统计量

$\quad\quad$ 如中位数，分位数，极差等，都是由次序决定的一类重要统计量

充分统计量

$\quad\quad$ 假如某个统计量被提取后能包含有关总体的全部信息，称其为充分统计量

$\quad\quad$ 比如，当已知$X=(X_1,\ldots,X_n)$ 为来自$N(\mu, \sigma^2)$ ，

$\quad\quad$$\quad\quad\quad$若$\sigma^2$ 已知，则认为$\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$ 为 $\mu$ 的充分统计量

渐近分布

$\quad\quad$ 我们想要知道当样本量$n\to\infty$ 时，统计量$T(X_1, \ldots,X_n)$ 的极限分布会是怎么样

$\quad\quad$ 比如在下文中的中心极限定理，其实就是在说$\frac{\sqrt{n}\thinspace \overline{X}} {\sigma} \to N(0,1)$

$\quad\quad$ 同时我们也不难知道$S^2 \to \sigma ^2$ ，因此其实可以说$\frac{\sqrt{n}\thinspace \overline{X}} {S} \to N(0,1)$

正态分布导出的统计学三大分布

def.$\chi^2$ 分布

$\quad\quad$ 若$X_1,\ldots,X_n$ 相互独立并且服从$N(0,1)$ 分布，则他们的平方和$\sum_{i=1}^{n} {X_i ^2}$ 服从$\chi^2(n)$ 分布

$\quad\quad$ 此处我们暂时不关心它的密度函数，仅仅给出一些常用统计量和它的性质

$\quad\quad$$\quad\quad$ 数学期望$E(\chi^2) =n$

$\quad\quad$$\quad\quad$ 方差$D(\chi^2) = 2n$

$\quad\quad$$\quad\quad$ 可加性，若$\chi_1^2 \sim\chi^2(n_1), \chi_2^3\sim\chi2(n_2)$ ，且相互独立，则$\chi_1^2 + \chi_2^2 \sim\chi^2(n_1+n_2)$

def.$t\thinspace$分布

$\quad\quad$ 若随机变量$X \sim N(0,1)$ ,$Y\sim\chi^2(n)$ 且$X,Y$ 相互独立，$t(n)=\frac{X}{\sqrt{Y/n}}$ 称为t分布

$\quad\quad$ 待补充。

def.$F$分布

$\quad\quad$ 若随机变量$Y,Z$ 相互独立，且分别服从自由度为m与n的$\chi^2$ 分布，

$\quad\quad$ $F(m,n)=\frac{Y/m}{Z/n}$

$\quad\quad$讲了一大堆我并不懂统计学三大分布存在的意义是什么！wtf？

样本均值的分布与中心极限定理

$\overline{X}$ 的抽样分布

$\quad\quad$ 当$X \sim N(\mu,\sigma^2)$时，$\overline{X} \sim N(\mu, \frac{\sigma^2}{n})$

$\quad\quad$ (几乎等于废话)

中心极限定理

$\quad\quad$ 懒得做赘述了...就是假设总体分布不是很偏的情况下，最终样本均值分布会逼近正态分布

参数估计

参数估计基本原理

估计量与估计值

$\quad\quad$ 比如一个班级的某次考试分数，抽样得到的样本均值$\overline{x}$ 为我们的估计量，而其具体值80分是我们的估计值

点估计与区间估计

点估计

$\quad\quad$ 用样本统计量的某个取值直接作为总体参数$\theta$ 的估计值

$\quad\quad$ 但想想都觉得通过一个统计量就定下估计值太不可靠了...于是引出区间估计

区间估计

$\quad\quad$ 在点估计的基础上，给出一个由总体参数估计得到的一个区间范围

$\quad\quad$ 从某种程度上来说，置信区间就像是为捕获未知参数撒出去的网，撒出去的网因样本不同而不同，但未知参数（如总体均值）待在原地待捕捉，捕获的概率称为置信度。

评价估计量的标准

无偏性

$\quad\quad$ 指估计量抽样分布的数学期望等于被估计量的总体参数

$\quad\quad$ 如$\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^{{n}(X_i-\overline{X})}2$ 为有偏估计量，我们证明其期望不为$\sigma^2$
$$
\begin{align}
\hat{\sigma}^2 &= (\frac{1}{n} \sum_{i=1}^{n}X_i2) - \overline{X}^2 \
E(\hat{\sigma}^2) &= (\frac{1}{n} \sum_{i=1}^{n}E(X_i2)) - E(\overline{X}^2) \
&= E(X^2) - E(\overline{X}^2) \
&= [D(X) + E^2(X)] - [D(\overline{X}) + E^2(\overline{X})] \
&= \sigma^2 + \mu- \frac{\sigma^2}{n}-\mu =\frac{n-1}{n}\sigma^2
\end{align}
$$
$\quad\quad$ 这正好说明了我们为什么取$S^2$ 为我们对$\sigma^2$ 的无偏估计量，

$\quad\quad$ 而此处总体(原点)矩由样本矩估计的原理来自大数定理: $n\to\infty, \overline{X^k}\to E(X^k)$

有效性

$\quad\quad$ 在无偏估计的条件下，估计值的方差越小，估计就越有效

一致性

$\quad\quad$ 随样本量增加，估计量的值要越来越逼近 被估总体参数

一个总体参数的区间估计

总体均值的区间估计

$\quad\quad$ 进行区间估计时，我们需要考虑总体

$\quad\quad$ (i)是否为正态分布 (ii)总体方差是否已知 (iii)样本属于大样本($n\ge30$)还是小样本($n<30$)

正态总体、方差已知，或非正态大样本(中心极限)

$\quad\quad$ 样本均值在标准化后随机变量服从标准正态分布，即
$$
z \thinspace = \thinspace \frac{\overline{x}-\mu} {\sigma / \sqrt{n}} \thinspace \sim N(0,1)
$$
$\quad\quad$ 当置信度为$1- \alpha$ 时，取$z_{\alpha/2}$ 为标准正态分布右侧面积为$\alpha /2$ 时的值，则我们的置信区间由我们的点估计值和估计误差组成，可以写为$\overline{x}\pm z_{\alpha/2}\sigma_{\overline{x}}$ 或 $\overline{x} \pm z_{\alpha/2}s_\overline{x}$ (视总体方差是否可知决定)

正态总体、方差未知、小样本

$\quad\quad$ 样本均值在标准化后随机变量服从自由度为(n-1)的t分布，即
$$
t \thinspace =\thinspace \frac{\overline{x}-\mu}{s/\sqrt{n}} \thinspace \sim \thinspace t(n-1)
$$
$\quad\quad$ 与上例类似，当置信度为$1- \alpha$ 时，取置信区间为$\overline{x} \pm t_{\alpha/2}s_{\overline{x}}$

总体方差的区间估计

$\quad\quad$ 这里只讨论正太总体方差的估计问题，显然由定义选择用$\chi^2$ 分布来构造总体方差的置信区间

$\quad\quad$ 根据推导我们得到，在$1- \alpha$ 的置信度下，置信区间为
$$
\frac{(n-1)s^{2}{\chi_{\alpha/2}}2} \le \sigma^2 \le \frac{(n-1)s^2}{\chi_{1- \alpha/2}^2}
$$

两个总体参数的区间估计

一般来说，对于两个总体，我们关心的参数主要为$\mu_1-\mu_2$ 等，此处只做简单介绍

独立样本

大样本估计

$\quad\quad$ 下式的得出比较显然，下式中$\sigma^2$ 显然可替换为$s^2$
$$
(\overline{x_1} - \overline{x_2}) \pm z_{\alpha/2}\sqrt{\frac{\sigma_1^{2}{n_1}+\frac{\sigma_2}2}{n_2}} \quad (P=1- \alpha)
$$

小样本估计

$\quad\quad$ 需要分为两种情况

$\quad\quad$ - 方差$\sigma_1^2,\sigma_22$ 未知且相等

$\quad\quad$ - 方差$\sigma_1^2,\sigma_22$ 未知且不相等

$\quad\quad$ 具体公式先留着，和预料的有点区别，暂时不是很理解t分布是怎么用来估计的

假设检验

假设问题的提出

$\quad\quad$ 我们先提出一个简单的例子：

$\quad\quad$ 1989年某地新生儿平均体重为3190g，现从1990年新生儿中抽取100g，测得平均体重为3210g。

$\quad\quad$ 问：平均体重是否有明显差异？

假设的表达式

$\quad\quad$ 我们取原假设为"无明显差异"

$\quad\quad$$H_0:\mu=3190(g)$ （更一般地，我们可以写为$H_0:\mu=\mu_0$ ）

$\quad\quad$ 但正如我们所说的，这仅仅是个假设，完全可以被拒绝。被拒绝时，我们选择另一面。

$\quad\quad$ 我们称$H_1 \neq 3190(g)$ 为备择假设，一般形式同上

两类错误

$\quad\quad$ $\alpha$ 错误(弃真错误)：原假设正确，判断其错误。

$\quad\quad$ $\beta$ 错误(取伪错误)：原假设错误，判断其正确。

$\quad\quad$ 通用原则：哪一类错误后果严重，就首要控制它。

$\quad\quad$ 比较显然的一点是$\alpha$ 和 $\beta$ 错误此消彼长，弃真错误多说明标准太高，但这也意味着取伪错误会更少

假设检验一般流程

$\quad\quad$ 首先提出原假设和备择假设

$\quad\quad$$\quad\quad$ $H_0:\mu=3190(g)$

$\quad\quad$$\quad\quad$ $H_1:\mu \neq 3190(g)$

$\quad\quad$ 确定适当的检验统计值，并计算数值

$\quad\quad$$\quad\quad$ 比如在上例中我们采用z统计量的话，则标准得分应为$z=\frac{\overline{x}-\mu_0}{\sigma/\sqrt{n}}$

$\quad\quad$ 确定置信区间，一般取$\alpha = 0.05$ ，因为我们常认为，小概率的标准为0.05

$\quad\quad$ 然后判断就很简单了

$\quad\quad$$\quad\quad$ 若$|z|<|z_{\alpha/2}|$ ，不拒绝$H_0$

$\quad\quad$$\quad\quad$ 若$|z|>|z_{\alpha/2}|$ ，拒绝$H_0$

$\quad\quad$ 那...岂不是假设值落不落在置信区间的简单判断了？略过后面很大一块重复置信区间的内容

$\quad\quad$ 但是这里会出现一个问题，我们的弃真错误始终是0.05，不同的被拒绝假设无法被区分。引出p-value

$\quad\quad$ p-value一般取决于三个因素：

$\quad\quad$$\quad\quad$i)样本数据与原假设差异 ii)样本量 iii)被假设参数的总体分布

单侧检验

$\quad\quad$ 若命题为$\mu = \mu_0$ 的形式，我们一般如上采用双侧检验，也就是$\mu > \mu_0$ 和$\mu < \mu_0$ 其一成立则拒绝原假设

$\quad\quad$双侧检验中，一般取$P>0.025(\alpha/2)$ 为接受条件

$\quad\quad$单侧检验中，一般取$P>0.05$ 为接受条件，如下图为右单侧检验