5.6 两个总体均值之差的区间估计

2019-06-16  本文已影响0人  迪丽娜扎

分为三种情况:独立大样本、独立小样本、配对样本

1. 独立大样本

独立大样本前提下,两个样本均值之差(\bar {x} _1 - \bar {x}_2)服从期望值为\mu _ 1 - \mu _2,方差为\frac{\sigma^2_1}{n_1} + \frac{\sigma^2_2}{n_2}的正态分布。

因此,置信水平为1-α的置信区间为 (\bar{x}_1 - \bar{x}_2) \pm z_{\alpha/2}\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}

当总体的\sigma ^2未知时,使用样本方差s ^ 2代替,区间变为(\bar{x}_1 - \bar{x}_2) \pm z_{\alpha/2}\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}

2. 独立小样本

2.1 当总体的方差已知

此时估计公式跟大样本时一毛一样

2.2 当总体的方差未知

2.2.1 当两个总体的方差相等

① 使用两个样本的方差共同估计总体的方差,公式为\sigma ^ 2 \approx s^2_p = \frac{(n_1 -1)s^2_1 - (n_2-1)s^2_2}{n_1 + n_2 -2}

② 样本均值之差标准化后服从自由度为n_1 + n _2 -2的t分布,标准化的方式为\frac{(\bar{x}_1 -\bar{x}_2) - (\mu_1 - \mu_2)}{s_p \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}t(n_1 + n_2 -2)

③ 得出\mu _ 1 - \mu _2的置信水平为1-α的置信区间为 (\bar{x}_1 - \bar{x}_2) \pm t_{\alpha/2}(n_1+n_2 -2){s_p \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}

2.2.2 当两个总体的方差不相等

① 样本均值之差标准化后近似服从自由度为v的t分布,v的计算公式为v = \frac{(\frac{s^2_1}{n_1} + \frac{s^2_2}{n_2})^2}{\frac{(s^2_1/n_1)^2}{n_1 -1} + \frac{(s^2_2/n_2)^2}{n_2 -1}}

② 然后\mu _1 - \mu_2的置信水平为1-α的置信区间为(\bar{x}_1 - \bar{x}_2) \pm t_{\alpha/2}(v){\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}}

至于为什么,我也不知道~

3. 配对样本

先说下什么叫配对样本。假设我们想估计中国人的平均身高和平均体重的差(两个总体均值之差的估计问题)。一种采样方式是,我们随机找了1W个人采集了他们的身高,得到了身高的一个样本,又随机找了1W个(也可以是2W个)人的体重,得到了体重的一个样本。然后我们就可以研究均值之差了。上面这种采样方式,叫独立样本。

另一种方式,我们随机找了1W个人,采集了他们的身高,又采集了他们的体重。这样得到的身高和体重的样本就叫配对样本。

基于配对样本估计总体均值之差时,可以先在微观上作差,然后基于这些差值构成的集合进行估计。描述如下:

① 先得到由差值构成的集合;

② 计算其均值\bar d;

③ 若已知差值的标准差为\sigma _d,则\bar d服从正态分布,\mu_1 - \mu_2的置信水平为1-α的置信区间为\bar {d} \pm z_{\alpha/2}\frac{\sigma_d}{\sqrt{n}}

④ 若差值的标准差未知,则用样本差值的标准差s_d代替,即\bar {d} \pm z_{\alpha/2}\frac{s_d}{\sqrt{n}}

⑤ 上述估计是基于大样本,若是小样本+总体为正态分布的情况,对应的区间为\bar {d} \pm t_{\alpha/2}(n-1)\frac{s_d}{\sqrt{n}}

上一篇下一篇

猜你喜欢

热点阅读