数据蛙强化课程第二期

统计学学习笔记(一):抽样

2019-04-03  本文已影响0人  LucasOoo

概述:

三个定义:
1.个体是收集数据的基本单位
2.总体是所有感兴趣的个体的集合
3.样本是总体的一个子集

选取样本是为了收集推断所需的数据,并且回答关于总体的研究问题。利用恰当的抽样方法,抽样结果可以给出关于总体特征的一个“好”的估计。

抽样

从有限总体的抽样
简单随机抽样:从容量为N的有限总体中抽取一个容量为n的样本,如果容量为n的每一个可能的样本都以相等的概率被抽出,则称该样本为简单随机抽样。

从无限总体的抽样
随机样本,需要满足的条件
抽取的每个个体来自同一总体
每个个体的抽取是独立的

点估计

点估计是以抽样得到的样本指标作为总体指标的估计量,并以样本指标的实际值直接作为总体未知参数的估计值的一种推断方法
为了估计总体参数,计算相应的样本特征-样本统计量



样本均值𝑥 ̅为总体均值𝜇的点估计量

抽样分布

总体服从正态分布:任何样本容量下x ̅的抽样分布都是正态分布
总体不服从正态分布:中心极限定理-从总体中抽取容量为n的简单随机抽样,当样本容量很大时,样本均值x ̅的抽样分布近似服从正态分布
应用角度:一般性而言,样本容量大于等于30时, x ̅的抽样本部可用正态分布近似。当总体是严重偏态或者出现异常点时,样本容量可能需要达到50
实际应用:提供样本均值x ̅和总体均值的值之间差异的概率信息

image.png

总体均值的区间估计:

image.png

不同置信水平得到的置信区间,想要达到较高的置信水平,必须加大边际误差,即加大置信区间的宽度

应用中的建议:
如果总体服从正态分布,公式给出的置信区间是精确的
绝大部分情况下,样本容量n>=30已经足够。
标准正太分布表:https://wenku.baidu.com/view/cd811b103a3567ec102de2bd960590c69fc3d849.html

总体均值的区间估计:总体标准差未知的情形

上一篇下一篇

猜你喜欢

热点阅读