统计学基础2
目录
抽样和抽样分布
区间估计
假设检验
抽样和抽样分布
抽样是为了估计总体的参数


样本比率:

样本均值的抽样分布

样本均值的标准差

当样本容量占总体5%以下时,公式可以简化成:

重点:
1. 如果总体服从正态分布时:任何样本容量下的(x拔)的抽样分布都是正态分布。
2. a.中心极限定理:从总体中抽取容量为n的简单随机样本,当样本的容量额很大时,样本均值(x拔)的抽样分布近似服从正态概率分布。
b.其实在大多数的应用中,样本容量大于30时,(x拔)的抽样分布近似服 从正态概率分布
样本比率的抽样分布



当样本容量占总体5%以下时,公式可以简化成:

如果样本容量足够大,并且np>=5和n(1-p)>=5,二项分布可用正态分布近似,(p拔)的抽样分布可用正态分布来近似。
区间估计
总体均值的区间估计
对总体均值进行估计时:1.要利用总体标准差σ计算边际误差2.抽样前可通过大量历史数据估计总体标准差。
顾客购物消费额,历史数据σ=20美元,总体服正态分布。抽取n=100名顾客简单随机样本,样本均值=82美元,求样本均值的区间估计

差值2个标准差置信度95%以上

上侧面积即统计值两侧单边的面积
置信系数1-α,对应上侧面积α/2
置信系数水平越高,边际误差就越大,置信区间越宽
t分布:用样本本身的方差做区间估计时使用!
依赖于自由度,自由度越大,t分布与标准误差部分差别越小



自由度:n-1
样本容量的确定(E为可接受的边界误差):

如果σ未知,可通过以下方法确定σ的初始值
1.根据以前研究中的数据计算总体标准差的估计值
2.利用实验性研究,选取一个初始样本,以初始样本的标准差做估计值
3.对σ进行判断或最优猜测:计算极差/4为标准差的粗略估计
总体比率p的区间估计:

样本容量的确定:

(p拨)未知,用(p星)表示(p拨)的计划值

(p星)的确定:
1、用以前研究中类似的样本的样本比率作为计划值
2、利用实验性的研究,选取一个初始样本,以初始样本的样本比例作为计划值。
3、使用判断或最优猜测作为计划值
4、如果上述均不可,计划值取为0.5,这是因为p(星)=0.5时,p星*(1-p星)取得最大值,同时样本容量也能取的最大值。
假设检验
尝试性地假设,然后用实际数据验证
1、总体均值的检验
咖啡质量,需要3磅,σ=0.18,n=36罐,(x拨)=2.92
以均值为3磅,σ=0.18/根号(n)建立正态分布
求出2.92偏离了多少标准差

z=-2.67时,p=0.0038,因此在0.01的显著水平下有足够的统计证据拒绝H0
显著性水平和置信水平是反的!