《深入浅出统计学》3
第10章 统计抽样的运用
1.抽样方法
1)简单随机抽样--重复和不重复
方法:抽签、随机编号生成器
2)分层抽样
3)整群抽样:总体划分为多个群,群与群之间相似,对群进行简单随机抽样
4)系统抽样:总体分成k组,每组选相同位置的样本
第11章 总体和样本的估计
1.比例的抽样分布
样本比例Ps=X/n,
E(Ps)=p
D(Ps)=pq/n
n>30时,有近似,Ps~N(p, pq/n),连续性修正:±1/(2n)
2.均值的抽样分布
中心极限定理:如果n很大(n>30)且X不符合正态分布,则:
第12章 置信区间的构建
考虑不确定性的方法
1.求解置信区间4步骤
1)选择总体统计量
2)求出其抽样分布
3)决定置信水平
4)求出置信上下限
2.t分布
当样本很小时,符合t分布
T~t(v) ,v=n-1
为什么用t分布而不是正态分布?
基于小样本估计可能无法精确反映总体方差的真实值,需要让置信区间变宽以留出误差空间。n很小时,t分布给出的置信区间比正态分布的更宽。(t分布的形状随着v值变化,由于考虑了样本的大小,即使的估计精度存在各种足以让人觉察的不确定性,t分布也能忽略不计)
第13章 假设检验的运用
1.假设检验6步骤
1)确定要进行检验的假设
2)选择检验统计量
3)确定用于做决策的拒绝域(显著性水平决定)
显著性水平用α表示,表示你希望在观察结果的不可能程度达到多大程度时拒绝H0。(小概率事件发生时拒绝 H0,你认为概率多小为小概率事件)
4)求出检验统计量的p值
p值是取得样本中的各种结果或取得拒绝域方向上的更极端的结果的概率。
5)查看样本结果是否位于拒绝域内
6)做出决策
2.错误类型
一、第一类错误:原假设为真,错误的拒绝;
发生第一类错误的概率等于结果位于拒绝域的概率,=α
二、第二类错误:原假设为假,错误的接受。
发生第二类错误的概率=β,计算更复杂
计算步骤:
1)检查是否拥有H1的特定数值
H1必须规定确切的P值,否则无法计算概率。
2)求检验拒绝域以外的数值范围
通过H0的拒绝域进行逆标准化得到--接收域的数值范围
3)假定H1为真,求得到这些数值的概率
利用H1重新标准化,得到数值对应的概率。
这个概率就是第二类错误的概率。
3.假设检验的功效
在H0为假的情况下拒绝H0的概率=1-β
第14章 分布
1.两个主要用途
1)检验拟合优度,检验一组给定的数据与指定的分布的吻合程度。
2)检验两个变量的独立性。
2.检验统计量
O为观察频数,E为期望频数。
3.自由度v
当v=1或2,图形类似1/x
当v>2时,图形先增后减;当v很大时,图形接近正态分布。
v=组数-限制数
4.显著性水平
5.假设检验6步骤:
1)确定要进行检验的假设以及备择假设
原假设:**符合某分布
2)求出期望频数和自由度
3)确定用于做决策的拒绝域
根据v和α确定拒绝域
4)计算检验统计量
5)查看检验统计量是否位于拒绝域以内
6)做出决策
6. 分布适用于二项分布、泊松分布、正态分布等,需要根据参数已知或未知调节v的数值,
7.独立性检验
其中期望频数=行合计*列合计/总和
v=(h-1)*(k-1), h为行,k为列
第15章 相关与回归
1.误差平方和
2.相关系数:
y=a+bx
公式1:
为x的样本标准差,为y的样本标准差。
公式2: