Datawhale统计学一周集训——任务三
任务内容
- 学习内容(一)
47-53集 假设检验(一) - 学习内容(二)
54-61集 假设检验(二)
学习笔记
假设检验
假设检验:在原假设成立的条件下,计算当前情况发生的概率,也就是p值,如果p值比较小,一般以0.05为主,则认为原假设不成立,支持备选假设
单侧检验与双侧检验
仅仅通过视频上的内容来看:单侧检验与双侧检验与原假设无关,仅仅是针对备选假设提出来的,以原假设为例,当备选假设不等于10时,是双侧检验;当备选假设或者时,是单侧检验。单侧检验与双侧检验区别在于求p值时,p值对应于在概率密度图上的面积范围不同。
z统计量与t统计量
两者的区别在于样本容量,当样本容量>30时,正态分布,也就是Z统计量;当样本容量<30时,t分布,也就是t统计量。
求p值的方法一样,正态分布与t分布的概率密度曲线不同,则两者求p值的方法有差异。
正态分布通过计算z值,即与均值相差多少个标准差,来查表计算p值;t分布通过t统计量,自由度查表来查p值。(在t分布中求p值可能不太合适,一般用允许犯第一型错误的概率与自由度查表,比较两个t统计量)
深入分析一下很有意思:求p值的过程与求置信区间的方法类似,区别在于,置信区间是知道“p值”来求区间范围,而假设检验是知道“区间范围”来求p值。(如果引入拒绝域的概念,则假设检验与置信区间的求法一致。)
第一型错误
第一型错误指的是原假设正确,但拒绝原假设。
大样本占比假设检验
假设符合某种条件的占比为a%,我们通过观看抽样出来的样本占比大于a%,则需要验证占比>a%假设是否成立。
:占比<=a%,:占比>a%
在求总体方差的时候使用二项分布公式,再用计算样本的标准差,然后Z变换,查表得出结论。
随机变量之差
两个独立分布的随机变量X、Y
,
,
随机变量Z=X-Y
样本均值之差
两个相互独立的样本X,Y,其均值分布参数如下:
,
,
样本均值之差Z:
知道了样本均值之差的均值与标准差,求置信区间以及进行假设检验的方法就类似了。
澄清一下均值之差的置信区间,假设置信度为95%,不是均值之差落在此置信区间的概率为95%,而是我们有能力相信均值之差落在此区间的概率为95%。因为样本均值分布的E(X),Var(X)等均为估计值。
总体占比的比较
假设在某次投票中,投给男生的总票数n1,支持率为p1;投在男生的总共票数n2,支持率为p2;我们要检验性别对于支持率是否有影响。
,
,
知道了p1-p2的均值和标准差也就能求置信区间或者进行假设检验了。
总结
- 中心极限定理是假设检验的理论基础。
- 理解样本均值的概念很重要。
- 要学会求解新的正态分布的均值和标准差。