统计学数据蛙数据分析每周作业

Datawhale统计学一周集训——任务三

2019-01-06  本文已影响4人  晓迦

任务内容

学习笔记

假设检验

假设检验:在原假设H_0成立的条件下,计算当前情况发生的概率,也就是p值,如果p值比较小,一般以0.05为主,则认为原假设不成立,支持备选假设H_1

单侧检验与双侧检验

仅仅通过视频上的内容来看:单侧检验与双侧检验与原假设无关,仅仅是针对备选假设H_1提出来的,以原假设H_0=10为例,当备选假设H_1不等于10时,是双侧检验;当备选假设H_1>10或者H_1<10时,是单侧检验。单侧检验与双侧检验区别在于求p值时,p值对应于在概率密度图上的面积范围不同。

z统计量与t统计量

两者的区别在于样本容量,当样本容量>30时,正态分布,也就是Z统计量;当样本容量<30时,t分布,也就是t统计量。
求p值的方法一样,正态分布与t分布的概率密度曲线不同,则两者求p值的方法有差异。
正态分布通过计算z值,即与均值\mu相差多少个标准差,来查表计算p值;t分布通过t统计量,自由度查表来查p值。(在t分布中求p值可能不太合适,一般用允许犯第一型错误的概率与自由度查表,比较两个t统计量)

深入分析一下很有意思:求p值的过程与求置信区间的方法类似,区别在于,置信区间是知道“p值”来求区间范围,而假设检验是知道“区间范围”来求p值。(如果引入拒绝域的概念,则假设检验与置信区间的求法一致。)

第一型错误

第一型错误指的是原假设正确,但拒绝原假设。

大样本占比假设检验

假设符合某种条件的占比为a%,我们通过观看抽样出来的样本占比大于a%,则需要验证占比>a%假设是否成立。
H_0:占比<=a%,H_1:占比>a%
在求总体方差的时候使用二项分布公式,再用\sigma_{\hat{X}}=\frac{\sigma}{\sqrt{n}}计算样本的标准差,然后Z变换,查表得出结论。

随机变量之差

两个独立分布的随机变量X、Y
E(X) = \mu_X,Var(X) = \sigma_X^2
E(Y) = \mu_Y,Var(Y) = \sigma_Y^2
随机变量Z=X-Y
E(Z) = \mu_X+\mu_Y
Var(Z)= \sigma_X^2+ \sigma_Y^2

样本均值之差

两个相互独立的样本X,Y,其均值分布参数如下:
E(\hat{X}) = \mu_\hat{X},Var(X) =\frac{ \sigma_\hat{X}^2}{n_1}
E(\hat{Y}) = \mu_\hat{Y},Var(Y) =\frac{ \sigma_\hat{Y}^2}{n_2}
样本均值之差Z:
E(\hat{Z}) = \mu_\hat{X}+\mu_\hat{Y}
Var(Z) =\frac{ \sigma_\hat{X}^2}{n_1}+\frac{ \sigma_\hat{Y}^2}{n_2}
知道了样本均值之差的均值与标准差,求置信区间以及进行假设检验的方法就类似了。
澄清一下均值之差的置信区间,假设置信度为95%,不是均值之差落在此置信区间的概率为95%,而是我们有能力相信均值之差落在此区间的概率为95%。因为样本均值分布的E(X),Var(X)等均为估计值。

总体占比的比较

假设在某次投票中,投给男生的总票数n1,支持率为p1;投在男生的总共票数n2,支持率为p2;我们要检验性别对于支持率是否有影响。
E(\hat{p_1})=p_1, \sigma_{\hat{p_1}}=\sqrt {\frac{p_1*(1-p_1)}{n_1}}
E(\hat{p_2})=p_2, \sigma_{\hat{p_2}}=\sqrt\frac{p_2*(1-p_2)}{n_2}
E(\hat{p_1}-\hat{p_2})=p_1-p_2
\sigma_{\hat{p_1}-\hat{p_2}}=\sqrt {\frac{p_1*(1-p_1)}{n_1}+\frac{p_2*(1-p_2)}{n_2}}
知道了p1-p2的均值和标准差也就能求置信区间或者进行假设检验了。

总结

上一篇下一篇

猜你喜欢

热点阅读