t检验的基本思想----t分布
在学习t检验之前,大家首先要明白什么是t分布?
历史由来:
18世纪初,正态分布被发现后,大家无不惊异于世界的神奇,发现竟然很多现象的变化都可以用正态分布解释,并且只要样本足够多,这种变化总会趋于正态分布或近似正态分布,这样的发现以及应用一直持续到19世纪末。
20世纪初,面对时代的高速发展,各种行业越来越重视数据的重要性,各行各业的研究学者越来越多,此时有人就发现了一个问题:对于同样的指标,在大样本的时候它服从正态分布甚至标准正态分布,但如果数据少了,此时得到的图形就和正态分布不太一样了。
这个人就是威廉·戈塞(Gosset),戈塞是小样本统计理论的开创者,他在酿酒公司工作中发现,供酿酒的每批麦子质量相差很大,而同一批麦子中能抽样供试验的麦子又很少,每批样本在不同的温度下做实验,其结果相差很大,这样一来,实际上取得的麦子样本,不可能是大样本,只能是小样本。可是,从小样本来分析数据是否可靠?误差有多大?
小样本理论就在这样的背景下应运而生。1905年,戈塞利用酒厂里大量的小样本数据写了第一篇论文《误差法则在酿酒过程中的应用》,在此基础上,1907年戈塞决心把小样本和大样本之间的差别搞清楚。为此,他试图把一个总体中的所有小样本的平均数的分布刻画出来,做法是,在一个大容器里放了一批纸牌,把它们弄乱,随机地抽若干张,对这一样本做实验记录观察值,然后再把纸牌弄乱,抽出几张,对相应的样本再做实验观察,记录观察值,大量地记录这种随机抽样的小样本观察值,就可借以获得小样本观察值的分布函数,若观察值是平均数,戈塞把它叫做t分布函数。
由于当时酒厂为了通过戈塞的发现提升自己的经济效益,禁止戈塞把此发现发表在学术刊物上,但戈塞不想将如此重要的发现浪费在这个小小的酒厂,于是通过“student"这一笔名将t分布公诸于世。
戈塞提出了t分布,但真正将t分布发扬光大的是罗纳德·费雪,也就是大名鼎鼎的Fisher大神,这个人简直就是个神仙,几乎我们现在学的大部分现代统计学知识,都有他的影子,关于他的光辉事迹,以后再说。
t分布图形:
展示t分布最好的方式就是拿正态分布一起作比较,看看他们直接到底有什么关系。
由图可知,最上方是正态分布,中间的是自由度=10的分布,最下方的是自由度为n-1的t分布。t分布相比正态分布更矮,两端的”小尾巴"更翘。(关于自由度的问题,我会单独写一篇介绍,此处就不多赘述)
这里要明确一个观念,t分布不是一个分布,是一簇分布。决定t分布的参数有且只有一个,就是自由度,自由度越小,和正态分布差别越大,相应图形越发矮胖;自由度越大,t分布慢慢趋于正态分布,当自由度大到一定程度,t分布就接近标准正态分布。那么自由度到底是多少t分布才接近正态分布呢?
自由度=30,t分布非常接近正态分布;自由度=50,差别很小,完全可以将t分布看作正态分布。
不用去纠结,这是既定的事实,对于我们在应用过程中知道就行,不用管为什么。如果确实有小伙伴好奇,验证起来也很简单,找一组样本量>50的数据(比如100),分别作自由度30,50(都是随机抽样)和100的t分布图形,最后对比,就不难发现,自由度50和100几乎一致,30也十分接近100。
不管是t分布还是正态分布,它的意义是什么?
在标准正态分布图形中,一侧2.5%面积对应的Z值为1.96,即使是在正态分布中μ±1.96σ的面积也为95%。但t分布却不是,当自由度=5时,右侧2.5%面积对应的t值为2.57;当自由度=30时,右侧2.5%面积对应的t值为2.04。所以通过t分布作统计推断时,依据的是t界值表,而不是正态分布的。
t分布下的统计推断:
应用统计的目的是得到我们想要的结果,方法通常有参数估计和统计推断,而统计推断更为常用。
举一个小栗子:你现在是一个幼儿园小班的年纪主任,新学期到了,你想看看新一届幼儿园小班小朋友的身高是否达到全国标准,由于小班一共15个个,每班都有25名小朋友,没那么多精力全部调查一遍,现随机抽取一个小班的25人,通过统计方法来得到结果。
其实学过统计的人都知道,这就是一个典型的单样本t检验,我们先查到全国3-4岁小朋友的正常身高,再计算25名小朋友身高的均值和标准差,通过t检验公式得到一个t值,再按照α=0.05,自由度=24查t界值表再得到一个t值。
如果t>tα,v,那相应P值就<0.05(P值是从样本统计结果推论至总体时所犯错误的概率),由上图可知,t值越大,P值就越小,就越有理由相信这一届小班小朋友的身高>全国标准;如果t<tα,v,P值>0.05,不能说这一届小班小朋友的身高<全国标准,只能说还不能认为这一届小班小朋友的身高>全国标准,因为有可能存在抽样误差,恰好这25个小朋友普遍都比较低,这并不能代表整体小班小朋友。
以上就是我对t分布的理解,想熟练掌握统计只学应用不懂一点原理是不行的,这会让人形成思维定势,毕竟有些数据并不像例题那么规范,应该结合其他统计知识去调整,懂一点原理也可以更好的帮助我们理解每一个结果背后的意义。
下篇我们将介绍t分布下的三种t检验方法,拜拜。
更多文章请关注公众号:SPSS-study,两边每天都会更新,公众号的会快一点。