统计之美:如何优雅理解卡方分布与卡方检验之精髓所在?(重磅)
今天吃到味道极好的一道菜,你会不会想这个菜是怎么炒出来的,为啥这么好吃?
卡方分布是统计学中最重要的分布之一,卡方检验是以卡方分布为基础的一种假设检验方法。
一、χ²分布
χ2分布是由阿贝(Abbe)于1863年提出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson) 分别于1875年和1900年推导出来。
若n个相互独立的随机变量ξ₁,ξ₂,...,ξn均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成新的随机变量X,变量X的分布规律称为卡方分布(chi-square distribution),用χ²表示。
χ²分布是一种只由自由度ν一个参数决定的连续型分布,其概率密度函数如下:
概率密度曲线如图1:
图1 概率密度函数曲线(k为自由度)
图2
函数我们是记不住的,根本记不住!!!
但定义很好记,一句话就是“正态变量平方和的分布就是卡方分布”,并且由图1和图2可知,χ²分布为一簇单峰正态分布曲线,当自由度ν≤2时,曲线呈L型;随着ν的增加,曲线逐渐趋于对称;当自由度ν→∞时,分布趋于正态分布。
此外卡方分布还有一些特点,平均值E(χ2)=ν,方差为:D(χ2)=2ν,概率分布曲线下面积为1。
所以,可以说卡方分布其实源自于正态分布。
二、由卡方分布过渡到方差抽样分布
不知道你有没有发现,最重要的问题还是来了。
上面讲的是n个独立的随机变量,但实际工作中,我们往往要分析的是来自总体的某样本,怎么办呢?
样本方差(s2)是可以根据样本计算,n为样本数,(n-1)*样本方差除以总体方差(σ2),就构造了一个新的变量Q,这个新的变量Q服从自由度为n-1的卡方分布。
新变量Q:
有点不好理解吧,为啥这个新的变量服从卡方分布呢?
其一,卡方分布是正态变量平方和的分布,这里总体方差已知,当成一个固定值,那么变量就是样本方差,样本方差就是正态变量的平方和除以(n-1)呀。
其二,然后,因为计算样本方差的时候除了n-1,那么最终构建的新变量乘以n-1,这样其实就转化为了正态变量的平方和了,是服从卡方分布的。
其三,为什么这里的自由度是n-1,而不是n。究其原因在于样本数为n,意味着只有 n-1 个是独立取值的,剩余一个为平均值。
所以呀,可以使用卡方分布来构造总体方差的置信区间。
在1-α置信水平下:
所以可得总体方差置信区间为:
三、由卡方分布过渡到卡方检验
同样的道理,在实际应用中,可用χ²分布近似描述具有某种属性的实际频数Ai与理论频数Ti之间的抽样误差,表示观察值与理论值之问的偏离程度。
-
设Ai代表某个类别的观察频数,Ti代表基于零假设计算出的理论频数,Ai与Ti之差称为残差。
-
残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与理论频数的差别,则有一定的不足之处。因为残差有正有负,相加后会彼此抵消,总和仍然为0,因此可以将残差平方后求和。
-
残差大小是一个相对的概念,相对于理论频数为10时,理论频数为20的残差非常大,但相对于期望频数为1000时20的残差就很小了。考虑到这一点,又将残差平方除以理论频数再求和,以估计观察频数与理论频数的差别。
所以有了上述公式,并且服从卡方分布。
四、χ²检验的基本思想
举例:某研究者想比较成年男性和女性高血压发生率是否有差异,随机抽取200名成年男性和185名成年女性,其中男性高血压患者43名,女性高血压20名,想知道这个差异是抽样误差所致还是确实如此,该问题可用卡方检验来回答。
H0:男性组和女性组总体分布相同,π1=π2=π
H1:男性组和女性组总体分布不同,π1≠π2
上述为2×2列联表,基于H0成立,则两组的总体概率应该近似等于合并估计的概率,即π≈m1/n。
这个能否理解?
按照公式:
第一步,我们先得计算理论频数,T11=n1×π=n1×m1/n=200×63/385=33
则剩余几个理论频数分别为:T12=200-33=167,T21=63-33=30,T22=185-30=155。这就是基于H0假设成立,得到的理论分布情况,此时的四格表为:
括号内红色为理论频数,然后计算卡方值:
这是基于四格表基本公式计算出来的,还可以利用四格表专用公式计算:
得出χ²=7.608,自由度ν=1,查卡方分布表得知:
3.841<7.608,χ²值越大,概率越小。
所以,在α=0.05检验水准下,拒绝H0,差别有统计学意义,可认为成年男性和女性的高血压发生率不同。
统计学和数学之美,体现在它们对现实世界深刻而独特的理解方式上,它们不仅提供了解决问题的工具和方法,还揭示了隐藏在数据背后的规律和模式,让人们能够以更精准、更量化的方式来认识和解释世界。