统计之美:如何优雅理解卡方分布与卡方检验之精髓所在?(重磅)

2024-08-23  本文已影响0人  实验诊断与临床

今天吃到味道极好的一道菜,你会不会想这个菜是怎么炒出来的,为啥这么好吃?


卡方分布是统计学中最重要的分布之一,卡方检验是以卡方分布为基础的一种假设检验方法。

   一、χ²分布   

χ2分布是由阿贝(Abbe)于1863年提出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson) 分别于1875年和1900年推导出来。

若n个相互独立的随机变量ξ₁,ξ₂,...,ξn均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成新的随机变量X,变量X的分布规律称为卡方分布(chi-square distribution),用χ²表示。

χ²分布是一种只由自由度ν一个参数决定的连续型分布,其概率密度函数如下:

概率密度曲线如图1:

图1 概率密度函数曲线(k为自由度)

图2 

函数我们是记不住的,根本记不住!!!

但定义很好记,一句话就是“正态变量平方和的分布就是卡方分布”,并且由图1和图2可知,χ²分布为一簇单峰正态分布曲线,当自由度ν≤2时,曲线呈L型;随着ν的增加,曲线逐渐趋于对称;当自由度ν→∞时,分布趋于正态分布。

此外卡方分布还有一些特点,平均值E(χ2)=ν,方差为:D(χ2)=2ν,概率分布曲线下面积为1。

所以,可以说卡方分布其实源自于正态分布。

   二、由卡方分布过渡到方差抽样分布   

不知道你有没有发现,最重要的问题还是来了。

上面讲的是n个独立的随机变量,但实际工作中,我们往往要分析的是来自总体的某样本,怎么办呢?

样本方差(s2)是可以根据样本计算,n为样本数,(n-1)*样本方差除以总体方差(σ2),就构造了一个新的变量Q,这个新的变量Q服从自由度为n-1的卡方分布。

新变量Q:

有点不好理解吧,为啥这个新的变量服从卡方分布呢?

其一,卡方分布是正态变量平方和的分布,这里总体方差已知,当成一个固定值,那么变量就是样本方差,样本方差就是正态变量的平方和除以(n-1)呀。

其二,然后,因为计算样本方差的时候除了n-1,那么最终构建的新变量乘以n-1,这样其实就转化为了正态变量的平方和了,是服从卡方分布的。

其三,为什么这里的自由度是n-1,而不是n。究其原因在于样本数为n,意味着只有 n-1 个是独立取值的,剩余一个为平均值。

所以呀,可以使用卡方分布来构造总体方差的置信区间。

在1-α置信水平下:

所以可得总体方差置信区间为:

三、由卡方分布过渡到卡方检验

同样的道理,在实际应用中,可用χ²分布近似描述具有某种属性的实际频数Ai与理论频数Ti之间的抽样误差,表示观察值与理论值之问的偏离程度。

所以有了上述公式,并且服从卡方分布。

   四、χ²检验的基本思想   

举例:某研究者想比较成年男性和女性高血压发生率是否有差异,随机抽取200名成年男性和185名成年女性,其中男性高血压患者43名,女性高血压20名,想知道这个差异是抽样误差所致还是确实如此,该问题可用卡方检验来回答。

H0:男性组和女性组总体分布相同,π1=π2=π

H1:男性组和女性组总体分布不同,π1≠π2

上述为2×2列联表,基于H0成立,则两组的总体概率应该近似等于合并估计的概率,即π≈m1/n。

这个能否理解?

按照公式:

第一步,我们先得计算理论频数,T11=n1×π=n1×m1/n=200×63/385=33

则剩余几个理论频数分别为:T12=200-33=167,T21=63-33=30,T22=185-30=155。这就是基于H0假设成立,得到的理论分布情况,此时的四格表为:

括号内红色为理论频数,然后计算卡方值:

这是基于四格表基本公式计算出来的,还可以利用四格表专用公式计算:

得出χ²=7.608,自由度ν=1,查卡方分布表得知:

3.841<7.608,χ²值越大,概率越小。

所以,在α=0.05检验水准下,拒绝H0,差别有统计学意义,可认为成年男性和女性的高血压发生率不同。


统计学和数学之美,体现在它们对现实世界深刻而独特的理解方式上,它们不仅提供了解决问题的工具和方法,还揭示了隐藏在数据背后的规律和模式,让人们能够以更精准、更量化的方式来认识和解释世界。

上一篇 下一篇

猜你喜欢

热点阅读