统计之美：如何优雅理解卡方分布与卡方检验之精髓所在？(重磅）

2024-08-23 本文已影响0人实验诊断与临床

今天吃到味道极好的一道菜，你会不会想这个菜是怎么炒出来的，为啥这么好吃？

卡方分布是统计学中最重要的分布之一，卡方检验是以卡方分布为基础的一种假设检验方法。

一、χ²分布

χ2分布是由阿贝(Abbe)于1863年提出，后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson) 分别于1875年和1900年推导出来。

若n个相互独立的随机变量ξ₁，ξ₂，...，ξn均服从标准正态分布，则这n个服从标准正态分布的随机变量的平方和构成新的随机变量X，变量X的分布规律称为卡方分布(chi-square distribution)，用χ²表示。

χ²分布是一种只由自由度ν一个参数决定的连续型分布，其概率密度函数如下：

概率密度曲线如图1：

图1 概率密度函数曲线（k为自由度）

图2

函数我们是记不住的，根本记不住！！！

但定义很好记，一句话就是“正态变量平方和的分布就是卡方分布”，并且由图1和图2可知，χ²分布为一簇单峰正态分布曲线，当自由度ν≤2时，曲线呈L型；随着ν的增加，曲线逐渐趋于对称；当自由度ν→∞时，分布趋于正态分布。

此外卡方分布还有一些特点，平均值E(χ2)=ν，方差为：D(χ2)=2ν，概率分布曲线下面积为1。

所以，可以说卡方分布其实源自于正态分布。

二、由卡方分布过渡到方差抽样分布

不知道你有没有发现，最重要的问题还是来了。

上面讲的是n个独立的随机变量，但实际工作中，我们往往要分析的是来自总体的某样本，怎么办呢？

样本方差（s2)是可以根据样本计算，n为样本数，(n-1)*样本方差除以总体方差(σ2)，就构造了一个新的变量Q，这个新的变量Q服从自由度为n-1的卡方分布。

新变量Q：

有点不好理解吧，为啥这个新的变量服从卡方分布呢？

其一，卡方分布是正态变量平方和的分布，这里总体方差已知，当成一个固定值，那么变量就是样本方差，样本方差就是正态变量的平方和除以（n-1)呀。

其二，然后，因为计算样本方差的时候除了n-1，那么最终构建的新变量乘以n-1，这样其实就转化为了正态变量的平方和了，是服从卡方分布的。

其三，为什么这里的自由度是n-1，而不是n。究其原因在于样本数为n，意味着只有 n-1 个是独立取值的，剩余一个为平均值。

所以呀，可以使用卡方分布来构造总体方差的置信区间。

在1-α置信水平下：

所以可得总体方差置信区间为：

三、由卡方分布过渡到卡方检验

同样的道理，在实际应用中，可用χ²分布近似描述具有某种属性的实际频数Ai与理论频数Ti之间的抽样误差，表示观察值与理论值之问的偏离程度。

设Ai代表某个类别的观察频数，Ti代表基于零假设计算出的理论频数，Ai与Ti之差称为残差。
残差可以表示某一个类别观察值和理论值的偏离程度，但如果将残差简单相加以表示各类别观察频数与理论频数的差别，则有一定的不足之处。因为残差有正有负，相加后会彼此抵消，总和仍然为0，因此可以将残差平方后求和。
残差大小是一个相对的概念，相对于理论频数为10时，理论频数为20的残差非常大，但相对于期望频数为1000时20的残差就很小了。考虑到这一点，又将残差平方除以理论频数再求和，以估计观察频数与理论频数的差别。

所以有了上述公式，并且服从卡方分布。

四、χ²检验的基本思想

举例：某研究者想比较成年男性和女性高血压发生率是否有差异，随机抽取200名成年男性和185名成年女性，其中男性高血压患者43名，女性高血压20名，想知道这个差异是抽样误差所致还是确实如此，该问题可用卡方检验来回答。

H0：男性组和女性组总体分布相同，π1=π2=π

H1：男性组和女性组总体分布不同，π1≠π2

上述为2×2列联表，基于H0成立，则两组的总体概率应该近似等于合并估计的概率，即π≈m1/n。

这个能否理解？

按照公式：

第一步，我们先得计算理论频数，T11=n1×π=n1×m1/n=200×63/385=33

则剩余几个理论频数分别为：T12=200-33=167，T21=63-33=30，T22=185-30=155。这就是基于H0假设成立，得到的理论分布情况，此时的四格表为：

括号内红色为理论频数，然后计算卡方值：

这是基于四格表基本公式计算出来的，还可以利用四格表专用公式计算：

得出χ²=7.608，自由度ν=1，查卡方分布表得知：

3.841<7.608，χ²值越大，概率越小。

所以，在α=0.05检验水准下，拒绝H0，差别有统计学意义，可认为成年男性和女性的高血压发生率不同。

统计学和数学之美，体现在它们对现实世界深刻而独特的理解方式上，它们不仅提供了解决问题的工具和方法，还揭示了隐藏在数据背后的规律和模式，让人们能够以更精准、更量化的方式来认识和解释世界。

上一篇下一篇

猜你喜欢

热点阅读