学习笔记 | 还记得大明湖畔的列联表检验吗?
©统计炖鸡汤
@Stella Gan
摘要
2021年考研初试中,某校432试卷考察了相对冷门的列联表检验.具体题目如下(答案见附录):
S也有幸参与了这场初试,现在回忆起来,当时并没有使用列联表检验(因为在复习过程中没有作为重点关注,对它的印象极其模糊).我使用的是两样本比率p检验,两者的结论是相同的.虽然解决这道题有多种方法,但这里我们主要看一下列联表检验.这种检验通常用于分类数据上.两个总体比例之差的检验采取两样本比率p检验,而对于更多的总体比例进行比较,则需要采取检验.[1]
对分类数据进行分析的统计方法主要是利用分布(检验,利用统计量进行统计显著性检验的重要内容之一).其应用主要表现在两个方面:拟合优度检验和独立性检验(列联表是进行独立性检验的重要工具).[1]
1 列联表的定义
图1 r×c列联表按两个或多个特征分类的频数数据,这种数据通常称为交叉分类数据
,他们一般都是以表格的形式给出,称为列联表
(contingency table).列联表分析在应用统计,特别是在医学、生物学及社会科学中,有着广泛的应用.[2]
2 独立性检验
那么,列联表分析的基本问题是什么呢❓即考察各属性之间有无关联,即判别两属性是否独立[2].独立性检验
就是分析列联表中行变量和列变量是否相互独立[1].例如当考察色盲与其性别是否有关、不同民族的投资偏好是否一致等时,都可以采用列联表分析.
3 列联表分析求解
3.1 基本模型
那么如何求解呢❓此前,我们学习了诸不完全已知时的分拟合检验
.这里,我们将图一的列联表转化为图二所示的二维离散分布表,即可用分布拟合检验的相关结论.[2]拟合优度检验是对一个分类变量的检验,而列联表是对两个分类变量的分析,称为独立性检验.[1]
3.2 模型求解
在假设检验中,除了我们熟悉的参数检验还有非参数检验.对假设“总体服从某一分布”做出的假设检验问题就是一个非参数假设检验.
上面谈到的关于分布的假设检验采用什么方法呢❓首先,我们给出分布的检验模型.
图3 分布的检验
这个分布检验问题就是检验观测数据是否与理论分布相符合.当样本量较大时,这类问题可以用拟合优度检验
(goodness of fit test)来解决.(S:补充一下.拟合优度检验是K·皮尔逊最早提出的一个检验方法)[2]
这里,我们来回顾下总体X为离散分布时的分布的拟合优度检验.在对离散分布中个别参数做了估计后离散分布的拟合检验与分类数据的检验问题就完全一样了.[2]
因此,图2所示的列联表基本模型的求解方式如下:
3.3 模型解释
图5 皮尔逊卡方拟合优度拟合优度为什么叫“拟合优度”呢❓从字面意思上看就是衡量拟合到底有多么优秀.上述给出的拟合优度检验统计量的分子是实际观测数与期望观测数的偏差的平方,而分母可以看作是对分子的规范化.该统计量提供了实际观测数与期望观测数接近程度的一个度量,即理论个数和实际个数之间的差异.当原假设为真时,它的值应该比较小.[2]
4 列联表中的相关测量
根据独立性检验的结果,如果变量相互独立,说明它们之间没有联系;反之,则认为它们之间存在联系.接下来,如果存在联系,那它们之间的相关程度有多大呢,我们怎么对不同列联表变量之间的相关程度进行比较呢❓首先,该比较有如下两点要求:1、在对不同列联表变量之间的相关程度进行比较时,不同列联表中行与行、列与列的个数要相同;2、采用同一种系数.这样的系数值才有可比性.[1]
我们把列联表中分类数据之间的相关称为品质相关
.这里展示常用的三种品质相关系数.[1]
4.1 φ相关系数
缺点:由于第一种φ相关系数在列联表的行或列数大于2时,系数或随着行列的变大而变大,且没有上限.这时用φ系数测定两个变量的相关系数就不够清楚.[1]
4.2 c系数
c系数解决了第一种系数无上限的缺点.
缺点:根据不同的行和列计算的列联系数不便于比较,除非两个列联表中行数和列数一致.[1]
4.3 V相关系数
V相关系数解决了φ系数无上限、c系数小于1的情况.[1]
附录
1 两样本比率p检验
对于两个总体比例之差的检验,分两种情况讨论。
设两个总体服从二项分布,这两个总体中具有某种特征的单位数的比例分别为和,但都未知,可以用样本比例和代替。
1.1 假设两个总体比例相等的假设
1.2 假设两个总体比例之差不为零的假设
2 摘要题目解答
在对列联表分析做了一番回顾后,摘要里面的题目就信手拈来了。友情发送该题参考答案。