统计学知识科普R炒面机器学习

14-假设检验之卡方检验

2019-12-18  本文已影响0人  wonphen

1、大数定律

当样本数量足够大时,这些样本的均值无限接近总体的期望。

2、中心极限定理

从一个任意总体(由大数定理保障)中抽取容量为n的样本,当n充分大时(n>=30),样本均值的抽样分布近似服从正态分布。

3、参数检验与非参数检验

参数检验:假定数据服从某分布(一般为正态分布),通过样本参数的估计量对总体参数进行检验,比如t检验、u检验、方差分析。
非参数检验:不需要假定总体分布形式,直接对数据的分布进行检验。由于不涉及总体分布的参数,故名「非参数」检验。比如,卡方检验。
1、参数检验集中趋势的衡量为均值,而非参数检验为中位数。
2、参数检验需要关于总体分布的信息;非参数检验不需要关于总体的信息。
简而言之,若可以假定样本数据来自具有特定分布的总体,则使用参数检验。如果不能对数据集作出必要的假设,则使用非参数检验。

4、卡方检验

卡方分布
χ2检验主要是用来检验分类数据的频数问题的,即检验各类实际观察的频数是否显著不同于假设的期望频数。使用χ2检验需要满足以下的假定:
1、每次的试验是独立进行的;如果试验有k个类别,那么每次试验的结果是k个类别中的某一个;(假设多个变量之间不相关)
2、每次试验时每个类别发生的频率都保持不变。(根据假设计算得出每种情况的理论值,根据理论值与实际值的差别,计算得到卡方值及自由度)
chisq.test(x, y = NULL, correct = TRUE,
           p = rep(1/length(x), length(x)), rescale.p = FALSE,
           simulate.p.value = FALSE, B = 2000)
# x : 进行检验的数据,可以是vector或matrix。
# y : 进行检验的数据,当x是matrix时,y会被忽略,x和y可同时为factor。
# correct : 该逻辑参数控制2x2列联表的独立性检验时,是否进行连续性矫正。
# p : 为输入的概率值,应与x变量的长度一致。注意p不可以为负数。
# rescale.p : 该逻辑参数控制是否将p的和重新调整为1。
# simulate.p.value : 控制是否以蒙特卡洛采样的方法模拟p值。
# B : 为蒙特卡洛采样的重复次数。

检验总体是否服从某分布

例1:为研究电话总机在某段时间内接到的呼叫次数是否服从Poisson分布,现收集了42个数据,如下表所示,通过对数据的分析,问能否确认在某段时间内接到的呼叫次数服从Poisson分布(α = 0.1)?

接到呼叫次数 0 1 2 3 4 5 6
出现的频率 7 10 12 8 3 2 0

解:因为皮尔森卡方拟合优度检验要求分组后每组的频数至少要大于等于5,而后三组中出现的频率分别为3,2,0,均小于5,解决方法是将后三组合成一组,此时的频数为5,满足要求

x <- c(7, 10, 12, 8, 5)
chisq.test(x, p = rep(1/length(x), length(x)),  B = 42)

> Chi-squared test for given probabilities
> data:  x
> X-squared = 3.4762, df = 4, p-value = 0.4815

可见P值>>0.1,可以确认在某段时间之内接到的电话次数服从Poisson 分布。

列联表中行与列的独立性检验

例2:为了研究吸烟是否与患肺癌相关,对63位肺癌患者及43名非肺癌患者(对照组)调查了其中的吸烟人数,得到2x2列联表,如下表所示

* 患肺癌 未患肺癌 合计
吸烟 60 32 92
不吸烟 3 11 14
合计 63 43 106
#进行Pearson卡方检验
x <- c(60, 3, 32, 11)
dim(x) <- c(2,2)
chisq.test(x, correct = F)

> Pearson's Chi-squared test
> data:  x
> X-squared = 9.6636, df = 1, p-value = 0.00188

P值<0.05,拒绝原假设,认为吸烟与患肺癌相关。

上一篇下一篇

猜你喜欢

热点阅读