17-假设检验之Z检验
利用观测数据判断总体是否服从正态分布的检验称为正态性检验(Z检验),它是统计检验中重要的一种拟合优度假设检验。
T检验和Z检验都是用于检验样本均值是否符合某个假设值(例如两个样本均值是否相等)。T检验用于小样本(<30),Z检验用于大样本(>=30)。
T检验更常用。因为使用Z检验需要知道总体的方差,然而在很多情况下这是难以知道的。另外,根据中心极限定理,总体服从正态分布的数据在小样本时呈现为t分布,而服从T分布的数据在样本较大时会渐近于正态分布,也就是无论样本大小,均可以使用T检验。但对于Z检验来说,它一定需要数据是正态分布的,小样本时服从T分布而不是正态,所以Z检验通常用在大样本时而不是小样本时,显然T检验的使用条件比Z检验宽松,可以完全替代Z检验。
1、直方图初判
画出直方图判断是否是我们熟悉的钟形。
x <- rnorm(1000, mean=0, sd=1)
df <- as.data.frame(x)
ggplot(df,aes(df$x)) +
geom_histogram(binwidth = 0.3 ,fill = "violetred",col = "white") +
labs(x="",y="",title = "正态分布直方图") +
theme(plot.title = element_text(hjust = 0.5))
正态分布钟形图
2、QQ图判断
通过把测试样本数据的分位数与已知分布相比较,从而来检验数据的分布情况。
QQ图是一种散点图,对应于正态分布的QQ图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图。
参考直线:四分之一分位点和四分之三分位点这两点确定,看散点是否落在这条线的附近。
x <- rnorm(1000, mean=0, sd=1)
y <- c(1:1000)
qqplot(y, x, xlab = "", ylab = "")
QQ图
3、K-S检验
ks.test(x,"pnorm")
One-sample Kolmogorov-Smirnov test
data: x
D = 0.026475, p-value = 0.4849
alternative hypothesis: two-sided
ks检验一般返回两个值:D和p值,其中D表示两个分布之间的最大距离,所以D越小,说明这两个分布(x与pnorm)的差距越小,分布也就越一致。
p值,可以理解为这个样本发生的可能性有多大,p-value = 0.4849 > 0.05,不拒绝原假设,即样本服从正态分布。
4、Shapiro检验
Shapiro-Wilk检验用来检验是否数据符合正态分布,类似于线性回归的方法一样,是检验其于回归曲线的残差。该方法推荐在样本量很小的时候使用,3≤n≤50。
smp <- sample(x, 20)
shapiro.test(smp)
Shapiro-Wilk normality test
data: smp
W = 0.94759, p-value = 0.332
当p值小于某个显著性水平α(比如0.05)时,则认为样本不是来自正态分布的总体,否则则承认样本来自正态分布的总体。
W = 0.94759 ≈ 1, p-value = 0.332 > 0.05,说明样本符合正态分布。