统计学知识科普R炒面机器学习

17-假设检验之Z检验

2019-12-19  本文已影响0人  wonphen

利用观测数据判断总体是否服从正态分布的检验称为正态性检验(Z检验),它是统计检验中重要的一种拟合优度假设检验。
T检验和Z检验都是用于检验样本均值是否符合某个假设值(例如两个样本均值是否相等)。T检验用于小样本(<30),Z检验用于大样本(>=30)。
T检验更常用。因为使用Z检验需要知道总体的方差,然而在很多情况下这是难以知道的。另外,根据中心极限定理,总体服从正态分布的数据在小样本时呈现为t分布,而服从T分布的数据在样本较大时会渐近于正态分布,也就是无论样本大小,均可以使用T检验。但对于Z检验来说,它一定需要数据是正态分布的,小样本时服从T分布而不是正态,所以Z检验通常用在大样本时而不是小样本时,显然T检验的使用条件比Z检验宽松,可以完全替代Z检验。

1、直方图初判

画出直方图判断是否是我们熟悉的钟形。

x <- rnorm(1000, mean=0, sd=1)
df <- as.data.frame(x)
ggplot(df,aes(df$x)) +
  geom_histogram(binwidth = 0.3 ,fill = "violetred",col = "white") +
  labs(x="",y="",title = "正态分布直方图") +
  theme(plot.title = element_text(hjust = 0.5))
正态分布钟形图

2、QQ图判断

通过把测试样本数据的分位数与已知分布相比较,从而来检验数据的分布情况。
QQ图是一种散点图,对应于正态分布的QQ图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图。
参考直线:四分之一分位点四分之三分位点这两点确定,看散点是否落在这条线的附近。

x <- rnorm(1000, mean=0, sd=1)
y <- c(1:1000)  
qqplot(y, x, xlab = "", ylab = "")
QQ图

3、K-S检验

ks.test(x,"pnorm")

One-sample Kolmogorov-Smirnov test

data:  x
D = 0.026475, p-value = 0.4849
alternative hypothesis: two-sided

ks检验一般返回两个值:D和p值,其中D表示两个分布之间的最大距离,所以D越小,说明这两个分布(x与pnorm)的差距越小,分布也就越一致。
p值,可以理解为这个样本发生的可能性有多大,p-value = 0.4849 > 0.05,不拒绝原假设,即样本服从正态分布。

4、Shapiro检验

Shapiro-Wilk检验用来检验是否数据符合正态分布,类似于线性回归的方法一样,是检验其于回归曲线的残差。该方法推荐在样本量很小的时候使用,3≤n≤50。

smp <- sample(x, 20)
shapiro.test(smp)

Shapiro-Wilk normality test

data:  smp
W = 0.94759, p-value = 0.332

当p值小于某个显著性水平α(比如0.05)时,则认为样本不是来自正态分布的总体,否则则承认样本来自正态分布的总体。
W = 0.94759 ≈ 1, p-value = 0.332 > 0.05,说明样本符合正态分布。

上一篇下一篇

猜你喜欢

热点阅读