《Discovering Statistics Using R》

2019-12-07  本文已影响0人  新云旧雨

笔记说明

读《Discovering Statistics Using R》第五章 Exploring assumptions做的笔记。本笔记对应章节为5.5.1,主要介绍正态性假设及如何用图示法考察正态性假设。

数据来源:https://studysites.uk.sagepub.com/dsur/study/articles.htm

统计分析中4个常见的假设

不同的统计模型有不同的假设(assumptions),这些假设为真是这些模型能够准确反映实际的前提。
基于正态分布的大多数参数检验有4个基本假设:

正态性假设

正态性假设并不是要求数据符合正态分布的,而是要求抽样分布(所使用的统计方法对应的统计量的分布)符合正态分布。问题在于我们无法直接观测到抽样分布的样子。
由中心极限定理我们知道:

在回归分析中,正态性假设是指模型的误差符合正态分布。
常用的考察正态性假设的方法有:图示法、计算偏度系数峰度系数、正态性检验。

图示法-直方图

可以通过作直方图来观察数据分布的形状从而判断数据是否近似服从正态分布。
示例数据:一个生物学家怀疑音乐节会对人的健康产生影响,他找了810个音乐会观众,收集了音乐节三天他们的卫生情况,卫生情况得分0-4.我们使用该数据的去除极端值后的版本DownloadFestival(No Outlier).dat

library(rio)
library(ggplot2)

# 数据导入
dlf <- import("data/DownloadFestival.dat")
head(dlf)
##   ticknumb gender day1 day2 day3
## 1     2111   Male 2.64 1.35 1.61
## 2     2229 Female 0.97 1.41 0.29
## 3     2338   Male 0.84   NA   NA
## 4     2384 Female 3.03   NA   NA
## 5     2401 Female 0.88 0.08   NA
## 6     2405   Male 0.85   NA   NA
hist.day1 <- ggplot(dlf, aes(day1)) + 
  geom_histogram(aes(y = ..density..), colour = "black", fill = "white") +
  labs(x = "Hygiene score on day 1", y = "Density")+ 
  stat_function(fun = dnorm, 
               args = list(mean = mean(dlf$day1,na.rm = TRUE), 
                             sd = sd(dlf$day1, na.rm = TRUE)), 
               colour = "black", size = 1)

ggplot(dlf, aes(day1))指定对dlf数据的day1变量作图。
geom_histogram(aes(y=..density..), colour = “black”, fill=”white”)做直方图,设定线颜色为黑色,填充颜色为白色,注意我们指定画密度直方图而不是频率直方图。因为我们之后还想画正态分布曲线来进行比对。
labs(x = “Hygiene score on day 1”, y = “Density”)设定横轴纵轴的标签。
stat_function()中用dnorm()函数绘制出以样本数据均值为均值,样本数据标准差为标准差的正态曲线。

hist.day1

图示法-Q-Q图

还可以用Q-Q图(quantile-quantile图)来检查数据分布是否近似正态分布。分位数(quantile)就是把数据分为特定等份得数据值,比如二分位数(即中位数)就是把数据二等分的数值点。Q-Q图中以样本数据的分位数作为纵坐标,横坐标是假设数据服从正态分布情况下计算出的各数据点的分位数。如果数据近似服从正态分布,则 Q-Q图上的点应该近似排列为一个一三象限的对角线。

# Q-Q图
qqplot.day1 <- qplot(sample = dlf$day1) +
  labs(x = "theoretical quantiles", y = "data quantiles")
qqplot.day1
qqplot.day1

从直方图和Q-Q图的结果看出day1数据近服从正态分布
用图示法考察数据正态性的缺点是比较主观。

上一篇 下一篇

猜你喜欢

热点阅读