此地古同R语言

R小姐:数据探索之数据质量分析

2018-11-24  本文已影响0人  鲨瓜

广招兵马并非遣之攻城拔寨,必当择优汰劣,去其糟粕。

如此军中尽是热血男儿,便攻无不克,战无不胜。

数据质量分析中的缺失值便是如此,或删除、或替换、或插补。

1

缺失值分类

统计学中将缺失数据分为三类:

1.完全随机缺失

某变量的缺失数据与其他任何观测或未观测变量都不相关。

2.随机缺失

某变量的缺失数据与其他观测变量有关,与自己未观测值不相关。

3.非随机缺失

不属于上述两种情况的数据便为非随机缺失。

2

总览缺失值

#与缺失值处理相关的两个包
install.packages('VIM')
install.packages('mice')
library('VIM')
library('mice')
#所有缺失值的个数
sum(is.na(sleep))
#所有缺失值占的比例
mean(is.na(sleep))
#以行为单位,不完整样本的个数
sum(!complete.cases(sleep))
#不完整样本的比例
mean(!complete.cases(sleep))

结果:

sum(is.na(sleep))

[1] 38

所有缺失值占的比例

mean(is.na(sleep))

[1] 0.06129032

以行为单位,不完整样本的个数

sum(!complete.cases(sleep))

[1] 20

不完整样本的比例

mean(!complete.cases(sleep))

[1] 0.3225806

3

列表显示缺失值

md.pattern(sleep) 真的是一行代码

image

4

图表显示缺失值

#计数列图
aggr(sleep,prop=FALSE,numbers=TRUE,col=c('cornsilk','grey80'))
image
#显示缺失值的比例
aggr(sleep,prop=TRUE,numbers=TRUE,col=c('cornsilk','grey80'))
image

识别缺失值的方法便是如此,下期介绍处理缺失值的方法。

下期再见。

你可能还想看

等你很久啦,长按加入古同社区

image
上一篇下一篇

猜你喜欢

热点阅读