R小姐：数据探索之数据质量分析

2018-11-24 本文已影响0人鲨瓜

广招兵马并非遣之攻城拔寨，必当择优汰劣，去其糟粕。

如此军中尽是热血男儿，便攻无不克，战无不胜。

数据质量分析中的缺失值便是如此，或删除、或替换、或插补。

缺失值分类

统计学中将缺失数据分为三类：

1.完全随机缺失

某变量的缺失数据与其他任何观测或未观测变量都不相关。

2.随机缺失

某变量的缺失数据与其他观测变量有关，与自己未观测值不相关。

3.非随机缺失

不属于上述两种情况的数据便为非随机缺失。

总览缺失值

#与缺失值处理相关的两个包
install.packages('VIM')
install.packages('mice')
library('VIM')
library('mice')

#所有缺失值的个数
sum(is.na(sleep))
#所有缺失值占的比例
mean(is.na(sleep))
#以行为单位，不完整样本的个数
sum(!complete.cases(sleep))
#不完整样本的比例
mean(!complete.cases(sleep))

结果：

sum(is.na(sleep))

[1] 38

所有缺失值占的比例

mean(is.na(sleep))

[1] 0.06129032

以行为单位，不完整样本的个数

sum(!complete.cases(sleep))

[1] 20

不完整样本的比例

mean(!complete.cases(sleep))

[1] 0.3225806

列表显示缺失值

md.pattern(sleep) 真的是一行代码

image

图表显示缺失值

#计数列图
aggr(sleep,prop=FALSE,numbers=TRUE,col=c('cornsilk','grey80'))

image

#显示缺失值的比例
aggr(sleep,prop=TRUE,numbers=TRUE,col=c('cornsilk','grey80'))

image

识别缺失值的方法便是如此，下期介绍处理缺失值的方法。

下期再见。

你可能还想看

等你很久啦，长按加入古同社区

image

所有缺失值占的比例