缺失值
2017-06-17 本文已影响0人
巴拉巴拉_9515
夜夜夜夜
缺失值263个
数据集缺失情况
01、缺失值快速定位
格式:要定位的列[空缺的列]
> full$PassengerId[is.na(full$Fare)]
[1] 1044
> full$Name[is.na(full$Fare)]
[1] "Storey, Mr. Thomas"
缺失值快速定位
02、缺失值可视化
VIM包中提供了能可视化数据集中缺失值模式的函数:aggr函数
>a<-full$PassengerId[is.na(full$Age)]
>length(a)
[1] 263 #263个缺失值
#可视化
library(VIM)
aggr(full$Age,prop=FALSE,numbers=TRUE)
红色表示缺失值的情况,蓝色表示非缺失值的情况
缺失值263个
03、数据集缺失值
使用概率表示缺失状况
library(VIM)
aggr(full,prop=TRUE,numbers=TRUE)
红色表示缺失值的概率,有两个变量缺失值比较严重。
数据集缺失情况
检验一下
(1)survived变量缺失值有多少?
>a<-full$PassengerId[is.na(full$Survived)]
>length(a)
[1] 418 #418个缺失值
(2)age变量缺失值有多少?
>a<-full$PassengerId[is.na(full$Age)]
>length(a)
[1] 263 #263个缺失值
(3)Carbin变量是否真的没有缺失值?
>a<-full$PassengerId[is.na(full$Carbin)]
>length(a)
[1] 0