关于缺失值的二三事
现实世界中的数据异常杂乱,属性值缺失的情况经常发生甚至是不可避免的。造成数据缺失的原因是多方面的,数据值缺失是处理数据过程中经常会遇到的问题之一。缺失值比例很小时,可直接对缺失记录进行舍弃或手工处理,然而,在大多数实际情况下,缺失值的比重往往很大,手工处理就显得非常低效,舍弃也会造成大量信息丢失,使不完全观测数据与完全观测数据间产生系统差异,对分析结论的准确性影响较大。
缺失数据原因
1.信息暂时无法获取
2.信息是被遗漏的
3.某个或某些属性是不可用的
4.某些信息(被认为)是不重要的
5.获取这些信息的代价太大
6.系统实时性能要求较高,即要求得到这些信息前迅速做出判断或决策
缺失的类型
在对缺失数据进行处理前,了解数据缺失的机制和形式是十分必要的。数据集中不含缺失值的变量称为完全变量,数据集中含有缺失值的变量称为不完全变量。从缺失的分布来看缺失可以分为完全随机缺失,随机缺失和完全非随机缺失。
完全随机缺失(missing completely at random,MCAR):所缺失的数据发生的概率既与已观察到的数据无关,也与未观察到的数据无关。
随机缺失(missing at random,MAR):假设缺失数据发生的概率与所观察到的变量是有关的,而与未观察到的数据的特征是无关的
MCAR与MAR均被称为是可忽略的缺失形式。
非随机缺失(missing not at random,MNAR):不可忽略的缺失(non–ignorable missing ,NIM),如果不完全变量中数据的缺失既依赖于完全变量(观察到的数据)又依赖于不完全变量本身,这种缺失即为不可忽略的缺失。
对于随机缺失和非随机缺失,删除记录是不合适的,随机缺失可以通过已知变量对缺失值进行估计;而非随机缺失还没有很好的解决办法。
缺失值处理方法的分析与比较
处理不完整数据集的方法主要有以下:删除存在缺失值的记录、可能值插补缺失值、保留缺失数据不予处理、特殊值填充(如“unknown填充”,不推荐)。
关于可能值插补缺失值
单一插补:
是以估算为基础的方法,是在缺失数据被替代后,对新合成的数据进行相应的统计分析。
1、均值插补:
a.缺失值是数值型的:平均值来填充该缺失的变量值
b.缺失值是非数值型的,众数来补齐该缺失的变量值。
均值替换法也是一种简便、快速的缺失数据处理方法。使用均值替换法插补缺失数据,对该变量的均值估计不会产生影响。但这种方法是建立在完全随机缺失(MCAR)的假设之上,且会造成变量的方差和标准差变小。
2、热卡填充法:
a.在数据库中找到一个与最之相似的对象,然后用这个相似对象的值来进行填充。
b.不同的问题可能会选用不同的标准来对相似进行判定。
c.变量Y与变量X相似,把所有个案按Y的取值大小进行排序。那么变量X的缺失值就可以用排在缺失值前的那个个案的数据来代替。
与均值替换法相比,利用热卡填充法插补数据后,其变量的标准差与插补前比较接近。但在回归方程中,使用热卡填充法容易使得回归方程的误差增大,参数估计变得不稳定,且这种方法使用不便,较耗时。
3、回归插补:
a.回归插补首先要选择若干个预测缺失值的自变量,然后建立回归方程估计缺失值,即用缺失数据的条件期望值对缺失值进行替换。
该方法亦有诸多问题:
一、容易忽视随机误差,低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重。
二、研究者必须假设存在缺失值所在的变量与其他变量存在线性关系,很多时候这种关系是不存在的。
4、随机回归插补:
a.在回归插补值的基础上再加上残差项。
b.残差项的分布可以包括正态分布,也可以是其他的非正态分布。
单一插补的缺点:无论采用何种方法,都存在扭曲样本分布的问题(如均值插补会降低变量之间的相关关系,回归插补会人为地加大变量之间的相关关系),尽管由于随机回归插补引入随机误差项,能够缓解这一问题,但是随机误差项的确定是比较困难的。
多重插补:
多重插补建立在贝叶斯理论基础之上,基于EM算法(最大期望算法)来实现对缺失数据的处理。
a.为每个空值产生一套可能的插补值,这些值反映了无响应模型的不确定性;每个值都可以被用来插补数据集中的缺失值,产生若干个完整数据集合。
b.每个插补数据集合都用针对完整数据集的统计方法进行统计分析。
c.对来自各个插补数据集的结果,根据评分函数进行选择,产生最终的插补值。
多重插补的优点:
1、多重插补过程产生多个中间插补值,可以利用插补值之间的变异反映无回答的不确定性,包括无回答原因已知情况下抽样的变异性和无回答原因不确定造成的变异性。
2、多重插补通过模拟缺失数据的分布,较好地保持变量之间的关系。
3、多值插补能给出衡量估计结果不确定性的大量信息,单一插补给出的估计结果则较为简单。