疑问解答 | 数据质量异常该如何处理?
在使用SPSSAU进行分析时,有时会出现“数据质量异常”提示。这种情况会发生在很多分析方法上,但原因基本共通的。
以下3个问题是常见的通用性问题,多数“数据质量异常”情况就是由这些问题所致:
通用问题第一:异常的原因
1)绝对共线性
如果数据出现‘绝对共线性’,比如出现2个分析项之间出现相关系数值接近1(或接近1),即有完全的替代关系,但是却把2个分析项同时进行分析,则有可能出现异常现象。
2)基本没有相关
除此之外,如果说2项之间基本没有相关(相关系数接近0),但此2项同时在模型中出现,此时也很可能出现异常现象。当出现此类情况时,把相关系数接近1或0的项移出去,再次分析即可。
3)样本量太少
如果分析的样本量非常少,比如分析样本量仅10个,但模型中有20个分析项,这种情况很容易出现异常,因为样本量太少。如果样本量过少,首先需要查清楚原因,如果确实是样本量过少就需要加大样本,当然也可以从模型中移出一些项后分析尝试
第二:异常的检验
当出现数据异常时,通用有两种检查方法:
一是使用相关分析查看相关系数情况(把出现异常的模型中所有分析项都做相关分析),这种方法对应检测分析项中是否存在绝对共线性或基本没有相关性。
二是使用描述分析查看样本量,检查当前分析的样本量情况有多少,这种方法对应查看数据样本量是否过少(有可能数据有缺失,或者筛选等导致分析样本量非常少)。
第三:其它
如果数据做过虚拟哑变量设置,本应该留出一个参考项(即少放一项在模型中),但却把哑变量全部放到回归模型中,一般都会出现异常或者奇异矩阵等。
关于哑变量问题,大家可以参考这两篇文章:
“数据质量异常”情况都可先检查以上3个通用问题,大部分情况下即可解决。
除此之外,每个方法出现异常的原因也有所不同,下面会针对每个方法出现的原因进行说明。
验证性因子分析、结构方程模型
当出现质量异常时,首先排除通用问题,并进行处理。如果依旧出现数据质量异常,还有种原因导致:
1)CFA及SEM分析一般只针对量表题,请检查数据是否为量表题。
2)同一个因子的分析项之间相关关系过弱
除此之外,将同一个因子对应的项做相关分析,如果发现某两项之间的相关性过弱(比如相关系数小于0.2),把其中一项从模型中移除出去,再次进行分析即可。
3)MI调整过度
MI调整是指结合MI值对分析项之间建立协方差关系(即相关关系),比如MI值大于10时建立协方差关系,此过程为内部自动建模过程。有可能出现建立的协方差关系过多导致模型无法收敛拟合。此时建议把标准放宽尝试即可。
MI调整路径分析
当出现质量异常时,首先检查通用问题,并进行处理。如果依旧出现数据质量异常,还有种原因导致:
MI调整是指结合MI值对分析项之间建立协方差关系(即相关关系),比如MI值大于10时建立协方差关系,此过程为内部自动建模过程,其目的仅仅在于对模型进行优化。有可能出现建立的协方差关系过多导致模型无法收敛拟合。此时建议把标准放宽尝试即可。
二元Logit回归
当出现质量异常时,首先排除通用问题,并进行处理。如果依旧出现数据质量异常,还有种原因导致:
对因变量Y做频数分析,查看频数分布情况,如果出现某项的频数接近0个(比如仅2个),此类数据并不适合进行二元Logit回归,因为数据分布极其不均匀,建议改用其它方法。
有序Logit回归
当出现质量异常时,首先检查通用问题,并进行处理。如果依旧出现数据质量异常,还有种原因导致:
查看是否选中平行性检验,平行性检验对数据质量要求相对较高,有可能模型不收敛因此无法进行平行性检验,此时建议改用多分类Logit回归。
另外,当出现‘奇异矩阵’提示时,此类情况是由于严重共线性,即相关系数接近1所致;具体原因上很可能是样本量太少(比如仅10个样本但却有20个分析项),也或者虚拟哑变量问题设置不当所致。
多分类Logit回归
当出现质量异常时,首先检查通用问题,并进行处理。如果依旧出现数据质量异常,还有种原因导致:
对因变量Y做频数分析,查看频数分布情况,如果出现某项的频数接近0个(比如仅2个),因变量各项的分布严重不均匀导致模型不收敛出现异常,建议使用数据处理里面的数据编码,对组别进行合并,当然也可以筛选出分布较为均匀的组别后,再次进行分析。
另外,当出现‘奇异矩阵’提示时,此类情况是由于严重共线性,即相关系数接近1所致;具体原因上很可能是样本量太少(比如仅10个样本但却有20个分析项),也或者虚拟哑变量问题设置不当所致。
双因素方差、三因素方差、多因素方差、协方差
当出现质量异常时,首先检查通用问题,并进行处理。如果依旧出现数据质量异常,还有种原因导致:
查看自己的数据是否为实验或类实验数据正交设计数据等,通常情况下双因素,三因素,多因素方差分析都是针对实验或类实验,也或者正交设计数据等进行分析;因为此类数据会有非常强的‘平衡性’。其它的数据正常情况下是使用单因素方差(通用方法里面的方差)进行分析,重复做多次即可。
重复测量方差
当重复测量方差出现质量异常时,首先按照通用问题进行查看(即做相关分析,检查分析项之间是否有出现1,或者0),以及检查样本量是否过少(比如小于分析项的个数)等,并且进行处理后再次分析。
如果依旧出现数据质量异常,多数情况下是由于数据格式不对所致,SPSSAU支持long-format数据,具体可通过此页面(或对应的帮助手册)查看数据格式例子。
https://spssau.com/front/spssau/helps/otherdocuments/methodsdataformat.html
面板模型
当面板模型出现质量异常时,首先按照通用问题进行查看(即做相关分析,检查分析项之间是否有出现1,或者0),以及检查样本量是否过少(比如小于分析项的个数)等,并且进行处理后再次分析。
如果依旧出现数据质量异常,多数情况下是由于数据格式不对所致,具体可通过此页面(或对应的帮助手册)查看数据格式例子。
https://spssau.com/front/spssau/helps/otherdocuments/methodsdataformat.html
总结来说,分析前一定先确保自己的数据真实、可靠,这是最关键的。
出现“数据质量异常”的情况,先检查数据间的相关性及样本量是否符合分析需要。其次查看具体的分析方法,对应的解决办法。
以上就是本次分享的内容,更多干货内容登录SPSSAU查看。
END
/SPSSAU快速入门指南/