OLD:用于单变量和多变量异常值检测的SPSS宏
目录
0.简介
1.下载与(Windows)安装
2.使用
3.引用
4.参考文献
0.简介
包含了4中用于单变量异常值检测的方法,包括偏离均值的标准差(Z分数),极端观测值的百分比,箱型图和绝对中位差(median absolute deviation,MAD)。也含有2种多变量异常值的检测方法,包括马氏距离和两步聚类(SPSS官方方法的简化版)。
1.下载与(Windows)安装
读者可在公众号左下角通过“资料课程→课件&工具&数据→各类自制工具”进入下载。对SPSS单击鼠标右键,选择“以管理员身份运行”。
通过“扩展”进入“安装定制对话框”
选择安装包(后缀为“.spd”)。
安装成功后,即会显示该对话框的位置。
该对话框在“分析→描述统计”下。
2.使用
打开数据后才可进入对话框。以下列数据为例。
通过“分析→描述→OLD v1.0”进入对话框。首选选入目标变量,然后进入“单变量”子对话框,勾选箱型图和绝对中位差方法,点击“确定”完成操作。
对于箱型图的选择,将会照常输出SPSS的箱型图结果。
此外,本宏最大的好处在于,会为大多数方法在数据集中提供判断结果变量。例如,此处Q1的箱型图结果就产生了相应的变量,并为这个变量的值提供了标签,以方便使用者进行快速的选择。
在单变量的方法中,推荐使用绝对中位差方法(median absolute deviation,MAD)。使用MAD法进行异常值检测的主要理由有两个(Leys等,2013):第一,MAD法对样本量不敏感,即使是在8个样本的数据中依然可行;第二,MAD法对异常值不敏感,不会因为特殊的异常值而导致估计的严重偏差 。
仍然使用本次数据,再次进入对话框,取消单变量选项后,选择勾选多变量中的两种方法,点击“确定”完成操作。
对于SPSS官方提供的两步聚类方法,将会在output中输出相应的结果,我们只需要找到“异常个案索引列表”,其中便会提供异常个案的“Outlier_id”值,这在数据集中会有对应的变量可以查询。
对于马氏距离方法,除了提供正常的马氏距离外,还提供了显著性检验结果。使用者可以通过马氏距离排序以判断哪些个案“更异常”(马氏距离越大越偏离群体),也可以通过“MD2_Outliers”的结果判断。后者提供了3个梯度的显著性结果,显著性越强,则该个案越偏离群体。
3.引用
英文:
Zongman Qiu. (2020). OLD:a SPSS macro for univariate and multivariate outliers detection. Retrieved from https://www.researchgate.net/publication/344335637_OLDa_SPSS_macro_for_univariate_and_multivariate_outliers_detection
中文:
邱宗满. (2020). OLD:用于单变量和多变量异常值检测的SPSS宏. https://www.researchgate.net/publication/344335637_OLDa_SPSS_macro_for_univariate_and_multivariate_outliers_detection
4.参考文献
Leys, C., Ley, C., Klein, O., Bernard, P.,& Licata, L. (2013). Detecting outliers: Do not use standard deviationaround the mean, use absolute deviation around the median. Journal ofExperimental Social Psychology, 49(4), 764-766.