Outlier 预处理流程图

2017-11-08 本文已影响180人史春奇

我们在“一个奇异值的江湖 -- 经典统计观” 和 “一个奇异值的江湖 -- 机器学习观” 里面我们介绍了Outlier处理的基本的方法。我们在“R语言和表数据分析” 里介绍了一个数据分析的流程。根据8-2原则，我们知道， 80%的时间都花在数据预处理上的。

有了理论方面的积累，这里我们给出一个默认对Outlier预处理的流程图，方便大家实践。

流程图

第一层：根据行业经验规则直接过滤

第二层：可视化直接人肉。但是这里要分高维数据和一二维数据的可视化。

对于高维数据可视化，又分成降维度的可视化，一般适用于大维度。和扩展坐标系的可视化，一般适用于小维度。

第三层：统计还是机器学习手段。一般来说统计手段速度更快。而机器学习手段一般效果更佳。所以要根据数据量大小来决定。当数据量大，统计方法用的更多。当数据量小的时候，仅仅统计方法效果不太好的时候，才会试试机器学习方法。

第四层：多维数据还是一维数据的统计还是机器学习。多维情况下，统计的方法一般采用Cocharan Test的。一维一般采用Grubb Test 。

小结：

一般来说统计的Grubb效果很好，机器学习的LOF的效果有可能会更好，但是LOF很慢很慢，可是LOF使用多维情况。可以优先实验这两个方法。