Outlier 预处理流程图

2017-11-08  本文已影响180人  史春奇

​我们在“一个奇异值的江湖 -- 经典统计观” 和 “一个奇异值的江湖 -- 机器学习观” 里面我们介绍了Outlier处理的基本的方法。  我们在“R语言和表数据分析” 里介绍了一个数据分析的流程。  根据8-2原则, 我们知道, 80%的时间都花在数据预处理上的。


有了理论方面的积累, 这里我们给出一个默认对Outlier预处理的流程图, 方便大家实践。

流程图

第一层: 根据行业经验规则直接过滤

第二层:可视化直接人肉。 但是这里要分高维数据和一二维数据的可视化。

对于高维数据可视化, 又分成降维度的可视化, 一般适用于大维度。 和扩展坐标系的可视化, 一般适用于小维度。

第三层:统计还是机器学习手段。 一般来说统计手段速度更快。 而机器学习手段一般效果更佳。  所以要根据数据量大小来决定。   当数据量大, 统计方法用的更多。  当数据量小的时候, 仅仅统计方法效果不太好的时候, 才会试试机器学习方法。

第四层:多维数据还是一维数据的统计还是机器学习。 多维情况下, 统计的方法一般采用Cocharan Test的。一维一般采用Grubb Test 。


小结:

一般来说统计的Grubb效果很好,机器学习的LOF的效果有可能会更好, 但是LOF很慢很慢, 可是LOF使用多维情况。 可以优先实验这两个方法。

相关话题:

一个奇异值的江湖 -- 经典统计观

一个奇异值的江湖 -- 机器学习观

R语言和表数据分析

数据变换

非均衡数据处理--如何评价?

非均衡数据处理--如何学习?

机器学习模型常见对比

广义XX分布概述

机器学习平台的优化器 (优化篇)

机器学习平台的优化器 (平台篇)



上一篇下一篇

猜你喜欢

热点阅读