数据预处理是什么?

2019-04-10  本文已影响0人  小火君totora

对数据进行预处理,可以提高数据的质量,从而有助于提高后续学习的精度和技能。

数据预处理主要包括以下几个步骤:
1、数据清理

数据清理通过填充缺失值,光滑噪声,识别离群点,并纠正数据中的不一致等技术来实现。

(1)缺失值处理:
删除、插补(1、用固定值插补 2、用均值插补)

(2)、重复值

删除

(3)、逻辑错误

格式统计

2、数据集成

举例:

数据集成需要考虑许多问题,如实体识别问题,主要是匹配来自多个不同信息源的现实世界实体。
冗余是另一个重要问题。如果一个属性能由另一个或另一组属性“导出”,则此属性可能是冗余的。

属性或维命名的不一致也可能导致结果数据集中的冗余。有些冗余可通过相关分析检测到,如给定两个属性,根据可用的数据度量一个属性能在多大程度上蕴含另一个。

3、数据规约

数值规约通过选择替代的数据表示形式来减少数据量。即用较小的数据表示替换或估计数据。数值规约技术可以是有参的,也可以是无参的。如参数模型或非参数方法,如聚类、抽样和直方图。

上一篇 下一篇

猜你喜欢

热点阅读