数据仓库与数据挖掘技术—数据光滑

2022-07-22 本文已影响0人熊猫学猿

噪声是被测量的变量的随机误差或方差。

数据光滑技术：

1、分箱：通过考察数据的近邻（即周围的值）来光滑有序数据的值。有序值分布到一些“桶”或箱中，由于分箱方法考察近邻的值，因此进行局部光滑。一般来说，宽度越大光滑效果越大。

2、回归：可以用一个函数（如回归函数）拟合数据来光滑数据。线性回归涉及找出拟合两个属性的“最佳”线，使得一个属性可以用来预测另一个。多元线性回归是线性回归的扩展，其中涉及的属性有多个，并且数据拟合到一个多维曲面。

3、聚类：可以通过聚类检测离群点，将类似的值组织成群或簇。直观地，落在簇集合之外的值视为离群点。

4、人工检测

数据集成合并多个数据源中的数据，存放在一致的数据存储。在数据集成时，首先需要考虑的是模式集成和对象匹配问题。冗余是在数据集成，是另一个需要考虑的重要问题。

有些冗余可以被相关分析检测到。相关并不意味因果关系，也就是说如果A和B是相关的并不意味，A导致B或B导致A。

数据变换把数据转换成适于挖掘的形式。

1、光滑：去掉数据中的噪声。这种技术包括分箱、回归和聚类等

按箱平均值平滑分箱：箱中每个值都按箱中的平均值替换

按箱中值替换：箱中的每一个值，按箱中的中值替换

按箱边界平滑：箱中的最大值和最小值被视为边箱边界。箱中的每一个值被最近的边界替换

2、聚集。队数据进行汇总或聚集

3、数据泛化：使用概念分层，用高层概念替换底层或“原始”数据。例如分类的属性，如街道，可以泛化为较高层的概念。如城市或国家

4、规范化：把数据归一化、指数化或标准化，把不同的属性进行比例缩放，使它们的值落在大致相同的范围内。常用的有三种：最小—最大规范化、z- score规范化和按小数定标规范化

5、属性构造：由给定的属性添加新的属性

数据贵约技术可以用来得到数据集的归约表示，它小的多，但仍接近保持原数据的完整性。对归约后的数据集挖掘更有效。并产生几乎相同的分析结果

数据立方体存储多维聚集信息，每个单元存放一个聚集值，对应于多维空间的一个数据点，每个属性可能存在概念分层，允许多个抽象层进行数据分析

数据立方体为在线分析处理的上钻、下钻等操作提供了可以快速访问的汇总数据

数据立方体聚集的基础是概念分层