数据仓库与数据挖掘技术—数据光滑
噪声是被测量的变量的随机误差或方差。
数据光滑技术:
1、分箱:通过考察数据的近邻(即周围的值)来光滑有序数据的值。有序值分布到一些“桶”或箱中,由于分箱方法考察近邻的值,因此进行局部光滑。一般来说,宽度越大光滑效果越大。
2、回归:可以用一个函数(如回归函数)拟合数据来光滑数据。线性回归涉及找出拟合两个属性的“最佳”线,使得一个属性可以用来预测另一个。多元线性回归是线性回归的扩展,其中涉及的属性有多个,并且数据拟合到一个多维曲面。
3、聚类:可以通过聚类检测离群点,将类似的值组织成群或簇。直观地,落在簇集合之外的值视为离群点。
4、人工检测
数据集成合并多个数据源中的数据,存放在一致的数据存储。在数据集成时,首先需要考虑的是模式集成和对象匹配问题。冗余是在数据集成,是另一个需要考虑的重要问题。
有些冗余可以被相关分析检测到。相关并不意味因果关系,也就是说如果A和B是相关的并不意味,A导致B或B导致A。
数据变换把数据转换成适于挖掘的形式。
1、光滑:去掉数据中的噪声。这种技术包括分箱、回归和聚类等

按箱平均值平滑分箱:箱中每个值都按箱中的平均值替换
按箱中值替换:箱中的每一个值,按箱中的中值替换
按箱边界平滑:箱中的最大值和最小值被视为边箱边界。箱中的每一个值被最近的边界替换
2、聚集。队数据进行汇总或聚集
3、数据泛化:使用概念分层,用高层概念替换底层或“原始”数据。例如分类的属性,如街道,可以泛化为较高层的概念。如城市或国家
4、规范化:把数据归一化、指数化或标准化,把不同的属性进行比例缩放,使它们的值落在大致相同的范围内。常用的有三种:最小—最大规范化、z- score规范化和按小数定标规范化

5、属性构造:由给定的属性添加新的属性
数据贵约技术可以用来得到数据集的归约表示,它小的多,但仍接近保持原数据的完整性。对归约后的数据集挖掘更有效。并产生几乎相同的分析结果
数据立方体存储多维聚集信息,每个单元存放一个聚集值,对应于多维空间的一个数据点,每个属性可能存在概念分层,允许多个抽象层进行数据分析
数据立方体为在线分析处理的上钻、下钻等操作提供了可以快速访问的汇总数据
数据立方体聚集的基础是概念分层