数据仓库与数据挖掘技术—数据归约

2022-07-26  本文已影响0人  熊猫学猿

数据归约:选择替代的、“较小的”数据表示形式来减少数据量

1、回归和对数线形模型

在简单线性回归中,对数据建模,使之拟合到一条直线上。

多元线性回归是简单线性回归的扩充,允许响应变量y建模为两个或多个预测变量的线性函数

对数线性模型近似离散的多维概率分布。给定n维元组的集合,可以把每个元组看做n维空间的点,可以使用对数线性模型基于为维组合的一个较小子集,估计离散化的属性集的多维空间中每个点的概率。这使得高纬数据空间可以由较低维空间构造

2、直方图

直方图使用分箱来近似数据分布。属性A的直方图将A的数据分布划分为不相交的子集或桶。桶表示给定属性的一个连续空间

确定桶和属性值的划分规则:

1、等宽。在等宽直方图中,每个桶的宽度区间是一致的

2、等频。在等频直方图中,创建桶,使得每个桶的频率粗略地维常数(即每个桶大致包含相同个数的近邻数据样本)

3、V最优。给定桶的个数,对所有可能的直方图,则V最优直方图是具有最小方差的直方图。直方图的方差是每个桶代表的原来值的加权和,其中权等于桶中值的个数

4、MaxDiff。在MaxDiff直方图中,考虑每对相邻值之间的差,桶的边界具有B-1个最大差的对,其中B是用户指定的桶数

3、聚类:将数据元组视为对象,它将对象划分为群或簇,使一个簇中的对象相互“相似”,而其他簇中的对象“相异”

4、抽样:用数据的小的多的随机样本(子集)表示大型数据集

最常用的抽样方法有4种

1、s个样本无放回

2、s个样本有放回

3、聚类抽样:如果D中的元组分组放入M个互不相交的簇,则可以得到s个簇的简单随机抽样,其中s〈M

4、分层抽样:如果D划分成互不相交的部分,称做层.则通过对每一层的SRS(简单随机抽样)就可以得到D的分层样本

通过将属性值域划分为区间,数据离散化技术可以用来减少给定连续属性值的个数。区间的标记可以替代实际的数据值。用少数区间标记替换连续属性的数值,从而减少和简化原来的数据。

对于给定的数值属性,概念分层定义了该属性的一个离散化。通过收集较高层的概念(如青年、中年、老年)并用它们替换较低层的概念(人年龄的数值)

1、分箱

2、直方图分析

3、基于熵的离散化

4、基于x²分析的区间合并

5、聚类分析

6、根据直观划分离散化

上一篇下一篇

猜你喜欢

热点阅读