数据仓库与数据挖掘技术—数据归约

2022-07-26 本文已影响0人熊猫学猿

数据归约：选择替代的、“较小的”数据表示形式来减少数据量

1、回归和对数线形模型

在简单线性回归中，对数据建模，使之拟合到一条直线上。

多元线性回归是简单线性回归的扩充，允许响应变量y建模为两个或多个预测变量的线性函数

对数线性模型近似离散的多维概率分布。给定n维元组的集合，可以把每个元组看做n维空间的点，可以使用对数线性模型基于为维组合的一个较小子集，估计离散化的属性集的多维空间中每个点的概率。这使得高纬数据空间可以由较低维空间构造

2、直方图

直方图使用分箱来近似数据分布。属性A的直方图将A的数据分布划分为不相交的子集或桶。桶表示给定属性的一个连续空间

确定桶和属性值的划分规则:

1、等宽。在等宽直方图中，每个桶的宽度区间是一致的

2、等频。在等频直方图中，创建桶，使得每个桶的频率粗略地维常数（即每个桶大致包含相同个数的近邻数据样本）

3、V最优。给定桶的个数，对所有可能的直方图，则V最优直方图是具有最小方差的直方图。直方图的方差是每个桶代表的原来值的加权和，其中权等于桶中值的个数

4、MaxDiff。在MaxDiff直方图中，考虑每对相邻值之间的差，桶的边界具有B-1个最大差的对，其中B是用户指定的桶数

3、聚类：将数据元组视为对象，它将对象划分为群或簇，使一个簇中的对象相互“相似”，而其他簇中的对象“相异”

4、抽样：用数据的小的多的随机样本（子集）表示大型数据集

最常用的抽样方法有4种

1、s个样本无放回

2、s个样本有放回

3、聚类抽样：如果D中的元组分组放入M个互不相交的簇，则可以得到s个簇的简单随机抽样，其中s〈M

4、分层抽样：如果D划分成互不相交的部分，称做层.则通过对每一层的SRS（简单随机抽样）就可以得到D的分层样本

通过将属性值域划分为区间,数据离散化技术可以用来减少给定连续属性值的个数。区间的标记可以替代实际的数据值。用少数区间标记替换连续属性的数值，从而减少和简化原来的数据。

对于给定的数值属性，概念分层定义了该属性的一个离散化。通过收集较高层的概念（如青年、中年、老年）并用它们替换较低层的概念（人年龄的数值）

1、分箱

2、直方图分析

3、基于熵的离散化

4、基于x²分析的区间合并

5、聚类分析

6、根据直观划分离散化