数据挖掘
什么是数据挖掘
数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘用来探查大型数据库,发现先前未知的有用模式。还可以预测未来观测结果。
数据预处理的目的是将未加工的输入数据转换成适合分析的形式。数据预处理设计的步骤包括融合来自多个数据源的数据,清洗数据,消除噪声和重复的观测值,选择与当前数据挖掘任务相关的记录和特征。由于收集和存储数据的方式多种多样,数据预处理可能是整个知识发现系统中最费力、最耗时的步骤。
后处理确保只将那些有效的和有用的结果集成到决策支持系统中。后处理的一个例子是可视化,它使得数据分析者可以从各种不同视角探查数据和数据挖掘的结果。在后处理阶段,还能使用统计度量或假设检验,删除虚假的数据挖掘结果。
数据挖掘任务
-
预测任务
这些任务的目标是根据其他属性的值,预测特定属性的值。被预测的属性一般称为目标变量(target variable)或因变量(dependent variable),而用来做预测的属性称说明变量(explanatory variable)或自变量(independent variable)。 -
描述任务
这些任务的目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果。
举例:
-
预测建模(predictive modeling)
有两类预测建模任务:分类(classification) 用于预测离散的目标变量;回归(regression)用于预测连续的目标变量。两项任务的目标都是训练一个模型,使目标变量预测值和实际值之间的误差达到最小。 -
关联分析(association analysis)
用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。 -
聚类分析(cluster analysis)
旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值之间尽可能相似。 -
异常检测(anomaly detection)
任务是识别出特征显著不同于其他数据的观测值。这样的观测值称为异常点(anomaly)或离群点(outlier)。异常检测算法的目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点。也就是一个好的异常检测算法必须具有高检测率和低误报率。