数据挖掘

2018-06-26 本文已影响18人乘瓠散人

什么是数据挖掘

数据挖掘是在大型数据存储库中，自动地发现有用信息的过程。数据挖掘用来探查大型数据库，发现先前未知的有用模式。还可以预测未来观测结果。

数据预处理的目的是将未加工的输入数据转换成适合分析的形式。数据预处理设计的步骤包括融合来自多个数据源的数据，清洗数据，消除噪声和重复的观测值，选择与当前数据挖掘任务相关的记录和特征。由于收集和存储数据的方式多种多样，数据预处理可能是整个知识发现系统中最费力、最耗时的步骤。

后处理确保只将那些有效的和有用的结果集成到决策支持系统中。后处理的一个例子是可视化，它使得数据分析者可以从各种不同视角探查数据和数据挖掘的结果。在后处理阶段，还能使用统计度量或假设检验，删除虚假的数据挖掘结果。

数据挖掘任务

预测任务
这些任务的目标是根据其他属性的值，预测特定属性的值。被预测的属性一般称为目标变量(target variable)或因变量(dependent variable)，而用来做预测的属性称说明变量(explanatory variable)或自变量(independent variable)。
描述任务
这些任务的目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上，描述性数据挖掘任务通常是探查性的，并且常常需要后处理技术验证和解释结果。

举例：

预测建模(predictive modeling)
有两类预测建模任务：分类(classification) 用于预测离散的目标变量；回归(regression)用于预测连续的目标变量。两项任务的目标都是训练一个模型，使目标变量预测值和实际值之间的误差达到最小。
关联分析(association analysis)
用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。
聚类分析(cluster analysis)
旨在发现紧密相关的观测值组群，使得与属于不同簇的观测值相比，属于同一簇的观测值之间尽可能相似。
异常检测(anomaly detection)
任务是识别出特征显著不同于其他数据的观测值。这样的观测值称为异常点(anomaly)或离群点(outlier)。异常检测算法的目标是发现真正的异常点，而避免错误地将正常的对象标注为异常点。也就是一个好的异常检测算法必须具有高检测率和低误报率。

上一篇下一篇

猜你喜欢

热点阅读