数据挖掘基本任务

2018-12-02 本文已影响68人 Harvest

定义挖掘目标
数据取样
数据探索
数据预处理
挖掘建模*
模型评价

平均水平的指标是对个体集中趋势的度量，使用最广泛的是均值和中位数；反映变异程度的指标则是对个体离开平均水平的度量，使用较广泛的是标准差（方差）、四分位间距。

频率密度（频率与组距之比）
定性变量：观测的个体只能归属于几种互不相容类别中的一种时，这样的观测数据。
标准差度量数据偏离均值的程度
变异系数度量标准差相对于均值的离中趋势

$CV=\frac{s}{x} *100%$

四分位数间距，是上四分位数Qu与下四分位数Ql之差，期间包含了全部观察值的一半。其值越大，说明数据的变异程度越大；反之，说明变异程度越小

数据预处理

数据清洗

缺失值处理

插值法：利用已知点建立合适的插值函数f(x),未知值由对应点x_i求出的函数值f(x_i)近似代替。

数据集成

实体识别
属性冗余

数据变换

对数据进行规范化处理，将数据转换成“适当的”形式，以适用于挖掘任务及算法的需要。

简单函数变换
属性构造
规范化
连续属性离散化：要求数据是分类属性形式。这样，常常需要将连续属性变换成分类属性，即连续属性离散化
- 确定分类数以及如何将连续属性值映射到这些分类值。

数据规约

数据规约产生更小但保持数据完整性的新数据集。意义：

降低无效、错误数据对建模的影响，提高建模的准确性
少量且具代表性的数据将大幅缩减数据挖掘所需时间
降低存储数据的成本

挖掘建模

数据为数值型，需要对属性进行离散化（即人直观理解的表现形式）

分类与预测

神经网络模型

BP 神经网络

学习算法：&学习规则（误差校正学习算法）

误差校正学习算法根据神经网络的输出误差对神经元的连接强度进行校正，属于有指导学习。

目标函数（误差函数）：神经网络训练是否完成的衡量。当误差函数小于某一个设定的值时即停止训练。二乘误差函数相似:
$E=\sum\limits_{k=1}^{N}[Y_k - T_k]^2$

分类与预测算法评估

聚类分析（聚类分析算法评估）

聚类分析：是在没有给定划分类别（没有给数据打标签），根据数据相似度进行样本分组的一种方法。（典型非监督学习算法）

目标是实现组内的对象相互之间是相似的（相关的），而不同组中的对象是不同的（不相关的）。组内相似性越大，组间差别越大，聚类效果越好。

关联规则

目的是在一个数据集中找出各项之间的关联关系，而这种关系并没有在数据中直接表示出来。

Apriori算法

是一种挖掘频繁项集的算法.核心思想：通过连接产生候选项与其支持度，然后通过剪枝生成频繁项集。步骤(C_k是由L_k-1与L₁连接产生的)

找最大K项频繁集

扫描集合C1中每一项数据的支持度。出现次数/所有事务个数。
对各项集的支持度与预先设定的最小支持度值比较保留大于等于的项得1项频繁集L₁.
扫描所有事务,L₁与L₁连接得候选项C₂,并计算每一项支持度。如P({a,b}).接下来是剪枝步，
对C₂各项集的支持度与预先设定的最小支持度值比较，得2项频繁集L₂.
接着扫描所有事务，L2与L1连接得C3,计算支持度。如p({a,b,c}).

由频繁集产生关联规则

置信度计算公式
$Confidence(A=>B)=\frac{Support\_count(A并B)}{Support\_count(A)}$
Support_count(A)包含项集A的事务数

时序模式

时间序列的预处理:（对它的纯随机性和平稳性进行校验）

纯随机序列又称白噪声序列，序列进行完全无序的随机波动，可以中止。

非平稳时间序列的分析方法分为:

确定性因素分解的时序分析

把所有序列变化归结为（长期趋势、季节变动、循环变动和随机波动）

随机时序分析

差分运算

P阶差分

相距一期的两个序列值之间的减法运算称为1阶差分运算

K步差分

相距K期的两个序列值之间的减法运算称为K步差分运算

白噪声检验(序列的单位根检验)输出的P值要小于0.05。

离群点检测

离群点的属性值明显偏离期望的或常见的属性值

它的任务是发现与大部分其他对象显著不同的对象。

几种数据规范化


零均值规范化	1.0*(data-data.mean())/data.std()	(z-score规范化)