软件设计师考试 | 第八章 算法设计与分析 | 数据挖掘算法
2021-05-26 本文已影响0人
Levi_moon
1. 数据挖掘概述
数据挖掘利用机器学习方法对多种数据,包括数据库数据、数据仓库数据、Web
数据等进行分析和挖掘。
数据挖掘的核心是算法,其主要功能包括分类、回归、关联规则和聚类等。
2. 分类
分类是一种有监督的学习过程,根据历史数据预测未来数据的模型。
分类的数据对象属性分为两类:
- 一般属性
- 分类属性(目标属性)
在分类过程中,涉及到的数据包括:训练数据集、测试数据集、未知数据。
数据分类的两个步骤:
- 学习模型
基于训练数据集采用分类算法建立学习模型。 - 应用模型
应用测试数据集的数据到学习模型中,根据输出来评估模型的好坏以及将未知数据输入到学习模型中,预测数据的类型。
分类算法的种类:
- 决策树归纳
- 朴素贝叶斯算法
- 贝叶斯信念网络
- 后向传播算法
- 支持向量机
可以用混淆矩阵来评估分类模型的质量。
3. 频繁模式和关联规则挖掘
挖掘海量数据中的频繁模式和关联规则可以有效地指导企业发现交叉销售机会、进行决策分析和商务管理等。
4. 聚类
聚类是一种无监督学习过程。根据数据的特征,将相似的数据对象归为一类,不相似的数据对象归到不同的类中,这就是聚类,每个聚类也称为簇。
聚类的典型算法:
- 基于划分的方法
- 基于层次的方法
- 基于密度的方法
- 基于网格的方法
- 基于统计模型的方法
5. 数据挖掘的应用
数据挖掘在多个领域已有成功的应用。在银行和金融领域,可以进行贷款偿还预测和顾客信用政策分析、针对定向促销的顾客分类与聚类、洗黑钱和其他金融犯罪侦破等;在零售和电信业,可以进行促销活动的效果分析、顾客忠诚度分析、交叉销售分析、商品推荐、欺骗分析等。