软件设计师考试 | 第八章算法设计与分析 | 数据挖掘算法

2021-05-26 本文已影响0人 Levi_moon

数据挖掘利用机器学习方法对多种数据，包括数据库数据、数据仓库数据、Web数据等进行分析和挖掘。

数据挖掘的核心是算法，其主要功能包括分类、回归、关联规则和聚类等。

分类是一种有监督的学习过程，根据历史数据预测未来数据的模型。

分类的数据对象属性分为两类：

在分类过程中，涉及到的数据包括：训练数据集、测试数据集、未知数据。

数据分类的两个步骤：

分类算法的种类：

可以用混淆矩阵来评估分类模型的质量。

挖掘海量数据中的频繁模式和关联规则可以有效地指导企业发现交叉销售机会、进行决策分析和商务管理等。

聚类是一种无监督学习过程。根据数据的特征，将相似的数据对象归为一类，不相似的数据对象归到不同的类中，这就是聚类，每个聚类也称为簇。

聚类的典型算法：

数据挖掘在多个领域已有成功的应用。在银行和金融领域，可以进行贷款偿还预测和顾客信用政策分析、针对定向促销的顾客分类与聚类、洗黑钱和其他金融犯罪侦破等；在零售和电信业，可以进行促销活动的效果分析、顾客忠诚度分析、交叉销售分析、商品推荐、欺骗分析等。

软件设计师考试 | 第八章 算法设计与分析 | 数据挖掘算法