数据挖掘笔记

2020-05-21 本文已影响0人 X凯撒大帝

数据挖掘的理论基础

1数据归纳 2数据压缩 3模式发现 4概率理论 5 微观经济观点 6 归纳数据库

典型的数据挖掘系统

可视化的用户接口➡️模式知识评估➡️数据挖掘引擎➡️数据库或数据仓库服务器

数据挖掘过程

问题识别➡️数据抽取与预处理（数据抽取➡️数据预分析➡️数据预处理）➡️神经网络模型设计（初始化➡️训练➡️验证确证➡️性能分析）

数据准备

是对被挖掘数据进行定义、处理和表示，使它适应于特定的数据挖掘方法。

首先进行数据清洗和选择，将数据选择好之后对数据进行预处理，就是对干净的数据进行增强化处理，还需要将数据转化成一种能被神经网络数据挖掘算法接受的形式（数据表示），最后就是对原始数据进行管理。

决策树算法

1 对当前例子进行集合选择决定强度最大的属性作为扩展属性

2把取值相同的例子归结于同一个子集上

3 对不同类的例子分类精度不高的，递归调用建树算法。

神经网络信息处理的基本特点

1分布存储与容错性

2并行处理性

3信息处理与储存的合二为一性

4 可塑性与自组织性

5层次性与系统性

神经网络的学习过程

开始➡️设定连接权初值➡️评价（输入数据和评价标准）➡️连接权调整

K-均值算法

输入：一个数据集，然后给定数据聚集数目

输出：数据聚集

一首先随机找出一些初始数据，作为数据聚集的中心

二除去选用的初始数据，从剩余数据中随机选取一个数据与选用的数据聚集中心进行判断归属最接近的数据聚集

三计算最接近的数据聚集的所有数据均值，形成一个新的中心

四迭代二三步

五将全部剩余数据判断完成，则停止操作输出所得结果。