第一节课

2020-07-06 本文已影响0人青阳心

时间：2019-2-25

一、DATA MINING

1.信息的处理方式——计算机的核心

2.进行数据分析与挖掘（与关系型DB联系紧密）

3.数据与知识

4.定义：数据挖掘（Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

5.数据挖掘的常用方法：

分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等

二、引言

1.概念描述

1) 数据爆炸问题

2) 我们数据丰富，但信息贫乏!（We are drowning in data, but starving for knowledge.）

3) 解决方法：数据仓库与数据挖掘

联机事务处理（Online transaction processing,OLTP）——针对关系型数据库，如增删改查的操作

数据仓库和联机分析处理（OLAP）——针对数据仓库

2. .....她刚才在说什么？？..

3.什么是数据挖掘

从海量数据中抽取出有用的模式或者知识，这些模式或者知识应该是：

非常识性、隐藏的、当前未知的以及潜在有益的。

有的也称，KDD.

从数据仓库的角度来看：数据挖掘——知识发现过程的核心。

KDD的过程：——见常规的数据分析过程+数据挖掘

注意各个过程的数据可见的金字塔形。

4.数据挖掘和KDD在各个领域的典型应用和作用的方面

5.基于何种数据？

关系数据库

数据仓库

事务数据

其他类型的数据：空间数据；流数据；ect.

6.数据挖掘的功能

1）概念描述：数据特征化和数据区分

特征化：数据可分为一类（CLASS）的一般特性或特征；

2) 频繁模式（或频繁项）（如义）

3）关联与相关性 (关联性数值与相关性数值不相同)

4）用于预测分析的分类和回归

分类与回归是两种不同的预测。

分类构造模型，进行分类，用于将来的预测。分类预测类别标号；

分类的表示方式：决策树，分类规则，神经网络等。

回归预测一些未知或者丢失的数值。回归建立连续值的函数模型；

回归的表示方式：逻辑回归等。

7.聚类分析（Cluster Analysis）

聚类分析数据对象而不考虑类标号。

目标：最大化类内的相似性，最小化类间的相似性。

8.离群点分析

离群点：一个数据对象，并不遵从这类数据的通用行为。

有时离群点，和离群点分析很有用，并不总是噪音或乱数据。

第一节课

猜你喜欢

热点阅读