第一节课

2020-07-06  本文已影响0人  青阳心

时间:2019-2-25

一、DATA MINING

1.信息的处理方式——计算机的核心

2.进行数据分析与挖掘(与关系型DB联系紧密)

3.数据与知识

4.定义:数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

5.数据挖掘的常用方法:

分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等

二、引言

1.概念描述

1)  数据爆炸问题

2)  我们数据丰富,但信息贫乏!(We are drowning in data, but starving for knowledge.)

 3)  解决方法:数据仓库与数据挖掘

联机事务处理(Online transaction processing,OLTP)——针对关系型数据库,如增删改查的操作

数据仓库和联机分析处理(OLAP)——针对数据仓库

2. .....她刚才在说什么??..

3.什么是数据挖掘

从海量数据中抽取出有用的模式或者知识,这些模式或者知识应该是:

非常识性隐藏的、当前未知的以及潜在有益的

有的也称,KDD.

从数据仓库的角度来看:数据挖掘——知识发现过程的核心。

KDD的过程:——见常规的数据分析过程+数据挖掘

注意各个过程的数据可见的金字塔形。

4.数据挖掘和KDD在各个领域的典型应用和作用的方面

5.基于何种数据?

关系数据库

数据仓库

事务数据

其他类型的数据:空间数据;流数据;ect.

6.数据挖掘的功能

1)概念描述:数据特征化和数据区分

特征化:数据可分为一类(CLASS)的一般特性或特征;

2)  频繁模式(或频繁项)(如义)

3)关联与相关性 (关联性数值与相关性数值不相同)

4)用于预测分析的分类和回归

分类与回归是两种不同的预测。

分类构造模型,进行分类,用于将来的预测。分类预测类别标号;

分类的表示方式:决策树,分类规则,神经网络等。

回归预测一些未知或者丢失的数值。回归建立连续值的函数模型;

回归的表示方式:逻辑回归等。

7.聚类分析(Cluster Analysis)

聚类分析数据对象而不考虑类标号。

目标:最大化类内的相似性,最小化类间的相似性。

8.离群点分析

离群点:一个数据对象,并不遵从这类数据的通用行为。

有时离群点,和离群点分析很有用,并不总是噪音或乱数据。

上一篇 下一篇

猜你喜欢

热点阅读