《数据挖掘导论》CH1绪论-读书笔记

2019-05-05  本文已影响0人  Schnell

1.1什么是数据挖掘

定义:在大型数据存储库中,自动地发现有用信息的过程。

knowledge discovery in database

1.2数据挖掘要解决的问题(面临的问题)

-可伸缩:抽样技术,开发并行,分布算法

-高维性

-异种数据和复杂数据

-数据非所有权与分布

-非传统的分析

1.3数据挖掘的起源

数据挖掘利用了统计学+人工智能、机器学习和模式识别+数据库技术、并行计算、分布式计算。

1.4数据挖掘任务

-预测任务:根据其他属性的值,预测特殊属性的值,用说明变量函数构建目标变量模型。

=分类:离散

=回归:连续

*预测模型可以用来确定顾客对产品促销活动的反应。

-描述任务:(探查性)导出概括数据中潜在联系的模式(相关,趋势,聚类,轨迹,异常)

=关联分析:用来描述数据中强关联特征的模式*分析货品连带

=聚类分析:发现紧密相关的观测值组群

=异常检测:识别特征显著不同于其他数据的观测值。


上一篇下一篇

猜你喜欢

热点阅读