Linux第10课:数据挖掘理论
Linux第10课:数据挖掘理论
时间 2019-03-14 下午3:30
主讲 杨成林
地点 四楼电教室

随着Hadoop技术的成熟,海量数据的存储和计算突破了技术瓶颈。那么,大数据的价值该如何体现?这就是数据挖掘需要解决的问题。数据挖掘不仅是一个技术问题,也是一个理论问题,需要站在理论的高度,认识其客观规律性,为大数据的应用奠定基础。
一、数据挖掘的定义
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、但又是潜在有用的信息和知识的过程。
数据挖掘又称为数据库中的知识发现,实际上数据挖掘是知识发现过程的一个基本步骤。
知识发现过程如下图所示,由以下步骤的迭代序列组成:
1,数据清理(消除噪声和删除不一致的数据);
2,数据集成(多种数据源可以组合在一起);
3,数据选择(从数据库中提取与分析任务相关的数据);
4,数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式);
5,数据挖掘(基本步骤,使用智能方法提取数据模式);
6,模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式);
7,知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。

二、数据挖掘的流程
基本步骤包括:
1,业务理解
2,数据理解
3,数据准备
4,数据建模
5,模型评估
6,模型实施
三、数据挖掘的应用
1,谷歌趋势分析:
通过分析大量用户的搜索记录,比如“咳嗽”、“发烧”等特定词条,谷歌公司能准确预测美国冬季流感传播趋势;和官方机构相比,谷歌能提前一两周预测流感暴发,预测结果与官方数据的相关性高达97%;2009年甲型H1N1流感暴发时,“谷歌流感趋势”系统大显身手。这已经成为大数据应用的一个经典案例。
2,塔吉特的“数据关联挖掘”:
美国第三大零售商塔吉特,通过分析所有女性客户购买记录,可以“猜出”哪些是孕妇。其发现女性客户会在怀孕四个月左右,大量购买无香味乳液。由此挖掘出25项与怀孕高度相关的商品,制作“怀孕预测”指数。推算出预产期后,就能抢先一步,将孕妇装、婴儿床等折扣券寄给客户。塔吉特还创建了一套购买女性行为在怀孕期间产生变化的模型,不仅如此,如果用户从它们的店铺中购买了婴儿用品,它们在接下来的几年中会根据婴儿的生长周期定期给这些顾客推送相关产品,使这些客户形成长期的忠诚度。
3,NBA优化战术组合:
大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件Advanced Scout系统来优化他们的战术组合。系统分析显示魔术队的两个后卫安佛尼.哈德卫和伯兰.绍在前两场中被评为-17分。但当哈德卫与替补后卫达利尔.阿姆斯创组合时,魔术队得分为正14分。魔术队增加了阿姆斯创的上场时间,此着果然见效;Advanced Scout是一个数据分析工具,教练可以用便携式电脑在家里或在路上挖掘存储在NBA中心的服务器上的数据。每一场比赛的事件都被统计分类,按得分、助攻、失误等等。时间标记让教练非常容易地通过搜索NBA比赛的录像来理解统计发现的含义。