大数据挖掘技术-->1.0 概述
![](https://img.haomeiwen.com/i5741745/87c13d8b8314fa3a.jpg)
![](http://upload-images.jianshu.io/upload_images/5741745-f93df16bb104af56.jpg)
![](http://upload-images.jianshu.io/upload_images/5741745-d43b8c2e8df99ef3.jpg)
![](http://upload-images.jianshu.io/upload_images/5741745-3b46e69f43c7fae8.jpg)
![](http://upload-images.jianshu.io/upload_images/5741745-4100d7b9afc8e32a.jpg)
![](http://upload-images.jianshu.io/upload_images/5741745-4d89adcd19d28e2a.jpg)
![](http://upload-images.jianshu.io/upload_images/5741745-c67d25fb58082516.jpg)
![](http://upload-images.jianshu.io/upload_images/5741745-140c395135cf22ef.jpg)
![](http://upload-images.jianshu.io/upload_images/5741745-6f2041d0d4ee8ef1.jpg)
![](http://upload-images.jianshu.io/upload_images/5741745-29866db4d50e2a5a.jpg)
![](http://upload-images.jianshu.io/upload_images/5741745-ebf7b4a3f8e77243.jpg)
![](http://upload-images.jianshu.io/upload_images/5741745-60551fc625c2d572.jpg)
![](http://upload-images.jianshu.io/upload_images/5741745-7b82e8401e5a991a.jpg)
![](http://upload-images.jianshu.io/upload_images/5741745-a97fdd10fc732642.jpg)
![](http://upload-images.jianshu.io/upload_images/5741745-98667b8c29d15d47.jpg)
![](http://upload-images.jianshu.io/upload_images/5741745-a187b078df2c6868.jpg)
![](http://upload-images.jianshu.io/upload_images/5741745-260d4a6420eb702a.jpg)
![](http://upload-images.jianshu.io/upload_images/5741745-b4f9b7b7f2cc4b5e.jpg)
![](http://upload-images.jianshu.io/upload_images/5741745-c993f371e895088b.jpg)
![](http://upload-images.jianshu.io/upload_images/5741745-54f4aedd1708edf7.jpg)
以下是文字提取部分,阅读 完毕的同学可以离开了
大数据是一门十分受欢迎的课程
有多欢迎呢
就算我不介绍,你都应该明白它是什么
所以我要跳过官方话,直奔主题
大数据的;体系结构;
这里会挑几个概念来讲,其余的后面会涉及
;采集;分为三个方面
;自动生成;类似学生的成绩
这些成绩躺在数据库里(DB)
;汇总而成;类似平均成绩
计算而成在数据仓库(DW)
;第三方;由许多调研机构组成
值得一提的是
采集到的数据要汇总到;历史仓库;
经过一段时间后,不被使用的数据成为;休眠数据;
这些数据往往会;被删除;
;大数据功能;
;关联分析;
这里有个故事叫:啤酒尿布
美国妇女们经常会;嘱咐;她们的丈夫
下班以后要为孩子;买尿布;
丈夫在买完尿布之后又要顺手买回自己爱喝的;啤酒;
因此啤酒和尿布在一起购买的机会还是很多的
这里的啤酒和尿布形成了一种;关联;
关联分析是寻找;项与项;之间的关系
这个关系有2个常见参数
;sup支持度;和;conf可信度;
sup指买啤酒和尿布的占所有人的百分比
conf指既买尿布又买啤酒的占买过尿布的人的百分比
在这里,尿布和啤酒都是;集合;
他们的;交集为空;
请注意:尿布和啤酒;不是;因果关系
;X;因为买尿布所以买啤酒
这个过程;不可逆;
;X;买了啤酒可能买尿布
这两个指数怎么用?
设a,b,c三个项
我会问哪两两关联达到sup=50%conf=30%
通常做法是一步一步计算
需要知道a,c的数量
a关联c的数量,然后通过上面的公式计算
我称这种方法为;穷举法;
这种方法;很糟糕;
我推荐你使用apriori算法
条件:哪些相关联达到sup50%,conf30%
你需要测出a的sup和c的sup
如果a或者c的sup不满足50%
那a,c必然不会符合关联条件
;分类与预测;
分类的定义:;分类已知数据;
比如下面的一组数据,称为;训练集;
它有特征标识
;第一列;就是特征标识
根据标识;建立模型;
模型通过;分类器;生成一个新的数据
称为;测试集;
这个测试集可以;预测未来;
最大的特点是没有特征标识
下面就是;测试集;
通过;分析训练集;
我们可以对每个类别建立;分类分析模型;
从而利用这个模型
返回来对其他;测试集;进行分类
这里主要有三个技术
;聚类分析;
我知道你的疑问:聚类与分类的;区别;
聚类主要是对;相似/相异;的数据进行分组
它的数据;没有标识;
并且;没有;测试集和训练集
与分类的;技术不同;
而且,它们俩的;应用范围;不一样
下面是两种聚类算法
第一种明显要;好于;第二种
因为第二种蓝色与蓝色之间已经;分开;
红色与红色也;分开;的
标准流程就是一个;闭环;
这个闭环称为:;CRISP-DM模型;
你需要业务理解、数据理解、数据准备、建立模型…
而数据理解就像你要;买菜;
数据准备就是;切菜;