（imooc）初识机器学习—理论篇

2018-03-17 本文已影响21人 _Ely

机器学习

image.png

从数据中寻找规律

image.png

*传统统计学方法：
抽样——描述统计——假设检验
*现代机器学习：
从全量中寻找规律

image.png

image.png

机器学习发展

image.png

业务系统发展

image.png

机器学习：
离线机器学习：
缺点：例如电商的某些节日大促销，爆发大量推荐订单等
解决可以用实时模型实时推荐，即在线学习

机器学习典型应用

关联原则

image.png

聚类

image.png

朴素贝叶斯和决策树

image.png

image.png

ctr预估和协同过滤

image.png

image.png

自然语言处理和图像识别

image.png

image.png

image.png

image.png

机器学习和数据分析的区别

image.png

交易数据

image.png

行为数据

image.png

image.png

机器学习算法分类

算法分类（1）

有监督学习

*无监督学习
eg 聚类算法

*半监督学习

算法分类（2）

根据要解决的问题进行分类

分类与回归
预测y值，针对具体问题
聚类
标注

image.png

算法分类（3）（重要）

生成模型
（像是陪审团）告诉它属于各个类的概率等，结果模棱两可。
判别模型
直接给一个函数，丢一个数据返回结果告诉你哪一类，直指最终目的（像是大法官告诉你是哪一类）

本质区别在于训练数据的思想不同

image.png

c4.5 cart属于决策树算法，解决分类问题
k—means 聚类，像是电信用户的分类。无监督学习的算法
svm分类算法，基于统计学的算法，有一套完整数学理论支撑，有一定数学门槛（被深度学习光芒盖住）（机器学习面试可能会考）
aprior 关联分析（淘汰），代价高，需要多次访问数据库
同样，PF-growth 解决关联规则问题解决aprior的性能问题。只需要对数据库两边扫描就可以完成数据挖掘，（现在推荐系统有了更多的推荐算法）
PageRank谷歌的算法
Adaboost 常用于人脸识别，本质为决策树，本质解决分类问题（有监督学习）
KNN 有监督学习
朴素贝叶斯垃圾邮件识别

image.png

逻辑回归：百度谷歌搜索结果的排序
RF，GDBT 同adaboost 决策树算法的改进
推荐算法
LDA 用做文本分析与自然语言处理
WORD2vector 文本挖掘，最终是一个结果，里面用到一系列算法
深度学习：可用于图像识别等等

机器学习解决问题框架

确定目标
业务需求
数据
特征工程（重要）
训练模型
定义模型

image.png

定义损失函数
eg。做线性回归模型，没有精确解的时候找一个近似
优化算法
eg 让损失函数更小
求函数极小值的优化上，数学问题

模型评估
交叉评估：
效果评估：

图片识别demo演示

image.png

rgb转hsl抽取特征

image.png

把图片转换为向量vector

上一篇下一篇

猜你喜欢

热点阅读