机器学习和人工智能入门

机器学习的概述

2017-03-17  本文已影响73人  bad_boy

慕课网机器学习课程笔记和补充。

1什么是机器学习?

来自知乎

机器学习:利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景的决策。机器学习就是使用计算机来代替人进行数据分析,通过对数据建立数学模型(数学函数)来分析预测问题。

主体的不同:计算机--机器学习、人--数据分析。数据分析是依靠人从历史数据中找到规,学习效果很大程度以来于人的经验与知识水平,机器学习就是想要抛弃对人的依赖,靠机器来挖掘规律。

数据:机器学习只是解决问题的框架、算法,需要数据,数据量越大越准确。

规律:通过机器学习不同的算法去找规律,不同的算法结果不同。数学函数和公式

2从数据中寻找规律

传统统计:抽样-描述统计-结论-假设检验-推断。机器学习不受计算能力的限制,直接跳过抽样,对所有数据进行分析。

可利用可视化技术来观察数据。要进行数据分析,需要先进行量化,用模型拟合规律,函数-->函数曲线-->拟合。低维度的数据可以用可视化,而高纬度时很难用可视化的方法,只能用数学运算。

3机器学习发展的动力

用数据代替专家,专家的观点具有片面性和主观性,不够客观

4业务逻辑的发展历史

1)领域专家经验的业务逻辑:专家定规则,程序员实现这些规则。

2)基于统计的业务逻辑分维度统计:做报表,数据分析,受限于数据分析人员的经验

3)机器学习:

①离线机器学习:对昨天数据的研究,用算法分析形成一个模型,指导明天的活动。缺点存在偶然性,如双11的集中购物,人买东西具有偶然性。

②在线机器学习:实时的对数据进行分析,不断的形成模型对用户进行指导(要考虑数据流)

5机器学习的典型应用

1)购物篮分析

关联规则。数据挖掘,把销量提供,数据变成钱。啤酒+纸尿片是数据变成钱的最早的一个例子。

关联营售,根据购买商品联想到消费者可能会购买的其他商品

2)用户细分精确营销

把用户消费的数据利用聚类算法,可以根据用户信息,自动对用户进行分类。

全球通,用户细分,精准营销,出差的人有全球通vip候机区,很有面。

动感地带,主要针对学生,短信多。

神州行,针对工作人员,打电话比较多。

聚类+机器学习的算法=分类

3)垃圾邮件识别

朴素贝叶斯算法

信用卡欺诈

风险识别、欺诈识别(故意)、消费透支(无意的)。决策树算法

4)互联网广告

CTR预估算法:点击率的预估。互联网广告排序按(预估客户可能点的概率)按概率大小排序,这种算法叫ctr预估,背后的算法是逻辑回归。

推荐系统(类似于购物篮分析)

协同过滤算法,电商的推荐

5)自然语言处理

情感分析(对文本抓关键情感词)

实体识别(提取文本主要数据,人名等)

6)深度学习

图像识别、语音识别,人脸识别,手势控制,智慧机器人,实时翻译,自动驾驶,视频内容自动识别。

6机器学习和数据分析的区别

慕课网

1)数据特点

①交易数据vs行为数据

交易数据:存取款账单、用户订单、话费账单...与钱有关的数据。对数据一致性要求很高,应该放在关系型数据库中。数据分析处理的是交易数据

行为数据:搜索历史、点击历史、浏览历史、评论的数据。对数据一致性要求不是很高,放在NoSQL数据库中。机器学习处理的是行为数据

②少量数据vs海量数据

③采样分析vs全量分析

2)处理数据的方式

NoSQL:只能处理行为数据,不能处理交易数据。强调分布式和CAP,在保证数据吞吐量的前提下,在数据的一致性上打折扣。

3)解决业务问题和参与者不同

机器学习--预测未来,数据质量决定结果,目标用户是个体。分析方法:数据驱动,自动进行知识发现。

数据分析--报告过去,分析师能力决定结果,目标用户是公司高层。分析方法:用户驱动,交互式分析

7机器学习常见分类算法

算法分类1:根据数据有无标签Y进行分类

对样本数据进行一些训练,得到模型,通过模型判断X与Y的关系。

有监督学习:训练数据中已经明确给出了该数据的Y,给数据打上了标签。如:已对邮件打上了“垃圾邮件”、“正常邮件”的标签。包括:分类算法、回归算法。

无监督学习:训练数据并没有Y,数据没有任何标签。典型算法:聚类。

半监督学习:也叫强化学习,数据越多,模型越好。

算法分类2:根据解决问题进行分类

分类与回归、聚类、标注

算法分类3(重要,直指本质)

生成模型:用来说明分类问题。返回的是属于各个类的概率。

判别模型:用来说明分类问题。直接给一个函数,数据输入到函数中,直接返回类别。

8常见机器学习算法

这些方法先了解一下就行了。

慕课网 慕课网

1、4、10不再常用

1C4.5、CART:属于决策树算法,既可以解决分类问题,也可以解决回归问题。主要解决分类问题。属于有监督算法。很少使用。

2K-Means:聚类算法,无监督学习算法。

3SVN:主要解决分类问题,最好的分类算法,有完整的数学理论。(重要)

4Apriori:关联分析算法,淘汰,多次访问数据库代价高。

5FP-Grows:Apriori的升级版,只需对数据库进行两遍扫描。(韩家伟)

6EM:总的算法框架,不针对某一具体问题。

7AdaBoost:决策树的改进版,主要用于人脸识别,本质上解决分类问题。属于有监督学习。

8kNN:分类算法,有监督学习。与K-Means有点像,无监督学习。

9naive bayes垃圾邮件识别。

9机器学习解决问题

1:确定目标

业务需求:知道要做什么。(近几年在顶尖科学杂志上发表的大数据文章都是来自行业专家,而并非计算机专家,这从另外一个方面反映了业务知识的重要性)

数据:学习的基础。

特征工程:特征提取阶段,对数据清洗、整合、分析需要的变量等    

2:训练模型(重点和难点)

定义模型:确定算法。

定义损失函数:找出算法的偏差(定义预测结果与真实结果怎么去评价两者的相似程度)。

优化算法:对算法进行优化(损失函数取最小值,最终变为求函数极小值的问题)。

3:模型评估

交叉验证:将不同的算法带入同一类数据中,验证效果(根据优化算法,将历史数据代入之后为了使损失函数最小,就得到了相应的参数系数,这样就得到了相应的模型,这个模型就是根据历史数据计算出来的模型了)。

效果评估:可以看出几个算法之间具体的差别、效果。

注意:如果最终的指标不求得满足的话,要重新调整特征工程,或是重新求得模型的参数,这是一个不断迭代的过程

利用python实现kmeans算法的图像聚类

image2vector 将图片转变为向量的算法

word2vector 将文本转变为向量的算法

特征工程:将RGB二进制文件转变为机器学习需要的数据格式。

图片存储是通过RGB格式进行的,每一个像素点是由3个数字组成的(红、绿、蓝)。

上一篇下一篇

猜你喜欢

热点阅读