机器学习的概述

2017-03-17 本文已影响73人 bad_boy

慕课网机器学习课程笔记和补充。

1什么是机器学习？

来自知乎

机器学习：利用计算机从历史数据中找出规律，并把这些规律用到对未来不确定场景的决策。机器学习就是使用计算机来代替人进行数据分析，通过对数据建立数学模型（数学函数）来分析预测问题。

主体的不同：计算机--机器学习、人--数据分析。数据分析是依靠人从历史数据中找到规，学习效果很大程度以来于人的经验与知识水平，机器学习就是想要抛弃对人的依赖，靠机器来挖掘规律。

数据：机器学习只是解决问题的框架、算法，需要数据，数据量越大越准确。

规律：通过机器学习不同的算法去找规律，不同的算法结果不同。数学函数和公式

2从数据中寻找规律

传统统计：抽样-描述统计-结论-假设检验-推断。机器学习不受计算能力的限制，直接跳过抽样，对所有数据进行分析。

可利用可视化技术来观察数据。要进行数据分析，需要先进行量化，用模型拟合规律，函数-->函数曲线-->拟合。低维度的数据可以用可视化，而高纬度时很难用可视化的方法，只能用数学运算。

3机器学习发展的动力

用数据代替专家，专家的观点具有片面性和主观性，不够客观

4业务逻辑的发展历史

1）领域专家经验的业务逻辑：专家定规则，程序员实现这些规则。

2）基于统计的业务逻辑分维度统计：做报表，数据分析，受限于数据分析人员的经验

3）机器学习：

①离线机器学习：对昨天数据的研究，用算法分析形成一个模型，指导明天的活动。缺点存在偶然性，如双11的集中购物，人买东西具有偶然性。

②在线机器学习：实时的对数据进行分析，不断的形成模型对用户进行指导（要考虑数据流）

5机器学习的典型应用

1）购物篮分析

关联规则。数据挖掘，把销量提供，数据变成钱。啤酒+纸尿片是数据变成钱的最早的一个例子。

关联营售，根据购买商品联想到消费者可能会购买的其他商品

2）用户细分精确营销

把用户消费的数据利用聚类算法，可以根据用户信息，自动对用户进行分类。

全球通，用户细分，精准营销，出差的人有全球通vip候机区，很有面。

动感地带，主要针对学生，短信多。

神州行，针对工作人员，打电话比较多。

聚类+机器学习的算法=分类

3）垃圾邮件识别

朴素贝叶斯算法

信用卡欺诈

风险识别、欺诈识别（故意）、消费透支（无意的）。决策树算法

4）互联网广告

CTR预估算法：点击率的预估。互联网广告排序按（预估客户可能点的概率）按概率大小排序，这种算法叫ctr预估，背后的算法是逻辑回归。

推荐系统（类似于购物篮分析）

协同过滤算法，电商的推荐

5）自然语言处理

情感分析（对文本抓关键情感词）

实体识别（提取文本主要数据，人名等）

6）深度学习

图像识别、语音识别，人脸识别，手势控制，智慧机器人，实时翻译，自动驾驶，视频内容自动识别。

6机器学习和数据分析的区别

慕课网

1）数据特点

①交易数据vs行为数据

交易数据：存取款账单、用户订单、话费账单...与钱有关的数据。对数据一致性要求很高，应该放在关系型数据库中。数据分析处理的是交易数据

行为数据：搜索历史、点击历史、浏览历史、评论的数据。对数据一致性要求不是很高，放在NoSQL数据库中。机器学习处理的是行为数据

②少量数据vs海量数据

③采样分析vs全量分析

2）处理数据的方式

NoSQL：只能处理行为数据，不能处理交易数据。强调分布式和CAP，在保证数据吞吐量的前提下，在数据的一致性上打折扣。

3）解决业务问题和参与者不同

机器学习--预测未来，数据质量决定结果，目标用户是个体。分析方法：数据驱动，自动进行知识发现。

数据分析--报告过去，分析师能力决定结果，目标用户是公司高层。分析方法：用户驱动，交互式分析

7机器学习常见分类算法

算法分类1：根据数据有无标签Y进行分类

对样本数据进行一些训练，得到模型，通过模型判断X与Y的关系。

有监督学习：训练数据中已经明确给出了该数据的Y，给数据打上了标签。如：已对邮件打上了“垃圾邮件”、“正常邮件”的标签。包括：分类算法、回归算法。

无监督学习：训练数据并没有Y，数据没有任何标签。典型算法：聚类。

半监督学习：也叫强化学习，数据越多，模型越好。

算法分类2：根据解决问题进行分类

分类与回归、聚类、标注

算法分类3（重要，直指本质）

生成模型：用来说明分类问题。返回的是属于各个类的概率。

判别模型：用来说明分类问题。直接给一个函数，数据输入到函数中，直接返回类别。

8常见机器学习算法

这些方法先了解一下就行了。

慕课网

1、4、10不再常用

1C4.5、CART：属于决策树算法，既可以解决分类问题，也可以解决回归问题。主要解决分类问题。属于有监督算法。很少使用。

2K-Means：聚类算法，无监督学习算法。

3SVN：主要解决分类问题，最好的分类算法，有完整的数学理论。（重要）

4Apriori：关联分析算法，淘汰，多次访问数据库代价高。

5FP-Grows：Apriori的升级版，只需对数据库进行两遍扫描。(韩家伟)

6EM：总的算法框架，不针对某一具体问题。

7AdaBoost：决策树的改进版，主要用于人脸识别，本质上解决分类问题。属于有监督学习。

8kNN：分类算法，有监督学习。与K-Means有点像，无监督学习。

9naive bayes垃圾邮件识别。

9机器学习解决问题

1：确定目标

业务需求：知道要做什么。（近几年在顶尖科学杂志上发表的大数据文章都是来自行业专家，而并非计算机专家，这从另外一个方面反映了业务知识的重要性）

数据：学习的基础。

特征工程：特征提取阶段，对数据清洗、整合、分析需要的变量等

2：训练模型（重点和难点）

定义模型：确定算法。

定义损失函数：找出算法的偏差（定义预测结果与真实结果怎么去评价两者的相似程度）。

优化算法：对算法进行优化（损失函数取最小值，最终变为求函数极小值的问题）。

3：模型评估

交叉验证：将不同的算法带入同一类数据中，验证效果（根据优化算法，将历史数据代入之后为了使损失函数最小，就得到了相应的参数系数，这样就得到了相应的模型，这个模型就是根据历史数据计算出来的模型了）。

效果评估：可以看出几个算法之间具体的差别、效果。

注意：如果最终的指标不求得满足的话，要重新调整特征工程，或是重新求得模型的参数，这是一个不断迭代的过程

利用python实现kmeans算法的图像聚类

image2vector 将图片转变为向量的算法

word2vector 将文本转变为向量的算法

特征工程：将RGB二进制文件转变为机器学习需要的数据格式。

图片存储是通过RGB格式进行的，每一个像素点是由3个数字组成的（红、绿、蓝）。