【慕课网】初始机器学习.md

2018-03-03  本文已影响31人  dy2903

初始机器学习

什么是机器学习

什么是机器学习?

机器学习指的是计算机对历史数据进行统计分析,找出规律,建立模型,最关键的是可以对未来不确定性场景进行判断和决策

具体可见:什么是机器学习

那什么是不确定性的场景呢?比如说太阳明天从什么地方升起,这就是确定的场景,因为永远都是从东方升起,从西方落下。但是下个季度的能完成多少业绩,这就是不确定的。

理解机器学习需要注意以下几个要点:

从数据中寻找规律

全量数据分析

人们从数据中寻找规律的历史已经非常长了,还建立了概率论和统计学两们学科。

在过去很长一段时间里面,因为受限于人类的计算能力,我们对数据一般会先采样,建立模型。但是因为是采样的,一定有样本的损失,所以一般来说会回过头去验证这个模型是否靠谱。

那我们来总结一下整个流程:

抽样——描述统计——结论——假设检验

不过现在因为计算能力得到很大的提升,我们完全可以对全量的数据进行分析了。

从可视化到函数

假设我们现在想分析美国某个地区的气温的情况,最直观的方法是把历史数据画一个图,可视化展示,这样就可以直观的了解其规律。

image.png

比如从上图这个散点图里面,我们可以发现如下规律:

这种方法最大的好处是直观,缺点是没办法进行计算,所以我们需要进行量化。

那怎么使用模型来拟合规律呢?

我们可以使用函数来拟合,然后通过函数画一条函数曲线。

我们希望这个函数曲线可以尽量的与之前的散点图拟合在一起。

机器学习发展的源动力

机器学习在这几年得到蓬勃发展,其主要动力是:

业务系统发展的历史

最开始的时候基本上是靠人拍脑袋决定业务的方向,后面引入了数据的因素,也就是让一批懂数据分析的人,按照不同的维度整理报表,同样人的因素在里面依然重要。结论准确不准确,依靠的是这个人的经验如何。

而第三个阶段就是机器学习,可以分为离线以及在线学习。

在线学习和离线学习在算法层面其实没有什么差异。

机器学习的典型应用

关联规则

最典型的案例是啤酒和尿布,具体的可见什么是机器学习

这个算法也就有了个新的名称,叫“购物篮算法”

聚类

使用聚类可以解决用户细分精准营销的问题。聚类算法可以把一堆消费的数据进行分析,将用户分为若干类。再由业务人员去看哪一类的人员有什么样的消费特征。

朴素贝叶斯和决策树

朴素贝叶斯的典型应用是垃圾邮件识别。

贝叶斯就是通过一些公式计算事件A对事件B的发生概率的影响,所以垃圾邮件识别就是通过邮件的一些特征,比如一些关键词、发件人等来判断该邮件是垃圾邮件的概率。

决策树主要用在防信用卡欺诈上,主要是银行用来进行信贷的风险识别,以决定是否放贷给你,它可以识别你是否有能力偿还贷款,另一方面还可以判断你是否是恶意骗贷。

ctr预估和协同过滤

ctr预估主要用于搜索引擎的互联网广告,对于每条链接,百度都会对它进行点击率进行评估,然后把预测出来的最可能点击的链接放到第一位。里面使用的算法就叫“线性的逻辑回归”

image.png

协同过滤主要用在推荐系统里面。其实就非常类似于之前讲过的购物车分析,只是可能的算法不一样,但是要解决的问题都一样。

自然语言处理和图像识别

自然语言处理又是机器学习的另一个领域了,可以进行

深度学习目前主要用于图像识别,可以对图片进行深度学习 ,识别图片中人物的特征。

image.png image.png

数据分析与机器学习的区别

本章主要介绍数据分析与机器学习之间的区别在哪里。

image.png

常见的算法分类

分类

机器学习的算法相当之多,我们可以进行简单的分类,而且分类的方法也多种多样,

我们可以把算法分为:

对分类数据提前打好了标签,然后对一堆数据进行训练。


image.png

典型的有监督学习算法是分类算法和回归算法,这两者明确给出了最终的目的是什么。比如分类算法给出了Y,也就是明确了最终可以区分出那些是垃圾,那些是正常邮件。

就是我们最终要分的类别其实我们事先是不知道的。最典型的就是聚类。只能让算法自己的推测出Y是什么。

第二种分类的方法是根据我们要解决的问题来进行分类。

image.png

第三种分类是生成模型和判别模型,这种分类算法直指算法本质。

所以他们回答问题的方式是不一样的。

image.png

机器学习常见的算法

image.png image.png

机器学习解决问题的流程

机器学习要解决的问题相对而言还是比较单纯的,一个是预测的问题,一个是聚类的问题。

而预测问题无非就是要预测所属的分类要么就是预测数值,本质上就是要预测的Y是个连续型的变量还是一个离散型的变量。

所以机器学习要解决的问题是比较单纯的。

为什么会出现了这么多算法呢?他们有没有相似性。

下面我们可以介绍一下机器学习总的框架,介绍一下算法的通用的思想和指导的原则。

下面我们来看机器学习是怎么样解决问题的

确定目标

做机器学习之前我们肯定需要先确认业务目标的,看看业务层面要解决什么问题。然后

训练模型

接下来就是构建模型。

模型评估

我们是从历史的数据中得到的模型,需要进行验证,

image.png image.png

参考

初识机器学习-理论篇

上一篇 下一篇

猜你喜欢

热点阅读