机器学习算法 分类

2019-03-23  本文已影响0人  郑佳露

分类算法是机器学习中的一个重点,也是人们常说的“有监督的学习”。这是一种利用一系列已知类别的样本来对模型进行训练调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。

分类VS回归

分类和回归看上去有一些相似之处,从直观感觉上去认识,可以这么感觉:因变量是定量型的归纳学习称为回归,或者说是连续变量预测;因变量是定性型的归纳学习称为分类,或者说是离散变量预测。

从实时收集的路况来预测某地段目前的行车速度为多少米每秒是典型的回归归纳过程,而预测这个路段的行车状态是“畅通”、“繁忙”、“拥堵”则是典型的分类归纳过程

分类算法的应用场景

分类算法是一大类算法,都是用来解决这种离散变量预测的,举例如下。

在银行的信用卡审批这一环节会用到分类的例子,应不应该给一个人办理信用卡呢?应该给一个申请人分配多少金额呢?尤其在有大量的申请人及调额申请的情况下。在这里会比较密集地用到分类算法。

朴素贝叶斯

朴素贝叶斯分类的方式不太一样。贝叶斯概率研究的是条件概率,也就是研究的场景就是在带有某些前提条件下,或者在某些背景条件的约束下发生的概率问题。

天气预报和疾病的预测-基因测序 是非常典型的运用上述方式的例子

小结

我们看看贝叶斯理论体系是在干什么?

在我看来,贝叶斯的理论体系其实揭示的是一种非常典型的人类自身的推测逻辑行为。

例如,在黄昏的时候走在自己居住的小区里,光线很昏暗,前面突然闪过一个影子,从路一边的草丛蹿到另一边,速度较快体型较大,其他信息没捕捉到。这时候大概会猜测,这有可能是一只较大的家犬。而如果是在非洲大草原上,从越野车里同样看到昏暗的草原上蹿过一个速度较快体型较大的动物,也许会猜测那是一头狮子,或者一头猎豹。这两种猜测对于捕捉到的对象信息都是非常有限的,而且内容相近,但是得出两种不同的推测。原因很简单,就是因为当时的环境不同,导致的两种事件的概率不同,带有比较明确的倾向性。也就是说,正常人的逻辑推断不会和上述例子相反,不会在小区里推断出现狮子或者猎豹,也不会推断在非洲大草原上出现家犬。这种推断的思路或者方式本身就是贝叶斯理论体系的核心内容。

朴素贝叶斯是一种机器学习的思想,而不是一个简单的直接套用的公式。而且在用朴素贝叶斯方式进行分类机器学习时还经常需要使用其他一些辅助的建模手段。朴素贝叶斯在生产生活中作为机器学习手段的场景确实非常多,是一种使用很广泛的方式,所以也很重要

决策树归纳

熵,越混乱,越大。一刀切的问题。

信息增益,学历Vs年龄(连续型变量), 学历是个很好的值

随机森林

看到“森林”这个词,很容易联想到前一节介绍的决策树,很多很多树就可以构成森林。确实,和前面的决策树归纳的过程类似,随机森林是一个构造决策树的过程,只是它不是要构造一棵树,而是构造许多棵树。

在决策树的构造中会遇到过拟和欠拟的问题,在随机森林算法中,通常在一棵树上是不会追求及其精确的拟合的,而相反,希望的是决策树的简洁和计算的快速。

维特比算法

维特比算法整体的思路就是在寻找收到的上一段信息和它后面跟随的下一段信息的转移概率问题——在这段信息后最可能出现的是哪些前置内容。

再来看一个和生活更贴近的例子——打字软件猜测输入内容对应文字

分类属于有监督的学习过程,这个过程中使用者可以根据经验以及数学推导等辅助方法给机器一些指导,帮助机器剪枝、收敛、去噪等,让计算变得更加快捷,更加准确。

应用场景  商品图片分类, 基于文本内容的垃圾短信识别,广告点击行为的预测

上一篇 下一篇

猜你喜欢

热点阅读