前沿科普丨黄涌铭：机器学习三大分类

2017-07-02 本文已影响294人烛微虑远

文章來源：涂乐30分

机器学习的对象是数据，根据数据是否有标签可以分成三类

一、监督学习（supervised learning）

监督学习的工作，就是通过有标签的数据训练，获得一个模型，然后通过构建的模型，给新数据添加上特定的标签。其对象主要是带有标签的数据。

其实，监督学习就是分类（classification）的代名词。它从有标签的训练数据中学习，然后给定某个新数据，预测它的标签（given data, predict labels）。这里的标签（label），其实就是某个事物的分类。

例如，小时候父母告诉你那那就是一只小狗，见多听的多了，你的大脑中就形成不断训练出识别狗的模型，下次你见到一个动物就会根据大脑中的模型判断它是狗还是猫。所以不断的见识某种对象的过程，就是不断在训练大脑中的模型，同时也是在不断输出判断，给目标对象加识别标签。

二、无监督学习（unsupervised learning）

相对监督学习，无监督学习主要针对的是无标签数据。可以认为无监督学习主要是聚类（cluster）的代名词。

给定数据，从数据中学，能学到什么，就看数据本身具备什么特性了（given data, learn about that data）。我们常说的“物以类聚，人以群分”就是“无监督学习”。

例如我们把某些具备相似特征的动物汇纳定义为同一类，例如狗（注意，未归类定义之前，我们并不知道它们叫什么），我们完成归类并输出定义就是训练出模型了，这时候再来一个具备类似特征的动物，我们通过模型判断可将其归到狗类中。

三、半监督学习（semi-supervised learning）

这类学习方式，既用到了标签数据，又用到了非标签数据。兼具监督学习和无监督学习。

例如，我们从小有父母教，有老师教，有人告诉我们事物的对与错（即对事物打了标签），然后我们可据此改善自己的认知和性情，慢慢把自己调教得更有“教养”，这个过程大脑主要通过监督学习来训练。大学毕业走上社会走上工作岗位，接触新知识，进入新环境，我们需要独立自立，没有人告诉你对与错，一切都要基于自己早期已获取的知识为基础，从社会中学习，自己汇纳演绎，扩大并更新自己的认知体系，这个过程大脑主要通过无监督学习来训练。

又例如，A同学和B同学是DBA，C同学经常跟他们讨论数据库技术，参加数据库技术大会，通过这些特征信息，可以给C同学打个标签也是DBA。

半监督学习就是以“已知之认知（标签化的分类信息）”，扩大“未知之领域（通过聚类思想将未知事物归类为已知事物）”。但这里隐含了一个基本假设——“聚类假设（cluster assumption）”，其核心要义就是：“相似的样本，拥有相似的输出”。

Everything just begins.

前沿科普丨黄涌铭：机器学习三大分类

一、监督学习（supervised learning）

二、无监督学习（unsupervised learning）

三、半监督学习（semi-supervised learning）

猜你喜欢

热点阅读