举例理解监督学习、无监督学习、半监督学习和强化学习的区别

2018-11-09 本文已影响62人花间独酌酒一壶

Machine learning机器学习是Artificial inteligence的核心，分为四类：

1、Supervised learning监督学习

是有特征（feature）和标签（label）的，即便是没有标签的，机器也是可以通过特征和标签之间的关系，判断出标签。举例子理解：高考试题是在考试前就有标准答案的，在学习和做题的过程中，可以对照答案，分析问题找出方法。在高考题没有给出答案的时候，也是可以给出正确的解决。这就是监督学习。

一句话概括：给定数据，预测标签。

通过已有的一部分输入数据与输出数据之间的对应关系，生成一个函数，将输入映射到合适的输出，例如分类。

2、Unsupervised learning无监督学习

只有特征，没有标签。举例子理解：高考前的一些模拟试卷，是没有标准答案的，也就是没有参照是对还是错，但是我们还是可以根据这些问题之间的联系将语文、数学、英语分开，这个过程就叫做聚类。在只有特征，没有标签的训练数据集中，通过数据之间的内在联系和相似性将他们分成若干类。

一句话概括：给定数据，寻找隐藏的结构。

直接对数据集建模。

以上两者的区别：监督学习只利用标记的样本集进行学习，而无监督学习只利用未标记的样本集。

3、Semi-Supervised learning半监督学习

使用的数据，一部分是标记过的，而大部分是没有标记的。和监督学习相比较，半监督学习的成本较低，但是又能达到较高的准确度。

综合利用有类标的和没有类标的数据，来生成合适的分类函数。

半监督学习出现的背景：实际问题中，通常只有少量的有标记的数据，因为对数据进行标记的代价有时很高，比如在生物学中，对某种蛋白质的结构分析或者功能鉴定，可能会花上生物学家很多年的工作，而大量的未标记的数据却很容易得到。

4、Reinforcement learning强化学习

强化学习也是使用未标记的数据，但是可以通过一些方法知道你是离正确答案越来越近还是越来越远（奖惩函数）。可以把奖惩函数看作正确答案的一个延迟、稀疏的形式。可以得到一个延迟的反馈，并且只有提示你是离答案越来越近还是越来越远。