强化学习第2课：强化学习，监督式学习，非监督式学习的区别

2018-11-05 本文已影响14人不会停的蜗牛

现在让我们看一下强化学习和其他机器学习方法的对比。

在监督式学习中，我们有数据集，还有数据对应的标签。主要的任务是要让预测值尽量接近于这些标签。

监督学习还有一个很重要的特点，就是它的数据要满足独立性。这对于使用SGD等算法，需要对数据进行采样时非常重要。

而在强化学习中却没有这些假设条件：
我们没有数据集，但是我们有一个系统，可以从中取样数据。
我们也没有想要得到的结果标签，因为没有专家告诉我们要做什么。

不过我们可以自己尝试，通过采取一些行动，会有一个评判标准给我们正面或者负面的反馈。
例如在广告点击率这个问题中，我们得到的反馈就可以是用户点击网页后我们得到的钱。

而且不管我们用什么算法，都应该把所有可能的行为都探索一下，以免我们错过了一个最优的方法，甚至从来没有学习过这个方法。

强化学习另一个问题是 agent。
agent 的观察会影响他的决策，他的决策也影响了他的观察。
例如想让他学习骑自行车，如果每次总是向左转，那么就没有办法获得向右转的数据点。

同时还需要非常细心的去探索状态的空间，不然的话就会对问题有错误的解读，无法掌握问题的全局和完整性。

非监督式学习也和强化学习有很大的不同。

虽然都没有专家告诉我们答案，但是非监督式学习在做不一样的事情。

它并没有像强化学习那样去学习一个优化的策略，而是尝试去描述数据，
尝试去寻找一些隐藏的结构，和寻找一个策略是不同的。
就相当于学会如何骑自行车要比懂得自行车的结构简单的多。

虽然说了几点强化学习和监督式学习，非监督式学习之间的区别，
但在解决实际问题时，你会发现它们会混合起来使用，比如说在强化学习中会使用一些监督式学习或非监督式学习。

推荐阅读历史技术博文链接汇总
 http://www.jianshu.com/p/28f02bb59fe5
也许可以找到你想要的：
[入门问题][TensorFlow][深度学习][强化学习][神经网络][机器学习][自然语言处理][聊天机器人]

Hello World ！
This is 不会停的蜗牛 Alice ！
🐌 要开始连载强化学习系列啦！
今天开始我们一起来每天 2 分钟，get 强化学习的一个小知识吧！