深度强化学习(1) 什么是深度强化学习?
本文主要内容来源于 Berkeley CS285 Deep Reinforcement Learning
强化学习
一般来说机器学习模式可以分为三类:
- 有监督学习: Supervised Learning
- 无监督学习: Unsupervised Learning
- 强化学习: Reinforcement Learning
![](https://img.haomeiwen.com/i25067830/bc66ed265aa918c7.png)
强化学习与其他两种机器学习模式差距很大, 解决的问题也有很大不同。由于强化学习涉及概念比较多, 而且训练比较难, 所以在一般的机器学习书籍中, 都不会涉及强化学习, 而是由专门的书籍介绍。
有监督学习和无监督的学习的输出一般都是确定性的答案, 比如: 模型会给出数据归属于哪一个类型, 或者给出一个数值型的预测结果。 而强化学习的目标是训练一个 agent, 这个agent 会根据环境反馈, 输出一系列决策, 而不是只输出一个结果。 相比其他两种模型, 强化学习模型更加类似人类大脑, 可以根据环境, 不断的做出决策。
![](https://img.haomeiwen.com/i25067830/007643ed6df84e6c.png)
深度强化学习 是把深度学习中的神经网络引入强化学习后得到的模型。
强化学习的应用大家其实并不陌生, 一下都是一些很有名的应用。
玩游戏
AlphaStar : 强化学习玩《星际争霸2》
![](https://img.haomeiwen.com/i25067830/3d5ba501ecfa01ec.png)
棋类游戏
最有名的就是击败了人类围棋高手的 AlphaGo
![](https://img.haomeiwen.com/i25067830/a7a44180883d3b4c.png)
自动驾驶
自动驾驶是司机(agent)在环境(道路)的反馈下, 做出一系列决策的过程。这个过程非常符合强化学习模型的决策过程。
![](https://img.haomeiwen.com/i25067830/83ef3bb5f7792563.png)
工业自动化
强化学习可以用来控制生产线上的各种工业机器人的活动。
![](https://img.haomeiwen.com/i25067830/9b2a82b834df20b5.png)
自动化金融交易
金融交易其实也是基于金融市场的一系列的决策过程, 很符合强化学习的范式。 目前这个领域已经有了大量的研究成果。
![](https://img.haomeiwen.com/i25067830/df752ae7061b0840.png)
自然语言处理 (Natural Language Processing, NLP)
由于语言资料也可以视为时序数据, 因此我们也可以用强化学习来解决 NLP中的问题。
![](https://img.haomeiwen.com/i25067830/db355445b8933b20.png)
医疗决策
强化学习可以用来优化治疗手段, 这类研究被归为 dynamic treatment regimes (DTRs) 问题。
![](https://img.haomeiwen.com/i25067830/0e50d3332581bf61.png)
工业生产线
Meta 开发了 Horizon,一个开源的强化学习平台,用来提升大规模生产线的效率。 Horizon: The first open source reinforcement learning platform for large-scale products and services
推荐系统
由于强化学习可以对环境的变化做出很好的反馈, 所以相比较传统推荐系统, 基于强化学习的推荐系统可以更快的适应用户兴趣点的变化。
![](https://img.haomeiwen.com/i25067830/bc94d0bbdaf46f62.png)
实时竞价
在线广告系统每秒中都会做出大量的决策, 强化学习可以帮助在线广告系统在短时间内快速的做出决策。
参考资料:
- 10 Real-Life Applications of Reinforcement Learning
- CS285: Deep Reinforcement Learning 01
- Reinforcement Learning 101
- Reinforcement Learning: The Business Use Case, Part 2
- Awesome RL NLP
- Reinforcement Learning in Healthcare: A Survey
- Horizon: The first open source reinforcement learning platform for large-scale products and services