邂逅黑科技之强化学习(一)
2018-07-10 本文已影响0人
zqh_zy
偶然遇到一篇论文, 使用强化学习搞实体关系抽尝试取解决远程监督带来的数据噪声问题,由于之前调研过关系抽取相关的技术方法,瞬间感叹RL还可以这样用!虽然之前也了解过强化学习用在NLP上的一些方式,但一直是知道个思路,对RL具体技术方法仍然不甚了解。因此,工作之余,茶语饭后,刷了一些课程,读了一些书籍资料,并打算整理一波。
网上RL的文章资料非常之多,因此文章避免概念性介绍,更是一种笔记形式,主要希望理清RL主要算法及其关系,包括三部分:
- 强化学习算法分类和关系
- 经典强化学习算法理解与实现
- 强化学习感性与理论理解
强化学习分类:
强化学习的算法非常多,也可以有多种不同的分类方法,大体上可以分为基于值函数的方法(包括动态规划、时序差分学习等)、基于策略函数的方法(包括策略梯度等)以及融合两者
的方法。不同算法之间的关系如图:
![](https://img.haomeiwen.com/i2159902/d84c56828f97a1c6.png)
另外也可以从model based 和model free的角度来分:
![](https://img.haomeiwen.com/i2159902/5d7b58103384d9bf.png)
不同的方法也各有其特点,可以在后面做相应总结,后面的文章分别从Policy based经典算法和Value based的经典算法细细展开。
经典强化学习算法
强化学习的经典算法分别按Policy based和Value based展开来讲,整体脉络和李宏毅老师的强化学习课程一致,最后会结合David Silver的课程中的理论,尝试把知识串联在一起。
后面的内容结构包括:
![](https://img.haomeiwen.com/i2159902/ffa1eb5882890a85.png)
可以理解Policy based方法是学习一个可以做决策的Actor,希望在某一个状态下做一个最有益的决策;Value based方法是学习一个reward评估的Critic,评估在某个状态下采取每个action可能获得的收益。进一步有:
- Policy based 算法:
- Policy Gradient
- Proximal Policy Optimization(PPO)
- Distributed Proximal Policy Optimization(DPPO)
- Value based 算法
- Q learning
- Actor-Critic算法 (Policy和Value的结合)
原创文章,转载注明出处。
更多关注公众号:
![](https://img.haomeiwen.com/i2159902/e28220521b7ef499.jpg)