【ICLR2020】基于模型的强化学习算法玩Atari【附代码】

2020-04-15  本文已影响0人  小小何先生
作者及标题信息

所解决的问题?

  model-free的强化学习算法已经在Atari游戏上取得了巨大成功,但是与人类选手相比,model-free的强化学习算法需要的交互数据往往大地多。其根本原因在于人类选手能够很容易学习到游戏的大概运行规律,从而进行预测规划。因此为了达到用少量数据学习控制Atari游戏的目的,作者提出了一种基于video prediction models的model based Simulated Policy Learning (SimPLe)算法,来解决需要大量交互数据的问题。在所学到的model上得到的policy,用于原始model上能够取得较好效果。主要贡献在于将planning算法与learned model结合起来,并取得了SOTA效果。

背景

  人类选手可以在几分钟内学会玩Atari游戏,而及时最好的model-free强化学习方法也需要成百上千步迭代尝试才能达到,需要几周的训练时间。而人类选手能够做地这么好的原因就是:人类已经具备一些先验知识能够预测游戏接下来的走势。也有一些结合深度学习预测下一帧数据的方法,或者是预测奖励的方法,但是它们大多数都是用于model-free的强化学习算法上。model-free的强化学习算法做地比较好的有:RainbowIMPALA两大算法。而基于model-based的强化学习方法能够大大提高采样效率,以往的方法大多都在学习潜在的动力学方程,以及一些新奇的结合好奇心、反事实等东西做一些创新,以及其它的一些改进方法。

所采用的方法?

  使用video prediction技术学习model,并且基于所学到的model训练得到policy。

预测Video

  这一部分主要是依据Junhyuk Oh 2015年在Atari所做的Video prediction的工作,和Silvia Chiappa在2017年所做的Recurrent environment simulators这两篇文章来做的。本文作者主要是focus在学习如何预测才能更好地玩游戏,而不是在学习如何预测,而学习出来的model用于得到policy,并且在原环境model上也能取得较好效果。

  Felix Leibfried在 2016 年将Video prediction的工作扩展到Video和reward的同时预测,但是并没有基于预测结果去做得到policy的这部分工作。大多数的这些类似的工作(包括本文)都是在隐式地编码游戏的模型。

  为了获取更好的预测video的网络结构,作者基于models developed in the context of robotics和下述文献提出了stochastic video prediction model。

  predictive model has stochastic latent variables so it can be applied in highly stochastic environments

model-based

  作者用的ppo算法。

整体算法

  大体上的思路:其实就是用神经网络构建一个环境模型(world model),基于这个学习到的world model去得到policy,然后再拿这个policy与真实的环境进行交互,收集数据,然后更新神经网络训练得到的world model。算法伪代码如下:

SimPle

  目的就是为了在减少与真实的环境互动的同时,获得在真实环境上较好的policy。初始的world model训练数据来自真实环境的随机rollout数据。

SimPle的主循环

  为了获取更好的world model,作者尝试了很多结构,最终提出一种 novel stochastic video prediction model 如下图所示:

网络结构

取得的效果?

  SimPLe在大多数游戏中比现今的SOTA算法还具有更高的采样效率。具体实验结果可以查看论文,主要是应用在Atari上的工作。

所出版信息?作者信息?

  论文已被ICLR2020接收,作者Lukasz Kaiser谷歌大脑成员,主要研究神经网络和NLP领域,早期有做机器博弈相关理论研究。

Lukasz Kaiser

其它参考链接

相关文献

微信公众号
上一篇 下一篇

猜你喜欢

热点阅读