迷雾探险13 | IMPALA论文

2019-03-26  本文已影响0人  臻甄
IMPALA:Importance-Weighted Actor-Learner Architectures

论文链接:https://arxiv.org/abs/1802.01561
DMLab-30项目 GitHub:https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/dmlab30

摘要

在本研究中,我们专注于使用单一强化学习智能体与单一参数集解决大型任务集合的问题。在这样的条件下,最主要的挑战是处理越来越大的数据量和不断增加的训练时间——这在单一任务学习中已经是一个挑战。我们开发了一种新的分布式智能体 IMPALA(Importance-Weighted Actor Learner Architecture),它可以扩展到数千台机器上,每秒吞吐量高达 25 万帧。我们通过结合决策和学习分离与新型离策略修正方法 V-trace,达到了很高的吞吐量,实现了稳定学习,这对于学习的稳定性至关重要。我们展示了 IMPALA 在 DMLab-30(DeepMind Lab 环境中一组 30 个任务的集合)和 Atari-57(Arcade Learning Environment 中所有可用的 Atari 游戏)中进行多任务强化学习的有效性。我们的结果展示了 IMPALA 的性能优于之前的智能体,使用的数据更少,更重要的是新方法可以在多任务中展现出积极的迁移性质。

论文三大成果

DMLab-30中允许研究人员训练单个智能体执行多种任务,这涉及了巨大的数据吞吐量,为了高效利用每个数据点,开发了IMPALA来分部署处理数据(250K frams/s)

因为IMPALA受A3C启发,多个actor获得的参数作为经验汇总给总的learner,因此actor有时会落后于learner,因此引入V-trace算法来弥补两者的差异。

DMLab-30

image.png

IMPALA

image.png

V-trace

首先,我们定义:

我们把这个问题看作是马尔可夫决策(MDP)中的discounted infinite-horizon RL问题,它的目标是找到一个策略π,能使未来奖励的总和,即

最大化。而off-policy学习算法的思路是根据动作策略µ来学习另一个策略,如策略π(μ和π可能不同)的价值函数Vπ,我们也把π称为目标策略。

详细的数学计算可以在论文中找到,这里我们简要介绍3点创新:

随着时间s不断推进,价值参数θ会随vs的梯度值不断更新: 同时,价值函数ω也会随策略梯度的变化不断更新: 为了防止函数过早收敛,论文模仿A3C,在里面加入了一个和轨迹方向一致的熵: 智能体的参数就是通过总结这三个不断更新获得的系数进行调整的,简而言之,这是系统计算超参数的方法

结论

image.png

原文地址:https://deepmind.com/blog/impala-scalable-distributed-deeprl-dmlab-30/

上一篇 下一篇

猜你喜欢

热点阅读