OpenAI的ES算法以及变体

2022-07-26  本文已影响0人  臻甄

1 Evolution Strategies(ES)

摘要:我们探索使用进化策略(ES),一类黑盒优化算法,作为流行的基于 MDP 的 RL 技术(如 Q 学习和策略梯度)的替代方案。 在 MuJoCo 和 Atari 上的实验表明,ES 是一种可行的解决方案策略,可以很好地随可用 CPU 数量扩展:通过使用基于常见随机数的新颖通信策略,我们的 ES 实现只需要通信标量,从而可以扩展 超过一千个并行worker。 这使我们能够在 10 分钟内解决 3D 人形步行问题,并在经过一小时的训练后在大多数 Atari 游戏中获得有竞争力的结果。 此外,我们强调了 ES 作为黑盒优化技术的几个优点:它不受动作频率和延迟奖励的影响,容忍极长的视野,并且不需要时间贴现或价值函数逼近。

1.1 常规ES

1.2 并行化的ES

2.3 参数空间的扰动 vs 动作空间的扰动

2. NS-ES

摘要:进化策略 (ES) 是一系列黑盒优化算法,能够在具有挑战性的深度强化学习 (RL) 问题上大致训练深度神经网络以及 Q 学习和策略梯度方法,但速度要快得多(例如,几小时与天),因为它们可以更好地并行化。然而,许多 RL 问题需要定向探索,因为它们具有稀疏或欺骗性的奖励函数(即包含局部最优值),并且不知道如何用 ES 鼓励这种探索。在这里,我们展示了通过探索agent群体,特别是新颖性搜索(NS)和质量多样性(QD)算法,可以与 ES 混合以提高其在小规模进化神经网络中的性能,提高稀疏或欺骗性的深度强化学习任务的性能,同时保持可扩展性。我们的实验证实,由此产生的新算法 NS-ES 和两个 QD 算法 NSR-ES 和 NSRA-ES 避免了 ES 遇到的局部最优,从而在 Atari 和模拟机器人学习绕过欺骗性陷阱时获得更高的性能。因此,本文介绍了一系列能够进行定向探索的快速、可扩展的强化学习算法。它还将这个新的探索算法系列添加到 RL 工具箱中,并提出了一个有趣的可能性,即具有多个同时探索路径的类似算法也可能与 ES 之外的现有 RL 算法很好地结合。

2.1 Evolution Strategies (ES)

2.2 Novelty Search Evolution Strategies (NS-ES)

2.3 QD-ES (NSR-ES and NSRA-ES)

实验

参考

https://echenshe.com/class/ea/1-01-intro.html
https://hujian.gitbook.io/deep-reinforcement-learning/fang-fa/jie-ji-you-xi/es

上一篇下一篇

猜你喜欢

热点阅读