必读论文|20篇强化学习研究必读论文速递

2020-05-06 本文已影响0人学术头条

强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。

本期Aminer特推出20篇强化学习必读论文。

Emergent Tool Use From Multi-Agent Autocurricula

链接：https://www.aminer.cn/pub/5e5e18bb93d709897ce2b772/emergent-tool-use-from-multi-agent-autocurricula
作者：Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch

本篇论文作者前六位来自Open AI, 第七位作者来自Google Brain. OpenAI是在游戏开发行业中使用机器学习的领先者之一。此论文展示了一个游戏AI演示，它学习如何在捉迷藏游戏中形成自己的获胜策略。通过隐式的课程学习中，在一个具备互动和竞争机制的环境中，不同的智能体之间可以持续地找到新任务，它们也就可以持续地学会新的策略。

Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables

链接：https://www.aminer.cn/pub/5cede10dda562983788eda33/efficient-off-policy-meta-reinforcement-learning-via-probabilistic-context-variables
作者：Kate Rakelly, Aurick Zhou, Deirdre Quillen, Chelsea Finn, Sergey Levine

这篇论文由Berkeley Artificial Intelligence Research (BAIR) Lab 发表在ICML 2019上。主要贡献在于提出了一种新的视角来解决元学习中任务的学习样本利用率不高的问题。这篇工作致力于用task encoding的方法来解决如何从过去学习的任务中针对新的任务获取有效的信息，以及如何对新任务的不确定性做出更准确的判断的问题。此篇论文将task inference与learning过程分离的点子来自于POMDPs的探索过程，通过这样的分离，使得meta-RL中对样本的利用率提高。

Guided Meta-Policy Search

链接：https://www.aminer.cn/pub/5cede0e6da562983788c4d61/guided-meta-policy-search
作者：Russell Mendonca, Abhishek Gupta, Rosen Kralev, Pieter Abbeel, Sergey Levine, Chelsea Finn

传统的元强化学习方法在meta-training过程中需要大量的数据，因为很多是on-policy的。在许多问题中很难满足。本篇论文探索在元学习阶段（learn a RL procedure；外循环）提供监督信息，实际使用有监督的模仿学习，这样可以充分利用off-policy数据，内循环仍然是一个RL学习。模仿的专家策略可以是标准强化学习方法自动产生的，这样实际上不需要额外的监督假设。如果能结合人类的范例，可以更有效地训练。在meta-training阶段使用范例能在元优化阶段有效帮助探索，使其在稀疏奖励环境下更有效地学习。

Using a Logarithmic Mapping to Enable Lower Discount Factors in Reinforcement Learning

链接：https://www.aminer.cn/pub/5d04e900da56295d08dd2acf/using-a-logarithmic-mapping-to-enable-lower-discount-factors-in-reinforcement-learning
作者：Harm van Seijen, Mehdi Fatemi, Arash Tavakoli

为了更好地了解折现系数的不同方式是如何影响强化学习的优化过程，本篇论文设计了一套单独研究每种效果的实验。研究表明传统的观点，即低折扣因子表现欠佳是由（太）小的行动差距引起需要修订。研究提出状态空间中行动差距的规模差异是主要的原因，并提出一种新的方法来，以帮助近似的强化学习方法启用较低的折扣因子。

Distributional Reinforcement Learning for Efficient Exploration

链接：https://www.aminer.cn/pub/5cf48a29da56291d5828a61c/distributional-reinforcement-learning-for-efficient-exploration
作者：Borislav Mavrin, Shangtong Zhang, Hengshuai Yao, Linglong Kong, Kaiwen Wu, Yaoliang Yu

在分布强化学习中，价值函数模型的估计分布具有参数和固有的不确定性。本篇论文具有两个组成部分的深度强化学习提供一种新颖且有效的探索方法。首先是通过衰减的时间表，以抑制内在的不确定性。第二是探索根据上分位数计算的奖金学习分配。在Atari 2600游戏中，研究的14个方法中有12个方法优于QR-DQN硬游戏。

6.How to Combine Tree-Search Methods in Reinforcement Learning

链接：https://www.aminer.cn/pub/5bdc31b417c44a1f58a0b3ae/how-to-combine-tree-search-methods-in-reinforcement-learning
作者：Yonathan Efroni, Gal Dalal, Bruno Scherrer, Shie Mannor

本篇论文作者来自以色列理工学院、法国国家信息与自动化研究所。获得2019年AAAI会议的最佳论文奖。有限时域前瞻策略（Finite-horizon lookahead policies）被大量用于强化学习，并得到了令人印象深刻的实证成果。通常，前瞻策略是使用特定的规划方法实现的，例如蒙特卡罗树搜索（例如在 AlphaZero 中）。这些实现中有一种合理的做法是将规划问题视为树搜索，其仅在叶节点处备份值，而在根节点下获取的信息不用于更新策略。本文对这种方法的有效性提出质疑。即，后一个过程通常是非收缩的，并且其收敛性不能保证。本篇论文提出使用最佳树路径的返回值来备份根节点的后代的值。

Better Exploration with Optimistic Actor Critic

链接：https://www.aminer.cn/pub/5db929e347c8f766461fc449/better-exploration-with-optimistic-actor-critic
作者：Kamil Ciosek, Quan Vuong, Robert Loftin, Katja Hofmann

本文是一个对actor-critic算法的改进，这是一种无模型的强化学习算法，它被用于解决连续的控制任务。但是由于它的低样本效率，难以被广泛采用。因此文章将它的问题总结成两个现象：一是悲观的不探索现象，即由于贪婪actor的更新来源于一个悲观的critic的估计而导致的不选择agent不了解的动作的情况；第二个是方向的未知性，即总是以同样的可能性在与当前平均值左右相反的两个方向去采样行动，这种浪费的现象。文章提出一种新算法，被称为OAC，它使用两个一高一低的置信区间进行估计state-action的value函数，高的用于指导探索，低的用于防止过拟合。文章面对的问题是有挑战性的连续控制任务。实验结果证明，使用面对不确定性的乐观原则可以提高策略梯度算法的抽样效率同时几乎不增加额外的计算负担。