介绍一个灵活可重复的强化学习研究的新框架

2018-09-04 本文已影响26人 AI研习社

雷锋网(公众号：雷锋网)按：本文为 AI 研习社编译的技术博客，原标题 How to easily Detect Objects with Deep Learning on Raspberry Pi，作者为研究软件开发人员 Pablo Samuel Castro 和 Google Brain Team 研究科学家 Marc G. Bellemare。

翻译 | joker 老赵校对 | Lamaric

强化学习（RL）（https://en.wikipedia.org/wiki/Reinforcement_learning）研究在过去几年中取得了许多的重大进展。这些进步使得智能体可以在超乎常人的水平上玩游戏 - 值得注意的例子包括 DeepMind 的 Atari 平台游戏 DQN（https://deepmind.com/research/dqn/）以及 AlphaGo （https://deepmind.com/research/alphago/）和 AlphaGo Zero（https://deepmind.com/blog/alphago-zero-learning-scratch/），以及 Open AI Five。具体而言，在 DQN 中引入重放存储器可以利用以前的代理经验，大规模的分布式培训（https://deepmind.com/research/publications/asynchronous-methods-deep-reinforcement-learning/）。可以在多个工作进程间分配学习过程，分布式方法允许智能体模拟完整的分布，而不仅仅是他们的期望值，以学习更多完整的世界图景。这种类型的进展很重要，因为产生这些进步的算法还适用于其他领域，例如机器人技术（参见我们最近关于机器人操作（https://ai.googleblog.com/2018/06/scalable-deep-reinforcement-learning.html）和教学机器人的视觉自适应工作（https://ai.googleblog.com/2018/06/teaching-uncalibrated-robots-to_22.html））。

通常，开发这些进步需要快速迭代设计

- 通常没有明确的方向 - 并破坏既定方法的结构。然而，大多数现有的 RL 框架不提供灵活性和稳定性的组合，使研究人员能够有效地迭代 RL

方法，从而探索可能没有直接明显益处的新研究方向。此外，从现有框架再现结果通常太耗时，这可能导致科学的再现性问题。

今天我们介绍一种新的基于Tensorflow的框架（https://github.com/google/dopamine），旨在为新的和经验丰富的 RL 研究人员提供灵活性，稳定性和可重复性。受到大脑中奖励驱动行为（https://en.wikipedia.org/wiki/Dopamine_receptor）的主要成分之一的启发，并反映了神经科学与强化学习研究之间强烈的历史联系，该平台旨在实现可以推动激进发现的那种投机性研究。此版本还包括一组 colabs阐明如何使用我们的框架。

使用方便

清晰和简洁是该框架设计中的两个关键考虑因素。我们提供的代码是紧凑的（大约15个Python文件）（https://github.com/google/dopamine/blob/master/docs/api_docs/python/index.md），并且有详细记录。这是通过专注于 Arcade学习环境（一个成熟的，易于理解的基准）（https://arxiv.org/abs/1207.4708）和四个基于价值的代理来实现的：DQN，C51，一个精心策划的 Rainbow 智能体的简化版本，以及隐式分位数网络代理，在上个月的国际机器学习大会（ICML）上发表。我们希望这种简单性使研究人员能够轻松了解代理的内部运作并快速尝试新的想法。

可重复性

我们对可重复性在强化学习研究中的重要性特别敏感。为此，我们为代码提供完整的测试覆盖率; 这些测试也可作为其他形式的文档。此外，我们的实验框架遵循Machado等人（2018）（https://arxiv.org/abs/1709.06009）给出的建议。关于使用 Arcade 学习环境标准化经验评估。

基准

对于新研究人员来说，能够根据既定方法快速对其思想进行基准测试非常重要。因此，我们在 Arcade 学习环境支持的60个游戏中提供四个提供的代理的完整训练数据（https://github.com/google/dopamine/tree/master/docs#downloads），可用作 Python pickle 文件（用于使用我们的框架训练的代理）和 JSON 数据文件（用于与使用其他框架训练的代理进行比较）（https://github.com/google/dopamine/tree/master/baselines/data）; 我们还提供了一个网站，你可以在其中快速查看所有60个游戏中所有提供的智能体的训练运行。下面我们将展示我们在 Seaquest 上的4个智能体的训练，这是由 Arcade 学习环境支持的 Atari 2600游戏之一。

我们在 Seaquest 的 4 个智能体参加了训练。 x 轴表示迭代，其中每次迭代是 100 万个游戏帧（4.5 小时的实时游戏）; y 轴是每场比赛获得的平均分数。阴影区域显示来自 5 次独立运行的置信区间。

我们还提供来自这些代理的的深度网络，原始统计日志以及用于使用Tensorboard 绘图（https://www.tensorflow.org/guide/summaries_and_tensorboard）的 Tensorflow 文件。这些都可以在我们网站的下载部分（https://github.com/google/dopamine/tree/master/docs#downloads）找到。

我们希望我们的框架的灵活性和易用性将使研究人员能够尝试新的思想，包括渐进式和激进式。我们已经积极地将它用于我们的研究，并发现它使我们能够灵活地快速迭代许多想法。我们很高兴看到更大的社区可以做些什么。在我们的 github 仓库（https://github.com/google/dopamine）中查看，让我们知道你的想法！

致谢

因为与谷歌之间的多次合作，这个项目才有可能实现。

核心团队包括Marc G. Bellemare，Pablo Samuel Castro，Carles Gelada，Subhodeep

Moitra和Saurabh Kumar。我们还要特别感谢Sergio Guadamarra，Ofir Nachum，Yifan

Wu，Clare Lyle，Liam Fedus，Kelvin Xu，Emilio Parisoto，Hado van

Hasselt，Georg Ostrovski和Will Dabney以及Google帮助我们测试它的许多人。

原文链接：https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

点击网址：AI 研习社阅读更多精彩内容

针对 3D 计算机视觉的简介

十大预训练模型助你学习深度学习 —— 计算机视觉篇

在树莓派上实现人脸识别

用深度学习技术，让你的眼睛可以控制电脑

斯坦福CS231n李飞飞计算机视觉经典课程（中英双语字幕+作业讲解+实战分享）

等你来译：

用OpenCV实现神经网络画风迁移

在容器生态中运行 GPU

医学图像文本注释的实例

介绍一个灵活可重复的强化学习研究的新框架

猜你喜欢

热点阅读