DeepMind我爱编程

深度强化学习

2016-03-15  本文已影响7504人  朱小虎XiaohuZhu

Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。

David Silver,Google DeepMind
slide
lecture

强化学习观点:人工智能=强化学习

强化学习是一种人工智能的通用框架:

  1. RL 是针对一个拥有行动能力的 agent 而言的
  2. 每个行动影响了 agent 的未来状态
  3. 使用标量值回报信号来度量成功

一言以蔽之:选择行动来最大化未来回报。我们最终的目标是寻求得到可以解决所有人类层级的任务的单一的 agent,这也是智能 agent 的本质。

agent 和环境

RL 结构

强化学习的例子

这里给出一些强化学习适用的场景:

  1. 控制物理系统:行走、飞行、驾驶、游泳、……
  2. 与用户进行交互:客户维护 retain customers、个性化频道 personalise channel、用户体验优化 optimise user experience、……
  3. 解决物流问题:规划 scheduling、带宽分配 bandwidth allocation、电梯控制、认知无线电 cognitive radio、电力优化 power optimisation、……
  4. 游戏:棋类、扑克、围棋、Atari 游戏、……
  5. 学习序列化算法:注意力 attention、记忆 memory、条件计算 conditional computation、激活 activation、……

策略 policy 和估值 value 函数

强化学习的几个方向

深度强化学习

贝尔曼 Bellman 方程

深度 Q-学习

深度强化学习的稳定性问题

使用神经网络进行简易的 Q-学习会震荡或者发散,原因如下:

  1. 数据是序列化的
  1. Q-值微小的变动会剧烈地影响策略
  1. 回报和 Q-值的值范围未知

深度 Q-网络 DQN

DQN 给出了基于值的深度强化学习一个稳定的解

  1. 使用经验回放
  1. 固定目标 Q-网络
  1. 剪切回报或者规范化网络到一个可行的范围内

稳定深度强化学习 1:经验回放

为了移除关联,从 agent 自身的经验中构建数据集合:

稳定深度强化学习 2:固定目标 Q-网络

为了避免震荡,固定在 Q-学习目标中使用的参数

稳定深度强化学习 3:回报/值范围

使用强化学习来玩 Atari 游戏

这确实是一个很自然的应用。


Atari 游戏

DQN 用在 Atari 游戏中

Minh et al.

DQN 在 Atari 游戏中的结果

results

Demo 省略

DQN 起到多大作用

DQN improvements

规范化 DQN

Demo 省略(规范化的 DQN 在 PacMan 中的表现)

Gorila(GOogle ReInforcement Learning Architecture)

Gorila 架构

稳定深度强化学习 4:并行更新

Vanilla DQN 在并行时表现得不稳定。我们使用下面的方式克服这个问题:

Gorila 结果

使用 100 并行行动器和学习器

Gorila DQN 在 Atari 中的结果:

Paste_Image.png

连续行动的确定性策略梯度

确定性 Actor-Critic 模型

使用两个网络:actor 和 critic

确定性深度 Actor-Critic

  1. 对 actor 和 critic 都使用经验回放
  2. 使用目标 Q-网络来避免震荡

∂L(w)/∂w = Es,a,r,s'∼D [��(r + γQ(s', π(s'), w) − Q(s, a, w)) ∂Q(s, a, w)/∂w]
∂J(u)/∂u = Es,a,r,s'∼D [∂Q(s, a, w)/∂a ∂π(s, u)/∂u]

DDAC 进行连续行动控制

DDAC 架构

��

DDAC demo 略

基于模型的强化学习

其目标是学习一个环境转移模型:
p(r, s'| s, a)

使用转移模型进行规划

Model-Based RL

深度模型

DARN Demo 略

基于模型的强化学习的挑战

复合错误:

深度估值/策略网络可以隐式地进行规划

深度学习应用在围棋中

Monte-Carlo 搜索

卷积网络

Paste_Image.png

结论

问题?

“The only stupid question is the one you never ask.” - Richard Sutton

更多深度强化学习的资源

上一篇下一篇

猜你喜欢

热点阅读