APE-X

2020-09-27  本文已影响0人  臻甄

论文:《Distributed Prioritized Experience Replay
会议:ICLR 2018

背景1:DQN进化史

引自《Deep Learning for Video Game Playing》

Ape-X在左下角:DQN --> Prioritized DQN --> Ape-X DQN --> Ape-X DQfD (Dueling)

问题

在Nature DQN出来之后,肯定很多人在思考如何改进它。那么DQN有什么问题呢?
(1)目标Q值的计算准确吗?全部通过max Q来计算有没有问题?
(2)随机采样的方法好吗?按道理不同样本的重要性是不一样的Q值代表状态,动作的价值,那么单独动作价值的评估会不会更准确?
(3)DQN中使用\epsilonϵ-greedy的方法来探索状态空间,有没有更好的做法?
(4)使用卷积神经网络的结构是否有局限?加入RNN呢?
(5)DQN无法解决一些高难度的Atari游戏比如《Montezuma’s Revenge》,如何处理这些游戏?
(6)DQN训练时间太慢了,跑一个游戏要好几天,有没有办法更快?
(7)DQN训练是单独的,也就是一个游戏弄一个网络进行训练,有没有办法弄一个网络同时掌握多个游戏,或者训练某一个游戏后将知识迁移到新的游戏?
(8)DQN能否用在连续动作输出问题?

解决 参考

背景2:大规模深度强化学习发展史 link

大规模深度强化学习要充分的利用大规模的cpu-gpu 计算资源来实现神经网络模型的高效训练。

总结:基于OpenAI Dota 2或SEED RL可以取得目前最佳的CPU-GPU使用效率,但效果好不好还要看数据样本好不好。

Ape-X

强化学习征服的几个灵域:【AI改变游戏设计

当我们以为Rainbow就是Atari游戏的巅峰时,Ape-X出来把Rainbow秒成了渣!link

Ape-X直接把性能翻了一倍,而且,更关键是还学的更快,快太多了!看上图右边的具体游戏示例,Pong乒乓游戏在大概半小时内就训练到极致了,原始DQN需要好几天!

实现方式:

只使用一个learner和一个Replay buffer,但是分布式的使用了多个Actor来生成数据,paper中实验使用了360个Actor(一个Actor一个CPU)

APE-X

特点

Actor算法 Learner算法

实现思路

step1:实现DQN
step2:实现带Priority Replay Buffer的DQN: https://blog.csdn.net/maqunfi/article/details/90897587
step3:实现并行架构,多个actor产出数据给learner训练

其他资料

上一篇 下一篇

猜你喜欢

热点阅读