深度强化学习Trick：动作标准化

2018-07-29 本文已影响0人四碗饭儿

策略梯度Policy Gradient类的算法，如DDPG等，可以处理连续动作空间continuous action space。当我们编程实现时，简单的动作标准化可能会大大改善算法的性能。