深度强化学习Trick:动作标准化

2018-07-29  本文已影响0人  四碗饭儿

策略梯度Policy Gradient类的算法,如DDPG等,可以处理连续动作空间continuous action space。当我们编程实现时,简单的动作标准化可能会大大改善算法的性能。

Action Normalization

策略网络Policy Network的输出采用tanh,也就是

假设动作存在上下界


那么通过初级数学可以得到


上一篇 下一篇

猜你喜欢

热点阅读