深度强化学习Trick:动作标准化
2018-07-29 本文已影响0人
四碗饭儿
策略梯度Policy Gradient
类的算法,如DDPG等,可以处理连续动作空间continuous action space
。当我们编程实现时,简单的动作标准化可能会大大改善算法的性能。
Action Normalization
策略网络Policy Network
的输出采用tanh
,也就是
假设动作存在上下界
那么通过初级数学可以得到
策略梯度Policy Gradient
类的算法,如DDPG等,可以处理连续动作空间continuous action space
。当我们编程实现时,简单的动作标准化可能会大大改善算法的性能。
策略网络Policy Network
的输出采用tanh
,也就是
假设动作存在上下界
那么通过初级数学可以得到