Q学习延伸至DDPG算法公式 2020-07-08 本文已影响0人 天使的白骨_何清龙 Q learning原始损失函数定义: Q的贝尔曼方程: 确定性策略的Q定义: 其中的action a就是由确定的。而 DPG的轨迹分布函数定义: DDPG改进: 利用分布式独立探索,在策略中加入一个来自轨迹N的噪音 Loss function: 参数更新方式,2个部分: