SAC

2020-12-15  本文已影响0人  臻甄

SAC:Soft Actor-Critic
原文:《Soft Actor-Critic:
Off-Policy Maximum Entropy Deep Reinforcement
Learning with a Stochastic Actor》

代码:https://github.com/rail-berkeley/softlearning (原作者实现)
其他代码实现: vitchyr/rlkitopenai/spinninguphill-a/stable-baselinespytorch-soft-actor-critic(OAC作者的参考代码)

简介:

SAC属于Continuous State Space、Continuous Action Space领域
而连续领域中最有效的三类方法:

简单说说PPO

SAC

SAC 特点

最大化熵强化学习(Maximum Entropy Reinforcement Learning)MERL

Energy Based Policy(EBP)
MERL采用了独特的策略模型。为了适应更复杂的任务,MERL中的策略不再是以往的高斯分布形式,而是用基于能量的模型(energy-based model)来表示策略。让EBP与值函数联系起来,设定能量函数

,所以策略

理论推导思路

SAC更新方式

SAC的自动熵调整(Automating Entropy Adjustment)

SAC的实际算法

SAC伪代码

SAC总结

SAC表现

参考资料

https://zhuanlan.zhihu.com/p/52526801
https://zhuanlan.zhihu.com/p/85003758
推导细节和实现细节:https://zhuanlan.zhihu.com/p/70360272
https://spinningup.openai.com/en/latest/algorithms/sac.html
SAC实验任务和表现:https://blog.csdn.net/jiawoxuexiqq30294961/article/details/87304961
强化学习算法SAC的学习探究及基于百度PARL的实战(非常简洁):https://www.huaweicloud.com/articles/1d0333fd58123a05695ddcc8b4532c86.html

上一篇下一篇

猜你喜欢

热点阅读