强化学习初探分类

2018-12-31  本文已影响0人  永远学习中

分类
model-Free RL:不用理解环境
从环境中得到反馈进行学习
Policy Gradients
Sarsa
Q Learning
Model-Based RL:理解环境
需要为现实世界进行建模之后学习
Policy Gradients
Sarsa
Q Learning


基于概率(Policy-Based RL)
Policy Gradients
基于价值(value Based RL)
Sarsa
Q Learning
Actor-Critic
基于概率做出动作,给动作给分。


回合更新(Monte-Carlo update)
基础版本Policy Gradients
Monte-Carlo Learning
单步更新(Tenporal-Difference Update)
Sarsa
Q Learning
升级版本Policy Gradients


在线学习(On-Policy)
Sarsa
Sarsa(λ)
离线学习(Off-Policy)
Q Learning
Deep Q Learning

Q Learning

构建Q表

上一篇下一篇

猜你喜欢

热点阅读