强化学习初探分类

2018-12-31 本文已影响0人永远学习中

分类
model-Free RL：不用理解环境
从环境中得到反馈进行学习
Policy Gradients
Sarsa
Q Learning
Model-Based RL：理解环境
需要为现实世界进行建模之后学习
Policy Gradients
Sarsa
Q Learning

基于概率（Policy-Based RL）
Policy Gradients
基于价值（value Based RL）
Sarsa
Q Learning
Actor-Critic
基于概率做出动作，给动作给分。

回合更新（Monte-Carlo update）
基础版本Policy Gradients
Monte-Carlo Learning
单步更新（Tenporal-Difference Update）
Sarsa
Q Learning
升级版本Policy Gradients

在线学习（On-Policy）
Sarsa
Sarsa（λ）
离线学习（Off-Policy）
Q Learning
Deep Q Learning

Q Learning

构建Q表