强化学习中的model-free和model-based算法

2019-04-17  本文已影响0人  Jaydu

Model-based强化学习通过一个代理(agent)来尝试理解环境,并且建立模型来表示这个代理。这个模型希望学习到两个函数:

  1. 状态转移函数(transition function from states T:S\mapsto S
  2. 报酬函数(reward function R
    通过这个模型,代理可以进行根据它进行推导和行动。

Model-free强化学习则是直接学习策略(policy),相关的算法有Q-learning、policy gradient等。

一个简单的判断标准是:如果训练之后,代理必须通过预测下一个状态和报酬来采取行动,那么就是model-based强化学习算法,否则就是model-free强化学习算法.

上一篇下一篇

猜你喜欢

热点阅读