强化学习中的model-free和model-based算法

2019-04-17 本文已影响0人 Jaydu

Model-based强化学习通过一个代理（agent）来尝试理解环境，并且建立模型来表示这个代理。这个模型希望学习到两个函数：

Model-free强化学习则是直接学习策略（policy），相关的算法有Q-learning、policy gradient等。

一个简单的判断标准是：如果训练之后，代理必须通过预测下一个状态和报酬来采取行动，那么就是model-based强化学习算法，否则就是model-free强化学习算法.