【强化学习】基础知识

2018-10-22  本文已影响0人  Pytorch小生

强化学习基础

基本元素:

强化学习过程描述:
Actor通过过去一系列的positive reward和negative reward来学习可以使reward最大化的一系列action

特点

类型

Model-free and Model-based
Model指的是环境的动态模拟,即模型学习从当前状态和动作到下一个状态的转移概率。Model-free算法依赖试错来更新知识。因此不需要空间来存储所有状态和动作的组合

Model-free

经典算法
Policy-based(PPO)
Value-based(Q-learning)
Actor+Critic(A3C)

Policy-based:

过程:
- 1.定义一系列函数,可以用神经网络作为一个Actor。
- 2.评价函数的效果(goodness)(公式)对所有动作的奖励总和求平均,利用梯度上升策略,目标是最大化reward
- 3. 选取最好的函数。

Value-based:

To Do

上一篇 下一篇

猜你喜欢

热点阅读