迷雾探险8 | 策略梯度Policy Gradients

2018-12-27  本文已影响15人  臻甄

Q-learning和DQN是通过学习reward定义Q表中的值,根据自己认为的高价值选行为。Policy Gradients并不会以所谓的Q值为基础, 而是直接输出行为。

面对那种无法穷尽state的场景,Q表会超大导致机器吃不消,而Policy Gradients能在一个连续区间内挑选动作,每次训练只是根据最后得到的reward来加大或缩减部分动作下一次被选择的概率。

value-based 方法输出的都是不连续的值, 然后再选择值最大的 action. 而 policy gradient 可以在一个连续分布上选取 action.【这段话没看懂】

Policy Gradients算法1:REINFORCE

上一篇 下一篇

猜你喜欢

热点阅读