对Policy gradient的总结

2020-07-17  本文已影响0人  何哀何欢

policy gradient 其实就是 corssentropy \times V(s) 的平均数:

corssentropy是加法,总和。这里需要每一项,所以就取一个平均值。

其实虽然是调整policy,然而还是要用Q值去衡量的。

缺点:每次优化的时候,是一个完整过程结束后,取了每一步的均值,所以有一个问题,如果最后结果很好,哪怕其中某步的动作很差,也会被当作好的动作来学习。所以通往最优解的道路上,可能充满了坎坷和艰辛,还需要大量的数据集。

这篇有详解

上一篇 下一篇

猜你喜欢

热点阅读