2018-05-05

2018-05-05  本文已影响0人  deathneverdie

GOGOGO 上午天梯先送了50分  GG

SUTTON那本书先停一下,接着看论文

///////////////////////////////////////////////////////////

高斯分布:正态分布

论文中提到了两种处理办法:

1. 贪婪  就是有个参数e,有概率e随机探索,有概率(1-e)是采取当前最优的,e随时间下降

2. 高斯分布相关。

或者说是...emmm 它的探索空间是在当前最佳输出值附近?

因为Act(st)是说算法在st下给出的动作,也就是说算法认为这个Action是最佳的,而我们π(st,a)表示策略(意思应该是说在st下选择a的可能性吧  毕竟是个高斯分布)

(但是这种方法,太容易陷入一个局部最优了吧...比贪婪还容易陷入)

/////////////////////////////////////////////////////////////

论文的方法:CACLA

这个东西...前面那个是TD算法的..回头还得去看看

大致意思是如果在采取at使得st的值有积极变化,则增加st下选择at的概率,增加的部分从其他地方减。论文用的正反馈调节(他说在扩展到连续空间的时候用正反馈更有意义)

O98K这就是最大的区别,但是后面的公式和推导有很多不太懂的。。

///////////////////////////////////////////////////////////////////

哎,还是得回去看书  现在要看的是456 12

动态编程 蒙特卡洛 TD 

但是3.6龙博说很重要 先看一下吧

上一篇下一篇

猜你喜欢

热点阅读