2018-05-05

2018-05-05 本文已影响0人 deathneverdie

GOGOGO 上午天梯先送了50分 GG

SUTTON那本书先停一下，接着看论文

///////////////////////////////////////////////////////////

高斯分布：正态分布

论文中提到了两种处理办法：

1. 贪婪就是有个参数e，有概率e随机探索，有概率（1-e）是采取当前最优的，e随时间下降

2. 高斯分布相关。

或者说是...emmm 它的探索空间是在当前最佳输出值附近？

因为Act(st)是说算法在st下给出的动作，也就是说算法认为这个Action是最佳的，而我们π（st,a）表示策略（意思应该是说在st下选择a的可能性吧毕竟是个高斯分布）

（但是这种方法，太容易陷入一个局部最优了吧...比贪婪还容易陷入）

/////////////////////////////////////////////////////////////

论文的方法：CACLA

这个东西...前面那个是TD算法的..回头还得去看看

大致意思是如果在采取at使得st的值有积极变化，则增加st下选择at的概率，增加的部分从其他地方减。论文用的正反馈调节（他说在扩展到连续空间的时候用正反馈更有意义）

O98K这就是最大的区别，但是后面的公式和推导有很多不太懂的。。

///////////////////////////////////////////////////////////////////

哎，还是得回去看书现在要看的是456 12

动态编程蒙特卡洛 TD

但是3.6龙博说很重要先看一下吧