2018-05-10

2018-05-10 本文已影响0人 deathneverdie

靠....AI课小测又没去。。

高级计算机网络也是水课，水特喵的。

但是课还是挺有意思的。还有老师假扮黑客交流终端安全，以及美国某教授来我们这儿划水

老师挺可爱的

//////////////////////////////////////////////////////////////////////////////////////////////////////////

第四章提到了迭代方程：

首先是贝尔曼方程：

然后是迭代方程：

一开始看着两个公式的时候我是一脸懵逼的。。为什么式子完全相同，但是上面的是策略Vπ没有变，而下面的是Vk+1和Vk

经过讨论，大致的结果是，上面的式子应该是全探索情况下（感觉基本等同于收敛）的式子，但是实际上全探索是很难实现的，所以我们的策略是在不断更新迭代的，也就是下面的K+1和K这其实也是黎叔说的数学上的式子和CS上的式子----我们用的是下面的（先这么理解吧，结合实例可能能理解的更透彻）

这个就是DP算法的更新过程~（现在看起来很简单）

△那个是一开始初始化为0

v = V（s）这个就是全备份，下面那个就是对V（s）的更新

终止条件其实就是Vk+1和Vk之间的差距足够小就OK~

一个简单但是有效的例子：

具体解题步骤写在书上了。