2018-05-10
2018-05-10 本文已影响0人
deathneverdie
靠....AI课小测又没去。。
高级计算机网络也是水课,水特喵的。
但是课还是挺有意思的。还有老师假扮黑客交流终端安全,以及美国某教授来我们这儿划水
老师挺可爱的
//////////////////////////////////////////////////////////////////////////////////////////////////////////
第四章提到了迭代方程:
首先是贝尔曼方程:
然后是迭代方程:
一开始看着两个公式的时候我是一脸懵逼的。。为什么式子完全相同,但是上面的是策略Vπ没有变,而下面的是Vk+1和Vk
经过讨论,大致的结果是,上面的式子应该是全探索情况下(感觉基本等同于收敛)的式子,但是实际上全探索是很难实现的,所以我们的策略是在不断更新迭代的,也就是下面的K+1和K这其实也是黎叔说的数学上的式子和CS上的式子----我们用的是下面的(先这么理解吧,结合实例可能能理解的更透彻)
这个就是DP算法的更新过程~(现在看起来很简单)
△那个是一开始初始化为0
v = V(s)这个就是全备份,下面那个就是对V(s)的更新
终止条件其实就是Vk+1和Vk之间的差距足够小就OK~
一个简单但是有效的例子:
具体解题步骤写在书上了。