Short corridor with switched act
2018-04-14 本文已影响0人
四碗饭儿
该题目摘自Sutton的强化学习经典教材,然而它的本质是一道随机过程问题(马可夫链)
s是起点,g是终点,在每个格子以p的概率向右,(1-p)的概率向左;但是,在第2个格子里,动作会被神奇地反置,即你朝左,上帝会把你掰向右。求到G的步数期望
求解过程该题目摘自Sutton的强化学习经典教材,然而它的本质是一道随机过程问题(马可夫链)
s是起点,g是终点,在每个格子以p的概率向右,(1-p)的概率向左;但是,在第2个格子里,动作会被神奇地反置,即你朝左,上帝会把你掰向右。求到G的步数期望
求解过程