2019-04-21派森学习第153天

2019-04-21 本文已影响0人每日派森

在强化学习的小游戏，迷宫找宝藏中，重要的是def step(self, action)这步。

在这步里边，让状态S不断更新，达到学习的目的。

反馈函数

如果下一状态s_是红色方块运动到了椭圆形，则奖励为1，如果运行到了陷阱会惩罚-1，并且都结束此次寻宝，重新从起始点开始。

最主要的程序是RL_brain。

示意

上一篇下一篇

猜你喜欢

热点阅读