100天持续行动—Day24

2018-11-17 本文已影响0人 Richard_DL

11.15
把 reinforcement learning 的简易教程的代码敲了2遍，理解了程序中每一步在做什么。然后开始看Temporal-Difference Methods.