时间管理司马腾超级自控力学院

《人工智能基础》25/91天阅读

2018-11-29 本文已影响0人皮卡丘_83e1

策略指的是主体的行为，是一个从状态集合到动作集合的映射。

强化学习的目的就是找到一个最佳的策略，从而使得主体发出一系列的动作后，收到的累积回报最多。

阿尔法狗由策略网络、估值网络、快速走子网络、蒙特卡罗树搜索四部分组成。

上一篇下一篇

猜你喜欢

热点阅读