《人工智能基础》25/91天阅读
2018-11-29 本文已影响0人
皮卡丘_83e1
策略指的是主体的行为,是一个从状态集合到动作集合的映射。
强化学习的目的就是找到一个最佳的策略,从而使得主体发出一系列的动作后,收到的累积回报最多。
阿尔法狗由策略网络、估值网络、快速走子网络、蒙特卡罗树搜索四部分组成。
策略指的是主体的行为,是一个从状态集合到动作集合的映射。
强化学习的目的就是找到一个最佳的策略,从而使得主体发出一系列的动作后,收到的累积回报最多。
阿尔法狗由策略网络、估值网络、快速走子网络、蒙特卡罗树搜索四部分组成。