《人工智能基础》24/91天阅读

2018-11-28 本文已影响0人皮卡丘_83e1

走棋网络又称为策略网络，该网络接受当前棋盘局面作为输入，并输出在当前局面下选择每个位置的落子概率。

阿尔法狗首先通过监督学习的方式训练了一个策略网络，称为监督学习策略网络。

这个深度卷积神经网络的输入不仅是当前局面的落子状态，也加入了许多人为构造的特征，比如围棋中的气、目、空等。

经过这样的训练，策略网络的框图仍处于业余棋手的水平，完全无法与人类顶尖棋手过招。因为好的棋也学了，坏的棋也学了。

强化学习与监督学习最主要的区别就在于收到的反馈是评估性的而不是指导性的。