深度学习

强化学习随笔

2020-10-06  本文已影响0人  zidea
alpha_go.jpg

甜点

虽然早已经过了学习围棋的年龄,大学时候学校举办过各个系围棋联赛。随着参加工作,围棋渐渐被遗忘了。直到 AlphaGo 出现再次引起我对围棋的关注,不过这一次更多眼光放在 AlphaGo 上。

介绍围棋

围棋盛行于亚洲,近些年围棋顶级高手都基本出于中日韩三国。

博弈论

围棋是有必胜策略,任何 N 步,我们看看博弈论中是如何解释这个问题。任意有限步结束的 0 和博弈有必胜策略。用数学归纳法,假设棋盘只有一个格子,一个人放到这个格子就胜利,我会选择先走,如何放上算失败,那就让对方先走,我就胜利。假设对 N 步成立,要证明 (N+1) 步,游戏(N+1)格子,N+1 步的游戏可以拆成 N+1 个 N 步的游戏,所有 N + 1 步游戏都有必胜策略,全部是先走获胜,会让对手获胜,假设有一个后走人获胜,我选择先走。

强化学习应用

机器学习分类

基本思路将无监督问题变为有监督问题,方法是通过交互方式来获得交互信息,通过交互信息来产生一种状态。agent 通过环境进行交互,收到状态和奖赏,然后采取动作给反馈。

通过交互产生策略(policy),
奖赏可以用于定义损失函数

多学科

强化学习并不是孤立,是与学多学科有关系

上一篇下一篇

猜你喜欢

热点阅读