强化学习随笔
甜点
虽然早已经过了学习围棋的年龄,大学时候学校举办过各个系围棋联赛。随着参加工作,围棋渐渐被遗忘了。直到 AlphaGo 出现再次引起我对围棋的关注,不过这一次更多眼光放在 AlphaGo 上。
- 90 年代机器学习看成统计学习,看成统计学习的应用
- 05 深度学习,强化学习作为深度学习分支
- 12 年
- 今天强化学习还是处于阶段
介绍围棋
围棋盛行于亚洲,近些年围棋顶级高手都基本出于中日韩三国。
- 无气自提
- 禁止全局同行
- 地大则胜
博弈论
围棋是有必胜策略,任何 N 步,我们看看博弈论中是如何解释这个问题。任意有限步结束的 0 和博弈有必胜策略。用数学归纳法,假设棋盘只有一个格子,一个人放到这个格子就胜利,我会选择先走,如何放上算失败,那就让对方先走,我就胜利。假设对 N 步成立,要证明 (N+1) 步,游戏(N+1)格子,N+1 步的游戏可以拆成 N+1 个 N 步的游戏,所有 N + 1 步游戏都有必胜策略,全部是先走获胜,会让对手获胜,假设有一个后走人获胜,我选择先走。
强化学习应用
-
无人机
auto.jpeg -
机器手臂
tesla_factory.jpg -
DiDi 派单
didi_brain.jpg -
无人驾驶
-
金融交易
-
游戏和棋牌
-
自然语言处理(多轮对话)
<img src="./images/chatbot.jpg"> -
推荐系统,例如通过将推送商品和内容资源,用户点击就是 reward
机器学习分类
-
无监督: 被动
-
有监督/半监督
-
强化学习(独立一支):
rl_002.png -
交互过程,智能体(agent)和环境(environment)
-
环境会给 agent 一个状态(state) ,也可以说 agent 观测(observe)到环境一个状态
-
环境根据状态(state) 还会给智能体(agent)一个奖励(reward)
-
智能体可以通过动作(Action)来反馈给环境
基本思路将无监督问题变为有监督问题,方法是通过交互方式来获得交互信息,通过交互信息来产生一种状态。agent 通过环境进行交互,收到状态和奖赏,然后采取动作给反馈。
通过交互产生策略(policy),
奖赏可以用于定义损失函数
-
探索(Exploration)和利用(Exploitation)对环境知道是有限,利用已有信息,还是根据已有信息来探索未来。
-
在强化学习是将训练和测试是混在一起
-
planning 动态规划
-
model 如果状态有限可以通过查表方式,如果模型虽然已知,但是空间非常大,就可以动态近似规划
-
对于环境模型未知的,蒙特卡洛方法
-
强化学习是序列估计
多学科
强化学习并不是孤立,是与学多学科有关系
- 控制论,考虑状态连续,所以通过微分方差,机器人问题
- 运筹学: 马尔可夫决策过程,关注投资和交易
- 深度学习