David Silver深度强化学习-1-学习笔记
2017-11-24 本文已影响134人
小白之白小明
刚开始学习强化学习,有些地方也不是很明白,但是基本都记了下来,这是第一课的学习笔记,放上来与大家分享,如果有错误希望大家指出。
原创 -- 小萌至上
1. 增强学习的本质:理解最佳的方式来制定决策
- 不同于监督学习或无监督学习,不存在监督者,但是有奖励信号,根据奖励信号知道什么是对,哪样做更好,哪样做加2分,哪样做加5分,这个奖励就是“标量反馈信号”
- 类似于小孩试错的过程
- 当得到反馈,这个结果不是立刻得到,而是存在时间延迟,这是增强学习的特点
- 很久以后,回顾之前的决策,在当时看起来是对的,甚至当时还有正面的奖励,但经历几个过程之后,当时看起来正面的决定现在看起来是大错特错的
- 传统的机器学习是将独立分布的数据给机器,让机器自己去学习。强化学习里面 agent(代理)需要和外部环境进行交互,agent 会根据环境变化,采取措施来应对环境的变化。每一步都会影响下一步举措,所以不适合采用独立的范式。
2. 强化学习框架
- 试用于所有问题,有一个统一的目标
注:需要提前计划,考虑未来
3. Markov 链
- 下一时刻的 state,仅由当前的 state 决定,与之前的 state 无关
例:直升机要决定下一步飞行的速度和方向,只取决于当前的位置、风向等,与之前所走得了路线和速度无关。
4. agent 的三个重要参数
- policy:表示能够采取的行动,是一个行为函数。该函数以agent 的状态作为输入,以下一步的行动决策作为输出。
- value:评价 agent 在采取某种行动之后的好坏,即预期奖励。
- model:用来感知环境是如何变化的。
举个例子:一个迷宫,需要从入口走到出口,agent表示人物,policy 表示每个格子下一步可以走的方向,agent 表示走到这一步会加或减多少分。
5. 接下来以一张图来解释循环神经网络
疑问:若有两个或多个目标,增强学习算法怎样确定选择哪一个?
答:每一个选项,根据一些衡量标准,可以进行比较。把比较结果转换成标量反馈信号,然后就可以比较了。
6. history:选项序列→观察→采取行动→获得奖励
- state:状态、总结,每经历一个步长,就构建一个 state,是 history 的函数
7. 探索与开发之间的平衡
- exploration(探索):发现更多关于环境的信息,即未知的信息
- expectation(开发):开发利用你所找到的信息,即已知的信息
agent 需要平衡这两者,进而最大化奖励。
举例:去饭店吃饭,exploration 表示去一家新开的饭店,expectation 表示去曾经去过最喜欢的一家。 - prediction 控制:遵循现在的 policy,在未来会变得怎么样。
- control 预测:最有的 policy 该怎么做才能得到最多的 reward。