David Silver深度强化学习-1-学习笔记

2017-11-24 本文已影响134人小白之白小明

刚开始学习强化学习，有些地方也不是很明白，但是基本都记了下来，这是第一课的学习笔记，放上来与大家分享，如果有错误希望大家指出。

原创 -- 小萌至上

1. 增强学习的本质：理解最佳的方式来制定决策

不同于监督学习或无监督学习，不存在监督者，但是有奖励信号，根据奖励信号知道什么是对，哪样做更好，哪样做加2分，哪样做加5分，这个奖励就是“标量反馈信号”
类似于小孩试错的过程
当得到反馈，这个结果不是立刻得到，而是存在时间延迟，这是增强学习的特点
很久以后，回顾之前的决策，在当时看起来是对的，甚至当时还有正面的奖励，但经历几个过程之后，当时看起来正面的决定现在看起来是大错特错的
传统的机器学习是将独立分布的数据给机器，让机器自己去学习。强化学习里面 agent（代理）需要和外部环境进行交互，agent 会根据环境变化，采取措施来应对环境的变化。每一步都会影响下一步举措，所以不适合采用独立的范式。

2. 强化学习框架

试用于所有问题，有一个统一的目标
注：需要提前计划，考虑未来

3. Markov 链

下一时刻的 state，仅由当前的 state 决定，与之前的 state 无关
例：直升机要决定下一步飞行的速度和方向，只取决于当前的位置、风向等，与之前所走得了路线和速度无关。

4. agent 的三个重要参数

policy：表示能够采取的行动，是一个行为函数。该函数以agent 的状态作为输入，以下一步的行动决策作为输出。
value：评价 agent 在采取某种行动之后的好坏，即预期奖励。
model：用来感知环境是如何变化的。
举个例子：一个迷宫，需要从入口走到出口，agent表示人物，policy 表示每个格子下一步可以走的方向，agent 表示走到这一步会加或减多少分。

5. 接下来以一张图来解释循环神经网络

疑问：若有两个或多个目标，增强学习算法怎样确定选择哪一个？
答：每一个选项，根据一些衡量标准，可以进行比较。把比较结果转换成标量反馈信号，然后就可以比较了。

6. history：选项序列→观察→采取行动→获得奖励

state：状态、总结，每经历一个步长，就构建一个 state，是 history 的函数

7. 探索与开发之间的平衡

exploration（探索）：发现更多关于环境的信息，即未知的信息
expectation（开发）：开发利用你所找到的信息，即已知的信息
agent 需要平衡这两者，进而最大化奖励。
举例：去饭店吃饭，exploration 表示去一家新开的饭店，expectation 表示去曾经去过最喜欢的一家。
prediction 控制：遵循现在的 policy，在未来会变得怎么样。
control 预测：最有的 policy 该怎么做才能得到最多的 reward。

上一篇下一篇

猜你喜欢

热点阅读