Lecture 1:intro_RL

2019-11-25  本文已影响0人  六回彬
在这里插入图片描述
在这里插入图片描述

一、关于RL

(一)强化学习的特征

强化学习和其他机器学习的不同之处:

  1. 没有监督者,只有一个reward标志

  2. 反馈有延迟,不是马上得到

  3. 时间很重要(序列)

    监督学习时将独立同分布的数据进行学习,而强化学习的数据是有序列的。

  4. agent的actions影响着随后接收到的数据。

    我们需要应对的是一个动态系统,agent和外部环境进行交互,每一步都在影响着下一步,强化学习是一个主动学习的过程。

(二)强化学习的几个例子

  1. 直升机飞行特技表演

  2. 在backgammon游戏击败世界冠军

  3. 管理一个投资组合

  4. 控制发电站

    通过调整不同的参数,优化效率

  5. 做一个机器人模仿人类走路

  6. 在很多Atari游戏中比人类表现还要好

二、强化学习问题

(一)reward

1、rewards

定义(奖励假设)

所有的目标都可以通过预期累计奖励最大化来描述。

agent 的目标是在一个episode中,采取措施,在episode结束时获得最大化的奖励

例如:每经历一个时间不长,都会有一个值为-1的奖励信号,在完成目标后,就会停下来。我们总的奖励就是你耗费的时间。现在我们有两个明确的木不爱,一个是最大化你的累计奖励,另一个是在最短的时间内达成目标。

2、Sequential Decision Making(顺序决策)

(二)环境

1、agent and environment

在这里插入图片描述
在这里插入图片描述

强化学习的数据来源就是action、observation、reward组成的序列。

(三)state

1、History and State

history就是Observation、actions、reward构成的序列

H_t = O_1,R_1,A_1,...A_t-1,O_t,R_t

agent目前所经历的一系列东西组成了history

agent 的输入:他所见到的东西,输出:做出的决定。
我们目标是创建一个history到action的映射

2、environment state

在这里插入图片描述

题外话:多agent 系统,让其中一个agent把其他agent看作是环境的一部分。

3、agent state

在这里插入图片描述

S^a_t=f(H_t)

4、information state

information state(也叫Markov state)包含了来自历史的所有有用的信息

定义:
当一个状态满足如下性质为一个Markov状态
P\lbrack S_{t+1}\vert S_t\rbrack=P\lbrack S_{t+1}\vert S_1,...,S_t\rbrack
下一时刻的状态仅由当前状态决定与过去的状态没有关系。

5、Fully Observable Environment

在这里插入图片描述

agent可以直接观察到环境状态

O_t = S^a_t=s^e_t

6、部分可观察环境

三、inside An RL Agent

(一)一个RL agent的要素

(二)Policy

(三)value function

看多远会根据gamma大小,一步一步降低奖励,已知到我们可以忽略掉的程度。

(四)Model

model并不是环境本身,它对预测环境变化很有用处,model会学习环境的行为。model可以用来确定计划,model对下一步的行动很有用。

预期的奖励是基于先前的状态和行动

model 并不是必须的,还有无model的方法。

(五)Maze Example:Policy

在这里插入图片描述
在这里插入图片描述

一旦得到这个映射,那么你就可以读入数据,然后采取行动最终达到目标。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3kC2lbjo-1574390482507)(E91FB62FFE9C48FEB04920AD801D2A4D)]

状态到行动的映射。

(六)Maze Example:value function

在这里插入图片描述
数字表示每个状态s的
很容易创建一个最佳的policy。对我们最优化偏好很有用

(七)Maze Example:Model

在这里插入图片描述

网格布局代表transition model
数字代表从每个状态s得到的immediate reward

(八)RL agents的种类(1)

(九)RL agents的种类(2)

(十)RL agent 分类

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OghmxDOO-1574390482523)(40860CAD043E4ABB9C12568F1478F182)]

四、Problems within RL

(一)learning and planning

在顺序决策中两个基本问题

(二)Atari Example: Reinforcement Learning

在这里插入图片描述

(三)Atari Example: Planning

在这里插入图片描述

(四)探索和开发

比如:虽然你觉得往左边走比较好,右边没怎么探索,但也许走右边可以得到更大的回报。

探索和开发问题是专属于强化学习的问题。

(五)predication and control

先解决predication的问题,进而解决control问题

上一篇下一篇

猜你喜欢

热点阅读