L1-intro_RL
2017-09-23 本文已影响25人
山的那边是什么_
Introduction to Reinforcement Learning
1. about
1.1 和其他机器学习的关系
data:image/s3,"s3://crabby-images/9f2e4/9f2e4b46ec235bad4b57171670895088d2ad7b8c" alt=""
2. 什么是增强学习
2.1 强化学习和其它机器学习的差异
data:image/s3,"s3://crabby-images/e4623/e46237ef990087e5ac674942a1b19bb5be5b175f" alt=""
- 不是监督学习,没有监督者。会有奖励信号(reward signal),根据奖励信号,作出相应的决策
- 反馈被延迟--容易造成灾难后果
- 时间很重要
- anget(代理)的行动(action)在不同的数据条件下会有不同的结果,是一个主动学习的过程
2.2 例子
data:image/s3,"s3://crabby-images/e7dc4/e7dc4b891586c0903f4a4cdd6e2a81084425d216" alt=""
3 增强学习的基本介绍
3.1 rewards(奖励)
data:image/s3,"s3://crabby-images/c523a/c523a7ee019c13652ab09b9dcb210c5ee6a1d7af" alt=""
1.reward是一个标量。
2.表明每一步agent做了什么
3.agent的任务是累加每一步的reward,达到最大
定义:累积求最大化的过程。
3.1.1 奖励的例子
data:image/s3,"s3://crabby-images/67f54/67f5428f36ea2caefc90ae7dfea295831b853381" alt=""
3.2 Sequential Decision Making(连续决策)
data:image/s3,"s3://crabby-images/22394/22394078d26fa86eaba13df5d29637775addfd16" alt=""
目标:选择actions最到化未来的奖励
- actions是长期的
- 奖励可能延迟
- 现在可能会放弃好的奖励,但是未来的奖励会最大
类似投资,短期是亏钱的,但是长期你是赚钱的
3.3 Agent and Environment
data:image/s3,"s3://crabby-images/8e6d0/8e6d016029a8d8bc595943302eeec6df1d221848" alt=""
大脑可以看作是一个agent,负责作出行动action
两个输入:observation:外界环境信息、reward:奖励大小
输出:action,是根据输入作出的action
data:image/s3,"s3://crabby-images/9e7bb/9e7bb269ee9b0b026ebdaf349a41fd037babbfb3" alt=""
外部环境:地球产生reward、observation
大脑:agent(代理),负责作出行动
可以看出这是一个随着时间循环的过程,大脑根据外界环境作出行动,行动又对外界环境产生了影响。
agent根据环境作出action,action更新环境,新的环境产生新的obseration和reward。
强化学习是:观察,奖励,行动的时间序列
3.4 History and State
data:image/s3,"s3://crabby-images/0db4e/0db4e794074f20f998e985046d9bcecc2d00f4a3" alt=""
- Ht是一个observations、actions、rewards的时间序列
O1、R1-->A1-->O2、R2-->A2 - agent 是创建一个observation、reward到action映射
- 历史信息决定了observation、reward
State是决定下一个action,state包括了我们所需要的所有信息,这些信息决定着我们下一步action
- State是根据历史的一个函数。
3.5 Environment State
data:image/s3,"s3://crabby-images/d1ea3/d1ea3f6c515480ae44d030b576c55d5ad67637a8" alt=""
- Environment State 环境状态信息,通过observation、reward反馈给agent
- Environment State 可以是一个数字的集合,决定下一个agent的行动
3.6 Agent State
data:image/s3,"s3://crabby-images/f1d1d/f1d1d35e7666db7613de42fe327e8086f6c5e266" alt=""
3.7 Information State
data:image/s3,"s3://crabby-images/ee135/ee135d9feb4eb48669b920e07f25c49cc29d8496" alt=""
3.8 Fully Observable Environments
data:image/s3,"s3://crabby-images/e9df8/e9df82ed2b3177c38e19a9b37c3ca207f7efc427" alt=""
- 完全观测环境=agentState = 环境state
3.9 Partially Observable Environments
data:image/s3,"s3://crabby-images/f4aad/f4aad397a574dbb2a756bb8bd209f2553efe65e3" alt=""
- 部分观测环境
4. Inside An RL Agent
4.1 Major Components of an RL Agent
data:image/s3,"s3://crabby-images/41cc5/41cc583441562c282d0f8767517b205dd7d897e8" alt=""
- Policy:agent行动函数
- Value function:agent在某个状态下的好坏程度
- Model:感知环境变化
4.1.1 Policy
data:image/s3,"s3://crabby-images/ad126/ad126cb473e2c7405926c0ed76dc29869401bc88" alt=""
- agent的行动
- state到action的映射
4.1.2 Value function
data:image/s3,"s3://crabby-images/4a475/4a475d9a0413598d5d39d5fe215bec2e957c00b6" alt=""
- 预测未来的reward
- 评估状态的好坏
- t阶段,预测未来的奖励
4.1.3 Model
data:image/s3,"s3://crabby-images/7e4d5/7e4d5a0756086becba0b2bf4b4244a197f2d4073" alt=""
- 预测的作用