L1-intro_RL

2017-09-23 本文已影响25人山的那边是什么_

Introduction to Reinforcement Learning

1. about

1.1 和其他机器学习的关系

2. 什么是增强学习

2.1 强化学习和其它机器学习的差异

不是监督学习，没有监督者。会有奖励信号（reward signal），根据奖励信号，作出相应的决策
反馈被延迟--容易造成灾难后果
时间很重要
anget(代理)的行动（action）在不同的数据条件下会有不同的结果，是一个主动学习的过程

2.2 例子

3 增强学习的基本介绍

3.1 rewards（奖励）

1.reward是一个标量。
2.表明每一步agent做了什么
3.agent的任务是累加每一步的reward，达到最大
定义：累积求最大化的过程。

3.1.1 奖励的例子

3.2 Sequential Decision Making（连续决策）

目标：选择actions最到化未来的奖励

actions是长期的
奖励可能延迟
现在可能会放弃好的奖励，但是未来的奖励会最大
类似投资，短期是亏钱的，但是长期你是赚钱的

3.3 Agent and Environment

大脑可以看作是一个agent，负责作出行动action
两个输入：observation：外界环境信息、reward：奖励大小
输出：action，是根据输入作出的action

外部环境：地球产生reward、observation
大脑：agent（代理），负责作出行动
可以看出这是一个随着时间循环的过程，大脑根据外界环境作出行动，行动又对外界环境产生了影响。
agent根据环境作出action，action更新环境，新的环境产生新的obseration和reward。
强化学习是：观察，奖励，行动的时间序列