深度强化学习(2) 强化学习常用术语
本文主要内容来源于 Berkeley CS285 Deep Reinforcement Learning
image.png
Agent
Agent 代表强化学习中的对环境产生反应的模块, 一般来说就是我们要训练的决策模型。
Environment
对 Agent 的决策做出反馈的模块, 可以理解现实环境, 或者多现实环境的模拟。
Action
Agent 做出的决策, 可以是离散的, 也可以是连续的。 比如,向左或者向右行使, 买入股票或者卖出股票等等。
State
环境当前的状态全景, 每当 Agent 做出一个 Action 到 Environment , 就可能会改变 State。 注意:State 可能获取到, 也可能获取不到。因为无法保证在每个任务中都能看到系统的全景状态
Observation
一个类似State 的概念, 但是是从 Agent 的角度来理解, 指的是 Agent “看到的” 当前系统的状态。不同与State, Observation并不要求包括系统的全景, 因此,Observation 的适用范围更广。 在强化学习中, 经常会把 Observation 当做 State 来用,因为有时候 State 不可得, 只能拉Observation 充数。
【哲思】其实人类也不可能知道世界的全景(State), 我们对世界的理解, 只是我们的 Observation, 我们都是通过自己的有偏见的Observation来理解世界,并且对世界作出Action。
Reward
Agent 从环境中获得的奖赏,可能是正数,也可能是负数。
【哲思】这里有点和现实不一样, 现实中, 环境只会对人类的行为进行反应, 至于是正向激励,还是负向惩罚,则是由每个人自己体会。所谓,彼之蜜糖,己之砒霜
PolicyPolicy
在上图中 Policy 就是 , 其中 代表Policy。如果我们把 Policy 看做一个函数,那么 代表 其中的参数。
-
: 在时刻, Policy 在Observation ()下, 会以某个概率产生一个 Action ()。
-
: 在时刻, Policy 在State()下, 会某个概率产生一个 Action (), 注意,这里 State 指的是观察到了所有的状态。
On Policy vs Off Policy
在DRL 的训练过程中, 我们的目的就是为了提高Agent 手里 Policy 的能力。 如果我们始终用一个Policy , 即用它来生成数据, 也用获得的反馈提高它, 这种模式就是 On Policy 。 如果用到多个Policy , 生成数据的 Policy 和 改善的Policy 不一致, 那就是 Off Policy。 On/Off 这里指的是相对于当初生成数据的那个 Policy.
Reward functions
: 在状态 下, 做出 action 会得到的 Reward.
Q Functions & Q-Value
: 在 时刻, 状态为 的情况下, 选择了 行为,Q Fucntion 会给出从t+1 时刻开始, 到游戏终了(时间到,成功,失败,到了规定步数)所获得的reward 的 期望, 该值就是 Q-Value
【哲思】如果比作人, 就是我们经常在做一个选择之前, 会考虑的,这个选择(action)在当前情况下(state, 其实是 observation), 所能获取的未来的收益。我们所纠结的, 就是猜测Q-value。如果我们能够准确的知道Q-vlaue, 我们就不会纠结了。
QValue Fucntion
Value 是针对 State 来说的, 它代表 在 时刻,某个状态 所有 action 能够获得的 Q-value 的期望。 所以,Value 并不关心 Action, 因为他考虑的当前State下,所有可能 Action 的期望值。
【哲思】形式比人强,人能做出的反应 Action 是有限的, 有的State 的Value 就很低,再精心选择Action意义也不大。做人做事要避开低Value 的State, 所谓:女怕嫁错郎, 男怕入错行。
V