L2-MDP

2017-10-15  本文已影响11人  山的那边是什么_

1. Markov Processes

1.1 Introduction to MDPs

1.2 Markov Property

  1. 当前状态只与其前面一个状态有关

1.3 State Transition Matrix

为了形式化状态之间的转化,提出了状态转移矩阵。行是当前的各个状态,列是下一个状态,同时每行的值为1。


1.4 Markov Process

  1. 无记忆的随机过程
  2. 一个随机的状态序列具有Markov性质
  3. S:状态,P:状态转移矩阵
  4. 当前状态的转移概率至于前一个状态有关

1.5 Example: Student Markov Chain

下图中圆圈表示一个状态,尖头的开始和结束位置表示状态的之间的转换,上面的值表示状态之间的转移概率。其中sleep表示MP的结束状态



图中存在的马尔可夫链:
C1 C2 C3 Pass Sleep
C1 FB FB C1 C2 Sleep
C1 C2 C3 Pub C2 C3 Pass Sleep
C1 FB FB C1 C2 C3 Pub C1 FB FB
FB C1 C2 C3 Pub C2 Sleep
状态转移矩阵:


2. Markov Reward Process

  1. S:状态,P:转移概率矩阵、R:回报、r折扣因子

2.1 return(回报)


状态t时候的回报计算公式

  1. 随着时间的增加,t时刻的对后面的状态的影响逐渐减小,所以,这里利用的是等比数列的形式

2.2 why discount

  1. 数学上,方便
  2. 避免回报是无限大的
  3. 未来的不确定性

2.3 value function


状态的value function是所有return的期望

2.4 Bellman Equation for MRPs

矩阵形式表示

线性代数求解

3. Markov Decision Process

3.1 Policies

3.2 value function

3.3 Bellman Expectation Equation

image.png image.png
上一篇下一篇

猜你喜欢

热点阅读