深度学习

强化学习随笔(3)

2020-10-08  本文已影响0人  zidea

马尔可夫决策过程

马尔可夫决策过程

马尔可夫决策过程是强化学习的一个基本框架,

马尔可夫链

也就是下一个状态只取决于当前状态,而与当前状态的之间状态都没有关系。如果说某一个过程是满足马尔可夫特性的,在未来转移和过去是独立,只与现在状态有关

状态转移矩阵

p = \begin{bmatrix} P(s_1|s_1) & P(s_2|s_1) & \cdots & P(s_N|s_1)\\ P(s_1|s_2) & P(s_2|s_2) & \cdots & P(s_N|s_2)\\ \end{bmatrix}

马尔可夫链实例

这就是轨迹概念,每一条链都是一条轨迹

马尔可夫奖励过程(MRPs)

引入奖励R = [5,0,0,0,0,0,7],奖励过程看成随波逐流,随着事先定义好状态转移进行流动

马尔可夫奖励实例

R = [5,0,0,0,0,0,10]

计算状态价值

可以通过随机采样得到很多轨迹,然后将这些轨迹叠加起来,计算他们的 return 然后取平均,蒙特卡洛采样算法。

\begin{bmatrix} V(s_1)\\ V(s_2)\\ \vdots \\ V(s_N)\\ \end{bmatrix} = \begin{bmatrix} R(s_1)\\ R(s_2)\\ \vdots \\ R(s_N)\\ \end{bmatrix} + \gamma \begin{bmatrix} P(s_1|s_1) & P(s_2|s_1) & \cdots & P(s_N|s_1) \\ P(s_1|s_2) & P(s_2|s_2) & \cdots & P(s_N|s_2) \\ \vdots & \vdots & \cdots & \vdots \\ P(s_1|s_N) & P(s_2|s_N) & \cdots & P(s_N|s_N) \\ \end{bmatrix} \begin{bmatrix} V(s_1)\\ V(s_2)\\ \vdots \\ V(s_N)\\ \end{bmatrix}

V = R + \gamma PV
V = (I + \gamma P)^{-1}R

计算马尔可夫迭代方法
蒙特卡洛算法
i = 0, G_t = 0
while i is not N:
    S_t # generate an episode ,starting from state s and time t
    g = $sum_{i=t}^{H-1} \gamma^{i-t} r_i$
    G_t = G_t + g
    i = i+1
V_t(S) = \frac{G_t}{N}
动态规划
for all states s \in S ,V^{\prime} = 0, V(S) = \initfy
while || V - V^{\prime}|| > \epison
    V = V^{\prime}
    For all states s \in S V^{prime} = R(s) + \gamma \sum_{s^{\prime} \in S} P(s^{\pirme}|s)V(s^{\prime})
return V^{\prime}(s) for all s \in S

马尔可夫决策过程(MDPs)

MDP 中策略(policy)评估

MDP 和 MRP 转换

MDP 中的价值函数

Bellman Expectation Equation

主要定义当前状态和外来状态之间一个关联,对于所有
V^{\pi}(s) = \mathbb{E}_{\pi}[R_{t+1} + \gamma V^{\pi}(s_{t+1})|s_t = s] \tag{1}

Q^{\pi}(s,a) = E_{\pi}[R_{t+1} + \gamma Q^{\pi}(s_{t+1},A_{t+1})|s_t = s,A_t = a] \tag{2}

Bellman Expectation Equation for V^{\pi} and Q^{\pi}

Q^{\pi}(s,a) = R_s^a + \gamma \sum_{s^{\prime} \in S} P(s^{\prime}|s,a)V^{\pi}(s^{\prime}) \tag{4}

V^{\pi}(s) = \sum_{a\in A} \pi(a|s)(R(s,a) + \gamma \sum_{s^{\prime} \in S} P(s^{\prime}|s,a)V^{\pi}(s^{\prime})

Q^{\pi}(s,a) = R(s,a)+ \gamma a \sum_{s^{\prime} \in S} P(s^{\prime}|s,a)\sum_{a^{\prime} \in A} \pi (a^{\prime}|s^{\prime}) Q^{\pi}(s^{\prime},a^{\prime})

策略迭代

价值迭代

上一篇 下一篇

猜你喜欢

热点阅读