推断与控制的关系

2018-10-27  本文已影响7人  TonnyYan

推断 = 规划

如何推断?

  1. 计算反向消息:{\beta _t}\left( {{{\mathbf{s}}_t},{{\mathbf{a}}_t}} \right) = p\left( {{O_{t:T}}|{{\mathbf{s}}_t},{{\mathbf{a}}_t}} \right)
  2. 计算策略(最优策略):p\left( {{{\mathbf{a}}_t}|{{\mathbf{s}}_t},{O_{1:T}}} \right)
  3. 计算前向消息:{\alpha _t}\left( {{{\mathbf{s}}_t}} \right) = p\left( {{{\mathbf{s}}_t}|{O_{1:t - 1}}} \right)

其中,Optimal变量服从伯努利分布

Backward pass

Backward pass
从t=T到t=1递归计算

Policy computation

Policy computation
Policy computation with value functions
\alpha用于控制温度,\alpha越小 max就越硬,策略就越确定

Forward messages

Forward messages

Summary

Summary
原先的值迭代、策略迭代算法由max ----> softmax,变成基于能量的形式
上一篇 下一篇

猜你喜欢

热点阅读