推断与控制的关系

2018-10-27 本文已影响7人 TonnyYan

推断 = 规划

如何推断？

计算反向消息： ${\beta _t}\left( {{{\mathbf{s}}_t},{{\mathbf{a}}_t}} \right) = p\left( {{O_{t:T}}|{{\mathbf{s}}_t},{{\mathbf{a}}_t}} \right)$
计算策略（最优策略）： $p\left( {{{\mathbf{a}}_t}|{{\mathbf{s}}_t},{O_{1:T}}} \right)$
计算前向消息： ${\alpha _t}\left( {{{\mathbf{s}}_t}} \right) = p\left( {{{\mathbf{s}}_t}|{O_{1:t - 1}}} \right)$

其中，Optimal变量服从伯努利分布

Backward pass

Backward pass
从t=T到t=1递归计算

Policy computation

Policy computation

Policy computation with value functions
$\alpha$ 用于控制温度， $\alpha$ 越小 max就越硬，策略就越确定。

Forward messages

Forward messages

Summary

Summary
原先的值迭代、策略迭代算法由max ----> softmax，变成基于能量的形式

上一篇下一篇

猜你喜欢

热点阅读