推断与控制的关系
2018-10-27 本文已影响7人
TonnyYan
推断 = 规划
如何推断?
- 计算反向消息:
- 计算策略(最优策略):
- 计算前向消息:
其中,Optimal变量服从伯努利分布
Backward pass
Backward pass从t=T到t=1递归计算
Policy computation
Policy computationPolicy computation with value functions
用于控制温度,越小 max就越硬,策略就越确定。
Forward messages
Forward messagesSummary
Summary原先的值迭代、策略迭代算法由max ----> softmax,变成基于能量的形式