马尔可夫决策过程

2017-12-06 本文已影响0人蓝不多山

四要素，SMAR-P

state 状态，系统的状态集合

model 模型状态经过动作后的转移 T(S,a,S')

action 可以执行的动作集合

reward 某个动作的奖励，可以是R(s),R(s,a),R(s,a,s')

这样的一个过程，要求解的是一个行动策略

P(s)->a, 使得奖励最大化。隐含的假设是时间无尽

上一篇下一篇

猜你喜欢

热点阅读