马尔可夫决策过程

2017-12-06  本文已影响0人  蓝不多山

四要素,SMAR-P

state 状态,系统的状态集合

model 模型 状态经过动作后的转移 T(S,a,S')

action 可以执行的动作集合

reward 某个动作的奖励,可以是R(s),R(s,a),R(s,a,s')

这样的一个过程,要求解的是一个行动策略

P(s)->a, 使得奖励最大化。隐含的假设是时间无尽

上一篇下一篇

猜你喜欢

热点阅读