马尔可夫决策过程
2017-12-06 本文已影响0人
蓝不多山
四要素,SMAR-P
state 状态,系统的状态集合
model 模型 状态经过动作后的转移 T(S,a,S')
action 可以执行的动作集合
reward 某个动作的奖励,可以是R(s),R(s,a),R(s,a,s')
这样的一个过程,要求解的是一个行动策略
P(s)->a, 使得奖励最大化。隐含的假设是时间无尽
四要素,SMAR-P
state 状态,系统的状态集合
model 模型 状态经过动作后的转移 T(S,a,S')
action 可以执行的动作集合
reward 某个动作的奖励,可以是R(s),R(s,a),R(s,a,s')
这样的一个过程,要求解的是一个行动策略
P(s)->a, 使得奖励最大化。隐含的假设是时间无尽