强化学习

部分可见马尔可夫决策过程(POMDP)(一)

2022-05-13  本文已影响0人  秋冬不寒

现实世界中,智能体往往智能观察到部分信息。每个智能体智能感知它周围的环境状态,并不了解系统的状态。部分可见可尔科夫决策过程(POMDP)比MDP更接近一般的决策过程。POMDP可以看成MDP的拓展,状态空间包括对应于MDP的状态集合上的概率分布。

POMDP模型

通常,使用一个七元组(S,A,T,R,O,Z,\gamma)描述POMDP,其中S,A,T,r,\gamma与MDP一致。此外:

在POMDP中,智能体不能确定自己处于哪个状态,因此对下一步动作选择的决策基础是当前所处状态的概率。智能体不断收集环境信息,更新自己所处状态的可信度。“信息收集”不能直接把智能体导向目标,而是作为缓冲,让智能体先运动到临近位置,利用临近位置上的环境信息来提高智能体对自己所处状态的可信度。只有非常确定自己的状态,智能体做出的决策才是更加有效的。因此,在每个时间周期,智能体无法准确得知自己的环境状态,但是可以通过观察得到状态的不完整信息。通过观察和动作的历史来作决策。在t时刻观察和行为的历史定义为:
h_t = (a_0,o_1,···,o_{t-1},a_{t-1},o_t)
对于历史的描述会消耗很大存储空间,为解决这一问题,需要对历史进行压缩,即采用较短的历史代替所有的观察和行为

上一篇下一篇

猜你喜欢

热点阅读