部分可见马尔可夫决策过程(POMDP)(一)
2022-05-13 本文已影响0人
秋冬不寒
现实世界中,智能体往往智能观察到部分信息。每个智能体智能感知它周围的环境状态,并不了解系统的状态。部分可见可尔科夫决策过程(POMDP)比MDP更接近一般的决策过程。POMDP可以看成MDP的拓展,状态空间包括对应于MDP的状态集合上的概率分布。
POMDP模型
通常,使用一个七元组描述POMDP,其中S,A,T,r,与MDP一致。此外:
- O: 一组观察结果集。
- Z: 是一个观察函数,表明状态和观察之间的关系。
在POMDP中,智能体不能确定自己处于哪个状态,因此对下一步动作选择的决策基础是当前所处状态的概率。智能体不断收集环境信息,更新自己所处状态的可信度。“信息收集”不能直接把智能体导向目标,而是作为缓冲,让智能体先运动到临近位置,利用临近位置上的环境信息来提高智能体对自己所处状态的可信度。只有非常确定自己的状态,智能体做出的决策才是更加有效的。因此,在每个时间周期,智能体无法准确得知自己的环境状态,但是可以通过观察得到状态的不完整信息。通过观察和动作的历史来作决策。在t时刻观察和行为的历史定义为:
对于历史的描述会消耗很大存储空间,为解决这一问题,需要对历史进行压缩,即采用较短的历史代替所有的观察和行为。