Policy Gradient

2022-08-29  本文已影响0人  AntiGravity

介绍

传统的RL由于部分信息不可见、连续状态空间和高维动作空间,导致在机器人、电机领域实用性差、无法保证收敛,而若使用部分可见的马尔科夫模型建模,则计算成本过高。

PG可以处理连续和离散的动作空间,在不确定的状态空间下依然可以输出最优解(至少能输出局部最优)。Policy的自定义可以结合具体的领域知识从而具有能强的泛化能力。PG可用于model-free或model-based。

缺点是容易陷入局部最优,根据重要性来采样只能稍微减轻该问题,且由于需要快速迭代以避免学习器的偏置,导致数据的利用率较低。PG也要求使用者对具体使用领域有非常深的知识。

由于这些特性,PG通常用于机器人的应用如多足机器人的移动。

算法

由于MD不太支持MathML语法,所以大白话说了。
记:

梯度下降法即通过J对θ的导数×学习率,来一次次更新θ,其中更新次数通常远小于步数(即走若干步后再更新)。

此方法的主要问题是如何获得好的估计器。在机器人和控制论中,通常使用deterministic model-based方法来获得梯度。

评估

主要用于评估在给定样本数n下,算法能将误差压缩到n的何种级数下。包含有限差分法、相似性比例法、自然梯度策略等。

上一篇下一篇

猜你喜欢

热点阅读