Policy Gradient

2022-08-29 本文已影响0人 AntiGravity

介绍

传统的RL由于部分信息不可见、连续状态空间和高维动作空间，导致在机器人、电机领域实用性差、无法保证收敛，而若使用部分可见的马尔科夫模型建模，则计算成本过高。

PG可以处理连续和离散的动作空间，在不确定的状态空间下依然可以输出最优解（至少能输出局部最优）。Policy的自定义可以结合具体的领域知识从而具有能强的泛化能力。PG可用于model-free或model-based。

缺点是容易陷入局部最优，根据重要性来采样只能稍微减轻该问题，且由于需要快速迭代以避免学习器的偏置，导致数据的利用率较低。PG也要求使用者对具体使用领域有非常深的知识。

由于这些特性，PG通常用于机器人的应用如多足机器人的移动。

由于MD不太支持MathML语法，所以大白话说了。
记：

梯度下降法即通过J对θ的导数×学习率，来一次次更新θ，其中更新次数通常远小于步数（即走若干步后再更新）。

此方法的主要问题是如何获得好的估计器。在机器人和控制论中，通常使用deterministic model-based方法来获得梯度。

主要用于评估在给定样本数n下，算法能将误差压缩到n的何种级数下。包含有限差分法、相似性比例法、自然梯度策略等。