Policy Gradient
2022-08-29 本文已影响0人
AntiGravity
介绍
传统的RL由于部分信息不可见、连续状态空间和高维动作空间,导致在机器人、电机领域实用性差、无法保证收敛,而若使用部分可见的马尔科夫模型建模,则计算成本过高。
PG可以处理连续和离散的动作空间,在不确定的状态空间下依然可以输出最优解(至少能输出局部最优)。Policy的自定义可以结合具体的领域知识从而具有能强的泛化能力。PG可用于model-free或model-based。
缺点是容易陷入局部最优,根据重要性来采样只能稍微减轻该问题,且由于需要快速迭代以避免学习器的偏置,导致数据的利用率较低。PG也要求使用者对具体使用领域有非常深的知识。
由于这些特性,PG通常用于机器人的应用如多足机器人的移动。
算法
由于MD不太支持MathML语法,所以大白话说了。
记:
- 状态:s - 下一个s的分布由当前的(s,a)决定
- 动作:a - 服从π的概率分布
- 当前奖励:r - 由当前的s和a决定,记作r(s,a)
- 策略:π - 是一个由s决定的各个a的概率分布模型,通常形式为π(a|s)
- 轨迹:t - 从0到最终所有的(s,a)的序列
- 未来折扣率:γ - 即下次得到的奖励折算到现在的价值时需要乘以γ
- 当前步数:k
- 期望奖励(目标函数):J=Σγ^k·r,k从0到结束
- 估计器参数:θ
- 学习率:α(k) - 需满足Σα>0且Σα²=const,才能保证至少收敛到局部最优
- 截断点:提前结束的点,因为未来的奖励再也无关紧要
梯度下降法即通过J对θ的导数×学习率,来一次次更新θ,其中更新次数通常远小于步数(即走若干步后再更新)。
此方法的主要问题是如何获得好的估计器。在机器人和控制论中,通常使用deterministic model-based方法来获得梯度。
评估
主要用于评估在给定样本数n下,算法能将误差压缩到n的何种级数下。包含有限差分法、相似性比例法、自然梯度策略等。