RL学习中的灵感

2023-02-09  本文已影响0人  AntiGravity

1. 提升收敛速度

  1. PG中,使用ε-greedy来跳出局部最优,效率较低。
    灵感:在若干(如1k)episode中比较τ的相似性和G(τ)的提升率,如确定接近某局部最优则保存该轨迹后作为黑名单。
  2. 奖励设置较为困难。
    灵感:为什么人类学习如此之快?因为有先验。给agent设置一定通用先验,应有效。如避死与合作的平衡(单RL下提升避死优先级),积极符号与消极符号的辨别,不同符号之间的因果关系。
    进一步的,人类从历史中学习经验、规划未来,终极的agent也应如是。reward应当由agent的原始动机出发,由和环境互动的经验中生成。
    人类中历史中总结的经验,也可称为历史事件的意义,通常用来定义三观,何为正义、道德、美好。这些同样应由agent自行寻找,形成自己的reward后,再根据环境形成策略。或者说两者不断互相更新。总之,reward不应由“上帝”定死。
上一篇 下一篇

猜你喜欢

热点阅读