MARL 笔记

2022-06-19 本文已影响0人 AntiGravity

16年的MARL概览: A comprehensive survey of multiagent reinforcement learning（谷歌学术）

Model-free时学习均衡：

Nash Q-learning：仅在强假设收敛，多个收敛点。（类似的有MADDPG、Mean-Field Q-learning）
Stackelberg 均衡：越合作越优于Nash均衡，且仅有一个收敛点，是帕累托最优点。

Model-based时学习均衡：

Minimax-Q method

协同（对其他agent建模）

PR2（Probabilistic Recursive Reasoning）

合作（MA共享同一个reward）

通讯 - Multiagent Bidirectionally-Coordinated Net
集中训练分布执行 - Multi-Agent Actor-Critic for Mixed Cooperative-Competitve Environments

上一篇下一篇

猜你喜欢

热点阅读