强化学习

多智能体强化学习简介

2022-05-12  本文已影响0人  秋冬不寒

一:智能体策略类型

多智能体系统下,每个智能体发出动作获得的奖励会受到其他智能体动作影响。多智能体系统的目标便是学习一种策略使系统达到均衡稳态。

1. 完全合作型

系统的最大奖励需要智能体的相互合作才能获得。
这类的应用场景有机器人足球、设备组装、并发控制和通信等。

2. 完全竞争型

一般采取最大最小化原则,即无论对方采取任何行动,智能体总是采取是自己受益最大的动作。

3. 混合类型

一般针对静态任务,直接对每个智能体应用单智能体RL算法,不需要了解其他智能体的算法。

二: 理论基础

MARL通常用马尔可夫博弈描述。马尔可夫博弈又称为随机博弈。马尔可夫指的是多智能体系统的状态符合马尔可夫性,即下一时刻的状态只与当前状态有关,与前面的时刻没有关系。博弈则描述了智能体之间的关系。
可以用如下元组描述多智能体系统:
(N,S,a_1,a_2, ···,a_N, T, \gamma, r_1, ···, r_N)
N为智能体个数,S为系统状态,一般指系统的联合状态。T为状态转移函数,即根据当前系统的状态和联合动作,给出下一状态的概率分布。r为奖励。\gamma为折扣因子。

三: 优势与挑战

上一篇 下一篇

猜你喜欢

热点阅读