多智能体强化学习简介

2022-05-12 本文已影响0人秋冬不寒

一：智能体策略类型

多智能体系统下，每个智能体发出动作获得的奖励会受到其他智能体动作影响。多智能体系统的目标便是学习一种策略使系统达到均衡稳态。

1. 完全合作型

系统的最大奖励需要智能体的相互合作才能获得。
这类的应用场景有机器人足球、设备组装、并发控制和通信等。

2. 完全竞争型

一般采取最大最小化原则，即无论对方采取任何行动，智能体总是采取是自己受益最大的动作。

3. 混合类型

一般针对静态任务，直接对每个智能体应用单智能体RL算法，不需要了解其他智能体的算法。

二：理论基础

MARL通常用马尔可夫博弈描述。马尔可夫博弈又称为随机博弈。马尔可夫指的是多智能体系统的状态符合马尔可夫性，即下一时刻的状态只与当前状态有关，与前面的时刻没有关系。博弈则描述了智能体之间的关系。
可以用如下元组描述多智能体系统：
$(N,S,a_1,a_2, ···,a_N, T, \gamma, r_1, ···， r_N)$
N为智能体个数，S为系统状态，一般指系统的联合状态。T为状态转移函数，即根据当前系统的状态和联合动作，给出下一状态的概率分布。r为奖励。 $\gamma$ 为折扣因子。

三：优势与挑战

优势
- 不同智能体之间可以共享经验，从而更快、更好地完成任务
- 可以将大任务拆成子任务，不同智能体并行执行子任务
- 某个智能体出现问题时，其他智能体可以替代其工作，提升鲁棒性
- 系统可拓展性强
挑战
- 随状态、动作、智能体数码增加，计算复杂度呈指数级增长
- 学习目标难以定义
- 无法单独最大化某个智能体的奖励，难以收敛到最优解
- 探索过程复杂。不仅需要环境信息，还需要其他智能体的信息，过度探索还可能打破系统平衡。

多智能体强化学习简介

一：智能体策略类型

1. 完全合作型

2. 完全竞争型

3. 混合类型

二：理论基础

三：优势与挑战

猜你喜欢

热点阅读

多智能体强化学习简介

一：智能体策略类型

1. 完全合作型

2. 完全竞争型

3. 混合类型

二： 理论基础

三： 优势与挑战

猜你喜欢

热点阅读

二：理论基础

三：优势与挑战