快速入门：完全合作下的多智能体强化学习 - 多智能体A2C

最编程 2024-08-09 16:37:12

...

下面介绍“完全合作关系”设定下的多智能体 A2C 方法 (Multi-Agent Cooperative A2C)，缩写 MAC-A2C。简单点入手，本文只考虑离散控制问题。

MAC-A2C 使用两类神经网络：价值网络 v 与策略网络 π。

在这里插入图片描述

所有智能体共用一个价值网络。
每个智能体有自己的策略网络。

在这里插入图片描述

在这里插入图片描述

最大的问题，在 MARL 的常见设定下，第 i 号智能体只知道 oi，而观测不到全局状态。

在这里插入图片描述

下面介绍中心化 (Centralized) 与去中心化 (Decentralized) 的实现方法。

详解多智能体强化学习算法系列（三期）：QMIX、MADDPG与MAPPO的深度解析