快速入门:完全合作下的多智能体强化学习 - 多智能体A2C
最编程
2024-08-09 16:37:12
...
下面介绍“完全合作关系”设定下的多智能体 A2C 方法 (Multi-Agent Cooperative A2C),缩写 MAC-A2C。简单点入手,本文只考虑离散控制问题。
策略网络和价值网络
MAC-A2C 使用两类神经网络:价值网络 v
与策略网络 π
。
所有智能体共用一个价值网络。
每个智能体有自己的策略网络。
训练和决策
实现中的难点
最大的问题,在 MARL 的常见设定下,第 i 号智能体只知道 oi,而观测不到全局状态。
下面介绍中心化 (Centralized) 与去中心化 (Decentralized) 的实现方法。
- 中心化让智能体共享信息;优点是训练和决策的效果好,缺点是需要通信,造成延时,影响速度。
- 去中心化需要做近似,避免通信;其优点在于速度快,而缺点则是影响训练和决策的质量。
上一篇: 独家!畅享全网VIP视频,免费大放送!
下一篇: 三种方法助你提高Python代码运行速度
推荐阅读
-
快速入门:完全合作下的多智能体强化学习 - 多智能体A2C
-
详解多智能体强化学习算法系列(三期):QMIX、MADDPG与MAPPO的深度解析
-
实用讲解:多智能体强化学习算法进阶(下)—— MADDPG、QMIX、MAPPO详解
-
实用讲解:多智能体强化学习算法进阶(下)—— MADDPG、QMIX、MAPPO详解
-
详解多智能体强化学习算法系列(三期):QMIX、MADDPG与MAPPO的深度解析
-
【四】近几年的多智能体强化学习综述:聚焦于协作与智能体自我建模
-
揭开多智能体强化学习的秘密:理解MADDPG算法的工作机制与简易实现步骤
-
轻松上手:Qmix在多智能体强化学习的基础教程
-
MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习
-
你遇到多智能体强化学习算法效果不佳的问题吗?试试看用对了MAPPO方法有效果吗?