欢迎您访问最编程本站为您分享编程语言代码，编程技术文章！

热门搜索/Hot Search

您现在的位置是：首页

理解与学习MADDPG算法：一份轻松易懂的摘要

最编程 2024-07-29 16:01:45

...

传统算法用于多智能体环境下的困难：

Q-learning受到环境不稳定性的挑战
策略梯度的方法随着智能体数量增加，方差变大。
本文的贡献：
提出了一种actor-critic方法的变种：在考虑其他智能体action-policy的同时，能够学习到需要多智能体的协同policy；
引入了一种训练方式，集成了各智能体的policy，来形成一个更加鲁棒的多智能体policy。
在既合作又竞争的场景下进行测试，验证在这种场景下，智能体集群能够学习到物理和信息层面的合作策略。

上一篇：深度确定性策略强化学习方法（DDPG）详解

下一篇：开源：从起源到现今，创造者的故事

推荐阅读