欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

理解与学习MADDPG算法:一份轻松易懂的摘要

最编程 2024-07-29 16:01:45
...

传统算法用于多智能体环境下的困难:

  • Q-learning受到环境不稳定性的挑战
  • 策略梯度的方法随着智能体数量增加,方差变大。
    本文的贡献:
  • 提出了一种actor-critic方法的变种:在考虑其他智能体action-policy的同时,能够学习到需要多智能体的协同policy;
  • 引入了一种训练方式,集成了各智能体的policy,来形成一个更加鲁棒的多智能体policy。
  • 在既合作又竞争的场景下进行测试,验证在这种场景下,智能体集群能够学习到物理和信息层面的合作策略。