NeurIPS 2022 | 最强斗地主AI!网易互娱AI Lab提出基于完美信息蒸馏的方法-完美信息蒸馏(PTIE) 在斗地主游戏中,非完美信息的引入主要是由于三位玩家均不能看到别人的手牌,对于任意一位玩家而言,仅可知道其余两位玩家当前手牌的并集,而难于精准判断每位玩家当前手牌。完美信息蒸馏的思路是针对这种非完美问题,构建一个第三方角色,该角色可以看到三位玩家的手牌,该角色在不告知每位玩家完美信息的情况下通过信息蒸馏的方式引导玩家打出当前情况下合理的出牌。 以强化学习常用的 Actor-Critic 算法为例,PTIE 在 Actor-Critic 算法的应用中可以利用 Critic 的 Value 输出作为蒸馏手段来提升 Actor 的表现。具体而言即在训练中 Critic 的输入为完美信息(包含所有玩家的手牌信息),Actor 的输入为非完美信息(仅包含自己手牌信息),此种情况下 Critic 给予的 Value 值包含了完美信息,可以更好地帮助 Actor 学习到更好的策略。 从更新
最编程
2024-04-17 15:42:52
...
为了验证 PerfectDou 的强度,我们将 PerfectDou 和各个斗地主 AI 分别进行了 1 万局的对战来评估,包括之前的 SOTA 方法 DouZero。主要指标包括两种:WP(胜率)和ADP(场均得分)。其中 ADP 为主要指标,因为其更符合斗地主游戏规则,WP 为辅助指标。
(上表中加粗数字代表 A 对战 B 胜率超过 50% 或者 ADP 大于 0)
从实验结果中可以发现 PerfectDou 能够击败所有的 AI 程序,达到了新的 SOTA 水平。
除此以外PerfectDou还提供了各个核心模块的消融实验结果。
表中的 ImperfectDou、RewardlessDou 是分别去除了 PTIE 和 Node Reward 模块后训练的斗地主 AI,Vanilla PPO 是同时去除两个模块后训练的斗地主 AI,ImperfectDouZero 是尝试使用 PerfectDou 设计的特征和 DouZero 方法进行训练的斗地主 AI。通过上表我们可以发现 PerfectDou 的强度提升还是得益于 PTIE 和 Node Reward,并且两部分均发挥了不可获缺的作用。这也进一步验证了论文主要贡献点的有效性。
推荐阅读
-
逆流而上的选择 - 积极生活,逆流而上
-
使用 .NET7 和 C#11 构建最快的序列化器--以 MemoryPack 为例
-
在 SpringMVC 中使用 @Value 为非字符串类型注入值
-
冬天里的一把 "火"--岳阳楼区中小学信息技术名师工作室第四次线下活动
-
17,000 字的关键字解释指南!
-
MATLAB 入门 (22) - 哈希算法
-
基于 Vue3 的 Axios 异步请求
-
Mahout-Collaborative-Filtering-CF-Recommendation 算法的基本概念和代码示例
-
节选自 sinbo 的 68 个经典故事
-
陈婉芬女士的精粹金句 ---- 信仰篇、观念篇