ModelScope-Agent,帮助每位开发人员构建人工智能智能体
今天,阿里云牵头建设的AI模型社区魔搭(ModelScope)又上新了,推出适配开源大语言模型(LLM)的AI Agent开发框架ModelScope-Agent。
借助ModelScope-Agent,所有开发者都可基于开源 LLM 搭建属于自己的智能体应用,最大限度释放想象力和创造力。ModelScope-Agent的代码现已开源。
AI Agent(AI智能体、AI代理)可谓当前大模型领域最热门的研究方向,它是指基于LLM的、能够使用工具自主完成特定任务的智能体。
众所周知,目前阶段的LLM存在能力边界,主要擅长处理文本任务。AI Agent将LLM与其他模型、软件等外部工具协同,便能处理真实世界中的各种复杂任务,比如接入视频生成模型,自主生产视频;接入外部软件,帮人类写邮件、订票、购物等等。
AI Agent类应用正在成为大模型创业的重要赛道,AI Agent 开发框架也应运而生。但业界现有的AI Agent 开发框架大多基于闭源 LLM 构建。为了充分释放开源 LLM 的生产力,魔搭社区自研了适配开源 LLM 的AI Agent开发框架ModelScope-Agent。简而言之,ModelScope-Agent是pilot(领航员)而非copilot(副驾驶员)。
此前,魔搭已用这套框架在社区做了“打样”,搭建 ModeScopeGPT,它能通过自然语言与用户交互、接受用户指令,通过“中枢模型”通义千问调用社区的众多AI模型API,自主完成人类布置的任务。ModeScopeGPT的调用量已超过 25 万。
(ModelScope-Agent系统架构图)
AI Agent的工作流程一般包括任务的理解、规划和执行,其中,LLM 负责任务规划、工具调用以及回复生成,是整个流程的智能中枢,好比人类的大脑。
ModelScope-Agent允许开发者*选择智能体的“大脑”,适配百川、通义千问等各类开源模型。主流LLM能够做到“即插即用”,开发者如需专门训练LLM 以增强其工具调用能力,可以参考ModelScope-Agent开源的训练数据、训练方法、优化方案、评估方法。
ModelScope-Agent开发框架还包含记忆控制、工具使用等模块,记忆控制模块支持知识检索以及 prompt (提示词)管理,工具使用模块支持工具库、工具检索、工具定制。为了增强开源大模型工具调用能力,魔搭社区还自研了一个包含60w样本的MSAgent-Bench工具调用数据集。
大多数 AI Agent 开发框架需要手动添加工具,而ModelScope-Agent 通过调用魔搭社区上开源的文本向量模型,打造API 工具检索引擎,能让AI Agent根据用户指令自动检索相关工具。如果开发者想要新增外部工具/API,只需要在ModelScope-Agent上注册工具,即可直接调用。
开源正在成为很多头部大模型玩家的选择。未来,ModelScope-Agent 会适配更多新增的开源LLM,并将推出更多基于ModelScope-Agent开发的应用,如个人助理 Agent、Story Agent、Multi-Agent等。魔搭鼓励开发者用ModelScope-Agent探索工业制造、游戏开发、智能互联等行业的应用。
魔搭社区现已聚集20多家顶尖人工智能机构贡献的1000多个开源模型,模型下载量累计突破6000万。未来,魔搭将持续通过开源开放,推进大模型的技术发展和应用落地。阿里云希望把魔搭建设成为中国最大的大模型*市场,持续促进中国大模型生态的繁荣。
/ END /
推荐阅读
-
ModelScope-Agent,帮助每位开发人员构建人工智能智能体
-
NeurIPS 2022 | 最强斗地主AI!网易互娱AI Lab提出基于完美信息蒸馏的方法-完美信息蒸馏(PTIE) 在斗地主游戏中,非完美信息的引入主要是由于三位玩家均不能看到别人的手牌,对于任意一位玩家而言,仅可知道其余两位玩家当前手牌的并集,而难于精准判断每位玩家当前手牌。完美信息蒸馏的思路是针对这种非完美问题,构建一个第三方角色,该角色可以看到三位玩家的手牌,该角色在不告知每位玩家完美信息的情况下通过信息蒸馏的方式引导玩家打出当前情况下合理的出牌。 以强化学习常用的 Actor-Critic 算法为例,PTIE 在 Actor-Critic 算法的应用中可以利用 Critic 的 Value 输出作为蒸馏手段来提升 Actor 的表现。具体而言即在训练中 Critic 的输入为完美信息(包含所有玩家的手牌信息),Actor 的输入为非完美信息(仅包含自己手牌信息),此种情况下 Critic 给予的 Value 值包含了完美信息,可以更好地帮助 Actor 学习到更好的策略。 从更新公式上来看,正常的 Actor-Critic 算法 Actor 更新的方式如下: 在 PTIE 模式下,对于每个非完美信息状态 h,我们可以在 Critic 中构建对应的完美信息状态 D(h),并用 Critic 的输出来更新 Actor 的策略梯度,从而达到完美信息蒸馏的效果。 PTIE 框架的整体结构如下图所示: 无论是训练还是执行过程中智能体都不会直接使用完美信息,在训练中通过蒸馏将完美信息用于提升策略,从而帮助智能体达到一个更高的强度。 PTIE 的另一种蒸馏方式是将完美信息奖励引入到奖励值函数的训练中,PerfectDou 提出了基于阵营设计的完美信息奖励 node reward,以引导智能体学习到斗地主游戏中的合作策略,其定义如下: 如上所示,完美信息部分 代表 t 时刻地主手牌最少几步可以出完,在斗地主游戏中可以近似理解为是距游戏获胜的距离, 代表 t 时刻地主阵营和农民阵营距游戏获胜的距离之差, 为调节系数。通过此种奖励设计,在训练时既可以一定程度地引入各玩家的手牌信息(出完的步数需要知道具体手牌才能计算),同时也鼓励农民以阵营的角度做出决策,提升农民的合作性。 特征构建: PerfectDou 针对牌类游戏的特点主要构建了两部分特征:牌局状态特征和动作特征。其中牌局状态特征主要包括当前玩家手牌牌型特征、当前玩家打出的卡牌牌型特征、玩家角色、玩家手牌数目等常用特征,动作特征主要用于刻画当前状态下玩家的所有可能出牌,包括了每种出牌动作的牌型特征、动作的卡牌数目、是否为最大动作等特征。 牌型特征为 12 * 15 的矩阵,如下图所示: 该矩阵前 4 行代表对应每种卡牌的张数,5-12 行代表该种卡牌的种类和对应位置。 网络结构和动作空间设计 针对斗地主游戏出牌组合数较多的问题,PerfectDou 基于 RLCard 的工作上对动作空间进行了简化,对占比最大的两个出牌牌型:飞机带翅膀和四带二进行了动作压缩,将整体动作空间由 27472 种缩减到 621 种。 PerfectDou 策略网络结构如下图所示: 策略网络结构同样分为两部分:状态特征部分和动作特征部分。 在状态特征部分,LSTM 网络用于提取玩家的历史行为特征,当前牌局状态特征和提取后的行为特征会再通过多层的 MLP 网络输出当前的状态信息 embedding。 在动作特征部分,每个可行动作同样会经过多层 MLP 网络进行编码,编码后的动作特征会与其对应的状态信息 embedding 经过一层 MLP 网络计算两者间的相似度,并经由 softmax 函数输出对应的动作概率。 实验结果