网易首页 > 网易号 > 正文 申请入驻

多LLM协同作战!清华等开源多智能体框架AgentVerse:合作打造Minecraft物品,还能训练宝可梦

0
分享至

新智元报道

编辑:LRS

【新智元导读】一个语言模型搞不定的问题,使用AgentVerse自动分解成子任务,多个LLM一起上,争取超过诸葛亮!

人类之所以能够爬到地球的食物链顶端,甚至还能继续探索外太空,除了个人的头脑外,更离不开群体的协作力量。

对应到大型语言模型(LLM),虽然单个模型的能力已经非常强大,但想要完成更复杂的任务,或是提升任务的完成效率,还需要多个智能体之间的协作。

最近,受人类群体动力学(human group dynamics)的启发,来自清华大学、北邮和腾讯的研究人员提出了一个多智能体框架AgentVerse,可以让多个模型之间进行协作,并动态调整群体的组成,实现1+1>2的效果。

论文链接:https://arxiv.org/pdf/2308.10848.pdf

开源链接:https://github.com/OpenBMB/AgentVerse

AgentVerse的主要特点包括三点:

1. 高效的环境搭建:框架中提供了多个基本构建模块,只需要在配置文件中添加几行代码,即可轻松搭建多智能体环境,如LLM聊天室等,研究人员只需要关注实验过程和结果分析即可。

2. 可定制的组件:多智能体环境被分为五个功能模块,并定义各自的接口,用户可以基于自己的需求重新定义不同模块的功能。

3. 工具(插件)利用:支持BMTools中提供的工具。

实验结果表明,该框架可以有效地部署多智能体群组,其性能优于单智能体,并且涌现了协作等社会行为。

AgentVerse框架

解决问题(Problem Solving)的过程是人类群体中一系列迭代阶段,最初,该小组评估当前状态和预期目标之间的差异,动态调整其组成以加强决策中的协作,随后执行明智的行动。

为了增强自主多智能体群体实现其目标的有效性,我们模拟了一个人类群体的问题解决过程,提出了AGENTVERSE框架,该框架由四个关键阶段组成:专家招募、协作决策、行动执行和评估。

整个过程可以建模为马尔可夫决策过程(MDP),表征为元组(S,a,T,R,G)。这包括自主代理和环境状态空间S、解决方案和行动空间A、转移函数T:S × A→S、奖励函数R和目标空间G。

1. 专家招募(Expert Recruitment)

专家招募阶段决定了多智能体群体的构成,是决定群体能力上限的重要模块,已经有经验证据表明,人类群体内部的多样性引入了不同的观点,从而提高了群体在不同任务中的表现。

也有研究结果表明,为自主智能体脂定一个特定角色,类似于招募专家组建团队,可以提高运行效率。

不过,目前为智能体分配角色描述的方法主要依赖于人类直觉和先验知识,需要基于任务理解进行手动分配,所以可扩展性仍然不明确,尤其是在面对多样化且复杂的问题环境时。

鉴于此,AgentVerse采用自动化的方式来招募专家,目的是增强配置智能体的可扩展性。

对于给定的目标g∈G,特定的自主智能体Mr被指定为招聘者(recruiter),类似于人力资源经理;Mr 不依赖预定义的专家描述,而是根据当前目标g动态地生成一组专家描述。

然后根据不同的专家描述提示以及目标g,得到多个不同的智能体形成专家组M = Mr(g)

并且,多智能体群体的组成将根据评估阶段的反馈进行动态调整,也使得框架能够根据当前状态(收到的奖励)组建最有效的多智能体群体,以便在后续回合中做出更好的决策。

2. 协同决策

此阶段主要是聚集专家智能体进行协同决策,研究人员选择两种经典的沟通结构来提升决策效率:

横向沟通 ( Horizontal Communication)

每个智能体(表示为mi∈M)积极共享并细化其决策,这种民主的沟通结构鼓励智能体之间的相互理解和协作。

然后将智能体的集体意见结合起来,使用一个集成函数f来形成当前回合的群体决策。

在需要创造性想法或需要大量协调的场景中,例如头脑风暴、咨询或合作游戏等,横向沟通可能是更好的选择。

纵向沟通 (Vertical Communication)

纵向沟通的特点是职责分工,由一个智能体提出初始决策,其余的智能体充当评审人,对解决方案提供反馈;根据反馈,不断完善决策,直到所有的评审智能体就解决方案达成共识,或者达到最大迭代次数。

在需要针对特定目标迭代完善决策的场景中,例如软件开发,垂直沟通是更好的选择。

3. 行动执行(Action Execution)

在决策制定完毕后,智能体需要执行指定的动作,具体取决于实现方式,某些智能体可能会不执行任何操作,然后对环境状态进行更新。

4. 评估(Evaluation)

评估对于下一轮专家组的构成调整和提升起到至关重要的作用,使用奖励反馈机制评估当前状态与期望目标之间的差距,并给出口头反馈,解释为什么当前状态仍然不令人满意并提供建设性建议,讨论下一轮如何改进。

其中奖励反馈机制可以由人工定义(人机协作循环),也可以由自动反馈模型定义,具体取决于实现方式。

如果确定尚未达到预期目标,则奖励反馈循环回到初始阶段,即专家招募;在下一轮专家招募阶段会利用该反馈信号结合初始目标来调整专家组的构成,从而演化出更有效的多智能体群组,以供后续决策和行动执行。

实验部分

为了证明AgentVerse能够指导智能体群组高效地完成任务,研究人员对基准任务进行了定量实验,并对更复杂和实际的应用进行了案例研究。

实验设置

研究人员选择了两个语言模型作为底层支持:GPT-3.5-Turbo-0613和GPT-4-0613

在数据集和评估指标的选择上,主要考察多智能体群组在四个方面的能力:

1. 对话(Conversation)能力

第一个数据集为对话(Dialogue)回复数据集FED,给定多轮聊天历史记录,智能体需要生成回复内容,使用GPT-4作为评估器,对模型生成的回复和人类编写的回复进行评分,并报告模型的胜率。

第二个数据集为约束生成Commongen-Challenge,给定20个概念,智能体需要生成一个语义连贯且语法正确的段落,并且应当包含尽可能多的概念。

2、数学计算(Mathematical Calculation)能力

利用MGSM 的英语子集,包含小学级别数学问题,指标为正确答案的百分比。

3. 逻辑推理(Logical Reasoning)能力

利用BigBench的逻辑网格谜题(logic grid puzzle)任务,其中包含需要多步骤逻辑推理的逻辑问题,使用准确率指标。

4. 编码(Coding)

利用代码补全数据集Humaneval,使用Pass@1指标进行评估。

实验结果

性能分析

单个智能体(Single)使用给定的提示直接生成答案,而用AgentVerse构建的多智能体群组(Multiple)以协作的方式解决问题。

从结果中可以看出,无论使用GPT-3.5-Turbo还是GPT-4,多智能体始终优于单智能体。

由于GPT-3.5-Turbo很难在逻辑网格谜题数据集上给出正确的推理结果,所以表中省略了相应的实验结果。

协作决策分析

与纵向沟通相比,水平沟无法促进数学计算任务 (MGSM) 上的多智能体群组有效决策,进一步分析可以发现,沟通架构对于塑造决策结果来说至关重要。

在横向沟通中,智能体以顺序的方式进行沟通,某个智能体可能会提出有缺陷的解决方案或质疑其他智能体的正确主张,其他智能体往往不会纠正错误,而是遵循错误的决策,导致性能低于单智能体。

而在纵向沟通中,其他智能体只需要提供反馈,虽然建议可能会存在缺陷,但大多数智能体有建设性的批评通常会缓解错误,从而使核心智能体可以保留准确的解决方案。

不过这也不意味着横向沟通效率较低,只是说在需要精确答案的任务上,纵向沟通更合适;而在咨询等需要不同解决方案的任务中,横向沟通更合适。

案例研究:软件开发

研究人员在文中设计了三个案例任务,下面以软件开发为例

任务描述

视频游戏中往往会提供复杂的虚拟环境,可以有效测试智能体的能力边界,研究人员以沙盒游戏《我的世界》(Minecraft)为实验平台,游戏的机制和大量可制作的物品集合要求智能体不仅要执行任务,还要计划、协调和适应动态场景。

研究人员的目标是利用AgentVerse整合多个智能体来合作制作特定的物品,测试智能体在复杂的环境中共享知识、资源和协作的能力。

实验分析

实验中,要求三个智能体合作制作一个书架,其过程至少包含九个基本步骤,如收集木材和皮革等材料,制作书籍等中间物品,最后组装书架。

由于游戏中只有玩家一种身份,所以AgentVerse框架中的专家招募阶段可以省略,直接通过提示指定模型扮演《我的世界》中经验丰富的玩家即可。

智能体可以将制作书架的整体目标分解成正确的子任务,战略性地分配并分发执行。

一个值得注意的观察是智能体的适应性和合作本能,例如,在最初的几轮比赛中,当Alice努力淘汰皮革所需的三头奶牛时,Bob辅助完成了指定的任务,他注意到了Alice面临的困难,从而介入并提供帮助。

类似的涌现行为非常关键,凸显了智能体在面临意想不到的挑战时的健壮性和灵活性。

参考资料:

https://github.com/OpenBMB/AgentVerse

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普亲口承认,中国不是美国最大威胁,美学者:中美高下已分

特朗普亲口承认,中国不是美国最大威胁,美学者:中美高下已分

照亮你的前行之路
2026-03-25 04:00:03
赖昌星前妻近状曝光:拒绝政府安置,独居3000平老宅,只做一件事

赖昌星前妻近状曝光:拒绝政府安置,独居3000平老宅,只做一件事

芳芳历史烩
2026-03-23 03:53:23
ESPN:巴萨将听取对费兰-托雷斯的报价,倾向于卖他而非莱万

ESPN:巴萨将听取对费兰-托雷斯的报价,倾向于卖他而非莱万

懂球帝
2026-03-25 01:48:04
腊肉先泡水还是先煮?10年大厨:第1步错了,难怪腊肉又咸又硬!

腊肉先泡水还是先煮?10年大厨:第1步错了,难怪腊肉又咸又硬!

思思夜话
2026-03-18 12:11:32
3月24日影响市场大事件

3月24日影响市场大事件

每日经济新闻
2026-03-24 06:49:00
再赢4场!贾巴尔尘封37年的历史纪录,又要被詹姆斯打破了

再赢4场!贾巴尔尘封37年的历史纪录,又要被詹姆斯打破了

大西体育
2026-03-24 21:10:07
异性关系再好,这4种“称呼”也别乱叫,叫多了关系就“变味”了

异性关系再好,这4种“称呼”也别乱叫,叫多了关系就“变味”了

大熊欢乐坊
2026-03-25 04:19:06
一个奇怪现象:明明工作那么难找,月薪三千的保安却一直招不到人

一个奇怪现象:明明工作那么难找,月薪三千的保安却一直招不到人

捣蛋窝
2026-03-23 16:18:22
张雪峰离世,留给11岁女儿上亿遗产,妻子和父母含泪告别

张雪峰离世,留给11岁女儿上亿遗产,妻子和父母含泪告别

素素娱乐
2026-03-24 22:34:44
这些“垃圾花”也该被315曝光,别再坑害花友了,白送都不能要

这些“垃圾花”也该被315曝光,别再坑害花友了,白送都不能要

三农老历
2026-03-20 00:32:02
穆迪的受伤让勇士队再次想起巴特勒的惨痛经历,都在等最新消息

穆迪的受伤让勇士队再次想起巴特勒的惨痛经历,都在等最新消息

好火子
2026-03-25 01:46:49
彻底凉了!4500 万废柴现形,阿森纳再也不能让他首发

彻底凉了!4500 万废柴现形,阿森纳再也不能让他首发

奶盖熊本熊
2026-03-25 03:42:09
OnlyFans为什么这么能赚钱?参透了人性和互联网

OnlyFans为什么这么能赚钱?参透了人性和互联网

超先声
2026-03-24 16:12:52
伊朗突发!刚刚,直线猛拉

伊朗突发!刚刚,直线猛拉

中国基金报
2026-03-24 11:07:34
狂砍83分后秒变弱鸡?阿德巴约遭文班亚马打爆,17中5现原形

狂砍83分后秒变弱鸡?阿德巴约遭文班亚马打爆,17中5现原形

仰卧撑FTUer
2026-03-24 10:46:02
以色列:被打穿了

以色列:被打穿了

小嵩
2026-03-25 02:52:44
何猷君带娃看东超决赛,俩孩子正脸曝光,儿子像妈妈,女儿像爸爸

何猷君带娃看东超决赛,俩孩子正脸曝光,儿子像妈妈,女儿像爸爸

阿紵美食
2026-03-22 21:13:03
飙升第三!郭士强观战深圳双杀江苏5连胜 贺希宁31分双里程碑

飙升第三!郭士强观战深圳双杀江苏5连胜 贺希宁31分双里程碑

醉卧浮生
2026-03-24 21:15:14
名记:保罗-乔治的25场禁赛执行完毕,他将于今日复出

名记:保罗-乔治的25场禁赛执行完毕,他将于今日复出

懂球帝
2026-03-25 00:43:40
国际原油跌幅重新扩大至12%

国际原油跌幅重新扩大至12%

潇湘晨报
2026-03-24 11:04:20
2026-03-25 04:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14804文章数 66718关注度
往期回顾 全部

科技要闻

年仅41岁,教育名师张雪峰猝然离世

头条要闻

张雪峰去世 猝死前身体的3个求救信号别忽视

头条要闻

张雪峰去世 猝死前身体的3个求救信号别忽视

体育要闻

NBA最强左手射手,是个右撇子

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

特朗普再TACO 可以押注伊朗局势降级?

汽车要闻

尚界Z7双车预售22.98万起 问界M6预售26.98万起

态度原创

房产
游戏
健康
时尚
军事航空

房产要闻

北上广深二手房集体回暖!三月小阳春行情全面兑现

余霜管泽元官宣怀孕!“小队新成员” 来了

转头就晕的耳石症,能开车上班吗?

豪门梦破碎后,她居然还能爆红?

军事要闻

以色列媒体:美国计划于4月9日结束对伊朗战争

无障碍浏览 进入关怀版