网易首页 > 网易号 > 正文 申请入驻

ICML 2025 | 模型不开口也能配合?贝叶斯纳什均衡重塑多智能体LLM协作

0
分享至

ECON框架将多语言模型(LLM)协同工作的问题重构为贝叶斯纳什均衡的求解过程,创新性地提出了无需直接交互的高效协调机制。通过严谨的理论推导与多维度实验验证,该框架在任务处理效能、资源利用效率及系统扩展能力方面均展现出显著优势,为构建超大规模多智能体协作体系开辟了全新路径。

论文标题: From Debate to Equilibrium: Belief-Driven Multi-Agent LLM Reasoning via Bayesian Nash Equilibrium 论文链接: https://arxiv.org/abs/2506.08292 代码链接: https://github.com/tmlr-group/ECON

当前,通过 prompt 引导多个大语言模型(LLM)进行协作,如多智能体辩论(Multi-agent Debate),已被证明能显著增强模型的复杂推理能力。

然而,基于“显式多轮信息交互“的多模型框架普遍面临三大挑战:

  1. 高昂的通信成本:智能体之间频繁的显式信息交换消耗大量 token,计算开销巨大。

  2. 缺乏收敛保证:协作过程缺乏明确的理论保障,性能有时不稳定,甚至可能不如单体方法。

  3. 扩展性受限:多轮交互产生的信息量随智能体数量增加而急剧膨胀,容易超出 LLM 的上下文窗口限制。

如图 1 所示,多智能体辩论(MAD)依赖于 LLM 之间的多轮显式的消息传递,这种模式不仅效率低下,而且难以扩展。

图1. 多智能体协作方法对比。上为传统的多智能体辩论(MAD),依赖高昂的通信开销。下为本文提出的 ECON,基于信念的协调机制取代直接通信。

为解决上述挑战,我们提出将多 LLM 协作问题重塑为一个不完全信息博弈,并寻求其贝叶斯纳什均衡(Bayesian Nash Equilibrium,BNE)。

在 BNE 状态下,每个智能体根据其对其他智能体策略的“信念”来做出最优决策,从而无需进行昂贵的直接通信。基于此思想,我们设计了 ECON(Efficient Coordination via Nash Equilibrium)框架。

实验证明,ECON 在六个复杂的推理基准上,性能平均超越现有方法 11.2%,同时相较于 3 轮的多智能体辩论,平均减少 21.4% 的 token 消耗。最后我们通过引入局部-整体纳什均衡,成功扩展到了九个语言模型协同。

总计而言我们的主要贡献如下三点:

  • 新视角:首次将多 LLM 协作问题形式化为不完全信息博弈,引入贝叶斯纳什均衡(BNE)作为其理论基础,并从存在性到收敛性建立了完整的理论框架。

  • 新方法:设计了 ECON 框架,通过“协调者-执行者”的分布式架构和信念网络,在不依赖直接通信的情况下实现 BNE,并通过局部-全局纳什协调机制解决了扩展性瓶颈。

  • 新发现:通过大量实验证明,ECON 在多种复杂推理任务上超越了现有的单智能体和多智能体方法,并验证了其在同异构模型配置下的有效性、成本效益和良好的扩展能力。

一、新视角:基于贝叶斯纳什均衡(BNE)的协作理论

现有方法大多依赖显式的“完全信息”交互,这在现实中成本高昂。我们认为,一个更贴近现实的设定是,每个智能体都处于不完全信息(Incomplete-information)环境中。

为此,我们将此设定形式化为去中心化部分可观察马尔可夫决策过程(decentralized partially observable Markov decision process)。

在此框架下,我们引入博弈论中的贝叶斯纳什均衡(BNE)作为协作目标。BNE描述了一个稳定状态:每个智能体根据其对其他智能体行为的概率性信念(Belief),选择能最大化自身期望回报的策略。在此均衡下,任何智能体都无法单方面改变策略以获得更好结果。

我们将协作目标定义为寻找 BNE,从而将昂贵的显式通信,转变为高效的、基于内部信念的隐式协调。我们为这一范式提供了坚实的理论保障:

  1. BNE 的存在性:我们基于Glicksberg 不动点定理,从理论上证明了在我们的多 LLM 框架中,BNE 策略组合是必然存在的。

  2. 收敛性保证:我们使用遗憾(Regret)来衡量当前策略与最优策略的差距。理论分析表明,ECON 能够实现亚线性遗憾界(Sublinear Regret Bound),这意味着系统能随优化过程持续趋近最优解。相比之下,缺乏均衡保障的传统辩论方法通常对应线性遗憾,性能提升会更快遭遇瓶颈。

二、新方法:ECON框架的设计与实现

为了在实践中实现 BNE,我们设计了 ECON 框架,它采用“协调者-执行者(Coordinator-Executor)”的层次化架构,并在训练和推理阶段解耦。

图2. ECON 框架图。左侧为推理流程,右侧为信念网络优化流程。

ECON 框架主要包括以下核心模块:

执行者 LLM(Execution LLMs)与信念网络:多个执行者 LLM 并行独立地进行推理。每个执行者拥有一个信念网络(Belief Network),该网络将其局部历史轨迹映射为一个信念状态,并据此生成最优行动。同时,信念网络也会输出一个局部的 Q 值,用于后续的全局优化。

协调者 LLM(Coordinator LLM):一个中心的协调者LLM负责结构初始问题并提供策略指导(不多于 50token),并在最后整合所有执行者的答案,形成最终输出。

信念编码器与中心化混合网络:在训练阶段,一个共享的信念编码器(Belief Encoder)会聚合所有执行者的信念状态,形成群体表征。

随后,一个中心化混合网络(Centralized Mixing Network)会整合所有局部 Q 值和群体表征,计算出一个全局 Q 值,并指导每个信念网络进行参数更新,从而引导整个系统向 BNE 收敛。这种“中心化训练,分布式执行”的模式是 ECON 效率的关键。

奖励函数设计:我们设计了包含三个部分的综合奖励函数:(1)动作似然奖励,衡量个体输出与最终共识的一致性;(2)任务特定奖励,评估在具体任务上的表现;(3)协作贡献奖励,评估每个智能体对集体解方案的贡献。

三、新发现:实验结果与分析

我们在 6 个涵盖数学推理、常识推理和复杂规划的基准上对 ECON 进行了全面评测。

1. 推理性能与成本效益

如图 3 所示,ECON 在所有基准上的平均性能优于各类基线方法。在具有挑战性的TravelPlanner任务上,ECON(GPT-4)将最终通过率提升至 15.2%,显著高于同样设置下多智能体辩论(MAD)的 7.1%。

在成本方面,与 3 轮辩论的 MAD 相比,ECON 的 token 消耗平均减少了 21.4%

图3. 五个推理数据集上的平均准确率对比

图4. 三个推理数据集上的 token 消耗对比2. 不同模型配置下的有效性

为了验证 ECON 的泛化能力,我们测试了多种模型配置,包括同构(如 3 个 LLaMA3.1 8B)和异构(如混合使用 Mixtral、Qwen 和 LLaMA)的执行者 LLM。

实验结果表明,尽管异构模型组合因达成 BNE 更具挑战而性能略有下降,但仍显著优于基线方法。这证明 ECON 框架能够有效协调不同能力的模型。

图5. 同异构语言模型协同实验3. 可扩展性验证:从局部到全局纳什均衡

我们进一步探究了 ECON 的扩展能力。实验发现,简单地将执行者 LLM 数量增加到 4 个以上时,单个协调者会面临瓶颈,这导致 BNE 无法实现,性能提升有限。

为此,我们引入了局部-全局纳什协调机制:将 9 个执行者分为 3 组,每组由一个局部协调者管理以达成“局部纳什均衡”,再由一个更高层的中心 LLM 整合,实现“全局纳什均衡”。

如图 4 所示,采用此机制后,系统性能得到持续且显著的提升。与基础的 3 执行者配置相比,9 执行者的扩展系统平均性能提升了 18.1%,展示了 ECON 良好的扩展潜力。

图6. 通过增加协调者和执行者数量,ECON 展现出持续的性能提升。 四、总结

ECON 框架通过将多 LLM 协作重新建模为寻找贝叶斯纳什均衡的过程,提出了一种无需直接通信的高效协调方法。完整的理论分析和详尽的实验结果表明,该框架在性能、效率和可扩展性方面均表现出强大的能力,为构建大规模、高效的多智能体系统提供了新的思路。

更多的实验分析和技术细节,请移步参阅我们的论文及源码,我们也将持续更新本工作的内容。

来源:公众号【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
轰的一声!国防部长被炸身亡,俄外交雪上加霜,普京沉默了

轰的一声!国防部长被炸身亡,俄外交雪上加霜,普京沉默了

田园小归
2026-04-30 09:08:32
劳拉新形象太丑胸围被大砍!祖国人看了都没食欲

劳拉新形象太丑胸围被大砍!祖国人看了都没食欲

游民星空
2026-04-29 16:11:32
真蠢!居然相信印度和孟加拉能超越中国

真蠢!居然相信印度和孟加拉能超越中国

观云者
2026-04-27 09:40:49
狂降14℃!中雨、大雨、8级大风来了!

狂降14℃!中雨、大雨、8级大风来了!

极目新闻
2026-04-30 09:56:21
詹姆斯:我的巅峰结束于2021年被希尔压伤脚踝!

詹姆斯:我的巅峰结束于2021年被希尔压伤脚踝!

历史第一人梅西
2026-04-30 10:05:54
缺德到这种程度,已经不是简单“措辞不当”的问题了!

缺德到这种程度,已经不是简单“措辞不当”的问题了!

胖胖说他不胖
2026-04-29 09:00:32
广东男篮今日最新动态!老板亲自到场激励球员,徐杰深夜发声,焦泊乔缺席原因曝光

广东男篮今日最新动态!老板亲自到场激励球员,徐杰深夜发声,焦泊乔缺席原因曝光

凯丰侃球
2026-04-30 09:08:58
太突然,iPhone 17 / Pro max,全面降价!

太突然,iPhone 17 / Pro max,全面降价!

黑猫科技迷
2026-04-29 19:57:07
女子啃老10年,自尽后老母亲收拾房间发现银行卡,查看余额后崩溃

女子啃老10年,自尽后老母亲收拾房间发现银行卡,查看余额后崩溃

白云故事
2025-03-17 07:55:10
群体躺平很可怕,会引发连锁效应

群体躺平很可怕,会引发连锁效应

上峰视点
2026-04-29 12:04:44
炸裂!“最强降压药” 真的来了!30 年一遇,专门收拾顽固高血压

炸裂!“最强降压药” 真的来了!30 年一遇,专门收拾顽固高血压

孟大夫之家1
2026-04-28 19:07:08
刚下飞机就被抓!美国佬用抓孟晚舟的套路、逮捕了中国公民徐泽伟

刚下飞机就被抓!美国佬用抓孟晚舟的套路、逮捕了中国公民徐泽伟

吃货的分享
2026-04-29 04:49:05
王毅刚走,泰国拍板一万亿超级工程!中国将多一条高效便捷的通道

王毅刚走,泰国拍板一万亿超级工程!中国将多一条高效便捷的通道

你是我心中最美星空
2026-04-30 09:06:39
广东宏远拒绝被淘汰!杜锋调整阵容,奎因触底反弹,央视直播

广东宏远拒绝被淘汰!杜锋调整阵容,奎因触底反弹,央视直播

体坛瞎白话
2026-04-30 09:29:56
贵州一大学生户外瀑降死亡!梦想:爬雪山;赚钱让爸妈过上好生活

贵州一大学生户外瀑降死亡!梦想:爬雪山;赚钱让爸妈过上好生活

追月数星
2026-04-29 15:13:43
张军成为首位被调查的奥运冠军,难逃牢狱之灾,金牌不是护身符

张军成为首位被调查的奥运冠军,难逃牢狱之灾,金牌不是护身符

米修体育
2026-04-29 17:56:53
无限期休战!季后赛次轮报销!湖人遭遇沉重打击

无限期休战!季后赛次轮报销!湖人遭遇沉重打击

篮球教学论坛
2026-04-29 18:11:02
连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

街上的行人很刺眼
2026-04-25 10:55:49
闻所未闻:许家印居然是这样到基层视察的!

闻所未闻:许家印居然是这样到基层视察的!

仕道
2026-04-29 12:31:52
45分4板5助1断!45分9板7助2断!双状元神仙打架,黑八奇迹难产

45分4板5助1断!45分9板7助2断!双状元神仙打架,黑八奇迹难产

世界体育圈
2026-04-30 10:46:04
2026-04-30 11:31:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2364文章数 596关注度
往期回顾 全部

科技要闻

四巨头财报齐发:AI已经不只是风口

头条要闻

"上海最通透爸爸"去世 女儿:他退休20多年这辈子不亏

头条要闻

"上海最通透爸爸"去世 女儿:他退休20多年这辈子不亏

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

孙杨妈妈被曝!过往言行被扒大开眼界

财经要闻

一场20年级别的供应危机,在眼前了!

汽车要闻

上汽一季报出炉 在低增长周期里守住基本盘

态度原创

游戏
本地
时尚
公开课
军事航空

国产武侠新游《明镜江湖行:朔风起》今日发售

本地新闻

用青花瓷的方式,打开西溪湿地

春季穿衣千万别太暗沉!试试蓝白配色、选基础款裤子,大方得体

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国参议院否决限制特朗普对古巴动武的决议

无障碍浏览 进入关怀版