网易首页 > 网易号 > 正文 申请入驻

ICML 2025 | 模型不开口也能配合?贝叶斯纳什均衡重塑多智能体LLM协作

0
分享至

ECON框架将多语言模型(LLM)协同工作的问题重构为贝叶斯纳什均衡的求解过程,创新性地提出了无需直接交互的高效协调机制。通过严谨的理论推导与多维度实验验证,该框架在任务处理效能、资源利用效率及系统扩展能力方面均展现出显著优势,为构建超大规模多智能体协作体系开辟了全新路径。

论文标题: From Debate to Equilibrium: Belief-Driven Multi-Agent LLM Reasoning via Bayesian Nash Equilibrium 论文链接: https://arxiv.org/abs/2506.08292 代码链接: https://github.com/tmlr-group/ECON

当前,通过 prompt 引导多个大语言模型(LLM)进行协作,如多智能体辩论(Multi-agent Debate),已被证明能显著增强模型的复杂推理能力。

然而,基于“显式多轮信息交互“的多模型框架普遍面临三大挑战:

  1. 高昂的通信成本:智能体之间频繁的显式信息交换消耗大量 token,计算开销巨大。

  2. 缺乏收敛保证:协作过程缺乏明确的理论保障,性能有时不稳定,甚至可能不如单体方法。

  3. 扩展性受限:多轮交互产生的信息量随智能体数量增加而急剧膨胀,容易超出 LLM 的上下文窗口限制。

如图 1 所示,多智能体辩论(MAD)依赖于 LLM 之间的多轮显式的消息传递,这种模式不仅效率低下,而且难以扩展。

图1. 多智能体协作方法对比。上为传统的多智能体辩论(MAD),依赖高昂的通信开销。下为本文提出的 ECON,基于信念的协调机制取代直接通信。

为解决上述挑战,我们提出将多 LLM 协作问题重塑为一个不完全信息博弈,并寻求其贝叶斯纳什均衡(Bayesian Nash Equilibrium,BNE)。

在 BNE 状态下,每个智能体根据其对其他智能体策略的“信念”来做出最优决策,从而无需进行昂贵的直接通信。基于此思想,我们设计了 ECON(Efficient Coordination via Nash Equilibrium)框架。

实验证明,ECON 在六个复杂的推理基准上,性能平均超越现有方法 11.2%,同时相较于 3 轮的多智能体辩论,平均减少 21.4% 的 token 消耗。最后我们通过引入局部-整体纳什均衡,成功扩展到了九个语言模型协同。

总计而言我们的主要贡献如下三点:

  • 新视角:首次将多 LLM 协作问题形式化为不完全信息博弈,引入贝叶斯纳什均衡(BNE)作为其理论基础,并从存在性到收敛性建立了完整的理论框架。

  • 新方法:设计了 ECON 框架,通过“协调者-执行者”的分布式架构和信念网络,在不依赖直接通信的情况下实现 BNE,并通过局部-全局纳什协调机制解决了扩展性瓶颈。

  • 新发现:通过大量实验证明,ECON 在多种复杂推理任务上超越了现有的单智能体和多智能体方法,并验证了其在同异构模型配置下的有效性、成本效益和良好的扩展能力。

一、新视角:基于贝叶斯纳什均衡(BNE)的协作理论

现有方法大多依赖显式的“完全信息”交互,这在现实中成本高昂。我们认为,一个更贴近现实的设定是,每个智能体都处于不完全信息(Incomplete-information)环境中。

为此,我们将此设定形式化为去中心化部分可观察马尔可夫决策过程(decentralized partially observable Markov decision process)。

在此框架下,我们引入博弈论中的贝叶斯纳什均衡(BNE)作为协作目标。BNE描述了一个稳定状态:每个智能体根据其对其他智能体行为的概率性信念(Belief),选择能最大化自身期望回报的策略。在此均衡下,任何智能体都无法单方面改变策略以获得更好结果。

我们将协作目标定义为寻找 BNE,从而将昂贵的显式通信,转变为高效的、基于内部信念的隐式协调。我们为这一范式提供了坚实的理论保障:

  1. BNE 的存在性:我们基于Glicksberg 不动点定理,从理论上证明了在我们的多 LLM 框架中,BNE 策略组合是必然存在的。

  2. 收敛性保证:我们使用遗憾(Regret)来衡量当前策略与最优策略的差距。理论分析表明,ECON 能够实现亚线性遗憾界(Sublinear Regret Bound),这意味着系统能随优化过程持续趋近最优解。相比之下,缺乏均衡保障的传统辩论方法通常对应线性遗憾,性能提升会更快遭遇瓶颈。

二、新方法:ECON框架的设计与实现

为了在实践中实现 BNE,我们设计了 ECON 框架,它采用“协调者-执行者(Coordinator-Executor)”的层次化架构,并在训练和推理阶段解耦。

图2. ECON 框架图。左侧为推理流程,右侧为信念网络优化流程。

ECON 框架主要包括以下核心模块:

执行者 LLM(Execution LLMs)与信念网络:多个执行者 LLM 并行独立地进行推理。每个执行者拥有一个信念网络(Belief Network),该网络将其局部历史轨迹映射为一个信念状态,并据此生成最优行动。同时,信念网络也会输出一个局部的 Q 值,用于后续的全局优化。

协调者 LLM(Coordinator LLM):一个中心的协调者LLM负责结构初始问题并提供策略指导(不多于 50token),并在最后整合所有执行者的答案,形成最终输出。

信念编码器与中心化混合网络:在训练阶段,一个共享的信念编码器(Belief Encoder)会聚合所有执行者的信念状态,形成群体表征。

随后,一个中心化混合网络(Centralized Mixing Network)会整合所有局部 Q 值和群体表征,计算出一个全局 Q 值,并指导每个信念网络进行参数更新,从而引导整个系统向 BNE 收敛。这种“中心化训练,分布式执行”的模式是 ECON 效率的关键。

奖励函数设计:我们设计了包含三个部分的综合奖励函数:(1)动作似然奖励,衡量个体输出与最终共识的一致性;(2)任务特定奖励,评估在具体任务上的表现;(3)协作贡献奖励,评估每个智能体对集体解方案的贡献。

三、新发现:实验结果与分析

我们在 6 个涵盖数学推理、常识推理和复杂规划的基准上对 ECON 进行了全面评测。

1. 推理性能与成本效益

如图 3 所示,ECON 在所有基准上的平均性能优于各类基线方法。在具有挑战性的TravelPlanner任务上,ECON(GPT-4)将最终通过率提升至 15.2%,显著高于同样设置下多智能体辩论(MAD)的 7.1%。

在成本方面,与 3 轮辩论的 MAD 相比,ECON 的 token 消耗平均减少了 21.4%

图3. 五个推理数据集上的平均准确率对比

图4. 三个推理数据集上的 token 消耗对比2. 不同模型配置下的有效性

为了验证 ECON 的泛化能力,我们测试了多种模型配置,包括同构(如 3 个 LLaMA3.1 8B)和异构(如混合使用 Mixtral、Qwen 和 LLaMA)的执行者 LLM。

实验结果表明,尽管异构模型组合因达成 BNE 更具挑战而性能略有下降,但仍显著优于基线方法。这证明 ECON 框架能够有效协调不同能力的模型。

图5. 同异构语言模型协同实验3. 可扩展性验证:从局部到全局纳什均衡

我们进一步探究了 ECON 的扩展能力。实验发现,简单地将执行者 LLM 数量增加到 4 个以上时,单个协调者会面临瓶颈,这导致 BNE 无法实现,性能提升有限。

为此,我们引入了局部-全局纳什协调机制:将 9 个执行者分为 3 组,每组由一个局部协调者管理以达成“局部纳什均衡”,再由一个更高层的中心 LLM 整合,实现“全局纳什均衡”。

如图 4 所示,采用此机制后,系统性能得到持续且显著的提升。与基础的 3 执行者配置相比,9 执行者的扩展系统平均性能提升了 18.1%,展示了 ECON 良好的扩展潜力。

图6. 通过增加协调者和执行者数量,ECON 展现出持续的性能提升。 四、总结

ECON 框架通过将多 LLM 协作重新建模为寻找贝叶斯纳什均衡的过程,提出了一种无需直接通信的高效协调方法。完整的理论分析和详尽的实验结果表明,该框架在性能、效率和可扩展性方面均表现出强大的能力,为构建大规模、高效的多智能体系统提供了新的思路。

更多的实验分析和技术细节,请移步参阅我们的论文及源码,我们也将持续更新本工作的内容。

来源:公众号【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗“自杀无人艇”首战告捷!美旗舰油轮港内起火

伊朗“自杀无人艇”首战告捷!美旗舰油轮港内起火

子桑说
2026-03-03 16:16:43
伊朗一枚导弹,直接击碎价值98.3亿美元贸易链,钻石行业雪上加霜

伊朗一枚导弹,直接击碎价值98.3亿美元贸易链,钻石行业雪上加霜

火星方阵
2026-03-03 20:40:16
伊朗媒体称哈梅内伊之子穆杰塔巴平安

伊朗媒体称哈梅内伊之子穆杰塔巴平安

界面新闻
2026-03-03 21:30:43
伊朗称击中两处美军“萨德”反导系统目标

伊朗称击中两处美军“萨德”反导系统目标

界面新闻
2026-03-03 23:10:22
争议?祖国遭空袭后,伊朗女足亚洲杯集体拒唱国歌!主帅面带微笑

争议?祖国遭空袭后,伊朗女足亚洲杯集体拒唱国歌!主帅面带微笑

我爱英超
2026-03-03 11:43:31
第十三波反制!伊军对等斩首,76岁内塔死里逃生

第十三波反制!伊军对等斩首,76岁内塔死里逃生

书纪文谭
2026-03-03 16:20:57
父母若是有以下7种疾病,子女基本都会遗传,不少人并不清楚!

父母若是有以下7种疾病,子女基本都会遗传,不少人并不清楚!

健康之光
2026-03-03 17:35:03
五架阿联酋航空飞机今晨从迪拜起飞 执飞机型均为空客A380

五架阿联酋航空飞机今晨从迪拜起飞 执飞机型均为空客A380

财闻
2026-03-03 14:35:39
纳斯达克中国金龙指数跌幅扩大至5.0%

纳斯达克中国金龙指数跌幅扩大至5.0%

财联社
2026-03-03 23:23:18
特朗普“不惜一切”!全球股债齐崩

特朗普“不惜一切”!全球股债齐崩

华尔街见闻官方
2026-03-03 16:14:11
上海影院现场意外捉奸,女子露面身材姣好,丈夫目睹后声音都变了

上海影院现场意外捉奸,女子露面身材姣好,丈夫目睹后声音都变了

离离言几许
2026-03-02 12:52:58
你何必如丧考妣?

你何必如丧考妣?

细雨中的呼喊
2026-03-03 15:24:29
“人民渴望自由却等来机枪” 伊朗网球名宿:支持美国人解放我们

“人民渴望自由却等来机枪” 伊朗网球名宿:支持美国人解放我们

风过乡
2026-03-03 11:46:20
员工过年值班8天索要3倍工资 法院:每天打完卡玩手机 不支持 律师:其不符合“加班”的法定特征

员工过年值班8天索要3倍工资 法院:每天打完卡玩手机 不支持 律师:其不符合“加班”的法定特征

闪电新闻
2026-03-03 17:36:04
伊朗军方:24小时内共击落6架“赫尔墨斯”无人机

伊朗军方:24小时内共击落6架“赫尔墨斯”无人机

财联社
2026-03-04 00:39:05
袭击伊朗后,特朗普首次发表白宫讲话:需要打多久就打多久,不惜一切代价

袭击伊朗后,特朗普首次发表白宫讲话:需要打多久就打多久,不惜一切代价

上观新闻
2026-03-03 16:37:10
美伊打仗,又打火了中国制造!

美伊打仗,又打火了中国制造!

达文西看世界
2026-03-03 14:03:12
国家动真格了!不到48小时,4大名人禁言被封,没有一个值得同情

国家动真格了!不到48小时,4大名人禁言被封,没有一个值得同情

社会日日鲜
2026-03-03 05:19:50
美伊战争:美元回归,黄金失落

美伊战争:美元回归,黄金失落

智本社
2026-03-03 19:00:35
中方的资本,已经开始不受管控了,政府必须要提高警惕!

中方的资本,已经开始不受管控了,政府必须要提高警惕!

大静吖
2026-02-07 23:30:36
2026-03-04 04:08:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

拥抱AI的"牛马":边提效边自嘲"自费"上班

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

特朗普“不惜一切”!全球股债齐崩

汽车要闻

第一梯队辅助驾驶加持 iCAR V27定档3月13日上市

态度原创

房产
旅游
健康
数码
公开课

房产要闻

狂销13亿!近百位三亚顶豪买家,都在All in超级地中海·憘悦?

旅游要闻

好看好吃好玩儿!宝山罗店美兰西湖“宵遥游园会”燃情启幕

转头就晕的耳石症,能开车上班吗?

数码要闻

苹果发布新款MacBook Air:搭载M5芯片!售价8499元起

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版