ECON框架将多语言模型(LLM)协同工作的问题重构为贝叶斯纳什均衡的求解过程,创新性地提出了无需直接交互的高效协调机制。通过严谨的理论推导与多维度实验验证,该框架在任务处理效能、资源利用效率及系统扩展能力方面均展现出显著优势,为构建超大规模多智能体协作体系开辟了全新路径。
论文标题: From Debate to Equilibrium: Belief-Driven Multi-Agent LLM Reasoning via Bayesian Nash Equilibrium 论文链接: https://arxiv.org/abs/2506.08292 代码链接: https://github.com/tmlr-group/ECON
当前,通过 prompt 引导多个大语言模型(LLM)进行协作,如多智能体辩论(Multi-agent Debate),已被证明能显著增强模型的复杂推理能力。
然而,基于“显式多轮信息交互“的多模型框架普遍面临三大挑战:
高昂的通信成本:智能体之间频繁的显式信息交换消耗大量 token,计算开销巨大。
缺乏收敛保证:协作过程缺乏明确的理论保障,性能有时不稳定,甚至可能不如单体方法。
扩展性受限:多轮交互产生的信息量随智能体数量增加而急剧膨胀,容易超出 LLM 的上下文窗口限制。
如图 1 所示,多智能体辩论(MAD)依赖于 LLM 之间的多轮显式的消息传递,这种模式不仅效率低下,而且难以扩展。
图1. 多智能体协作方法对比。上为传统的多智能体辩论(MAD),依赖高昂的通信开销。下为本文提出的 ECON,基于信念的协调机制取代直接通信。
为解决上述挑战,我们提出将多 LLM 协作问题重塑为一个不完全信息博弈,并寻求其贝叶斯纳什均衡(Bayesian Nash Equilibrium,BNE)。
在 BNE 状态下,每个智能体根据其对其他智能体策略的“信念”来做出最优决策,从而无需进行昂贵的直接通信。基于此思想,我们设计了 ECON(Efficient Coordination via Nash Equilibrium)框架。
实验证明,ECON 在六个复杂的推理基准上,性能平均超越现有方法 11.2%,同时相较于 3 轮的多智能体辩论,平均减少 21.4% 的 token 消耗。最后我们通过引入局部-整体纳什均衡,成功扩展到了九个语言模型协同。
总计而言我们的主要贡献如下三点:
新视角:首次将多 LLM 协作问题形式化为不完全信息博弈,引入贝叶斯纳什均衡(BNE)作为其理论基础,并从存在性到收敛性建立了完整的理论框架。
新方法:设计了 ECON 框架,通过“协调者-执行者”的分布式架构和信念网络,在不依赖直接通信的情况下实现 BNE,并通过局部-全局纳什协调机制解决了扩展性瓶颈。
新发现:通过大量实验证明,ECON 在多种复杂推理任务上超越了现有的单智能体和多智能体方法,并验证了其在同异构模型配置下的有效性、成本效益和良好的扩展能力。
现有方法大多依赖显式的“完全信息”交互,这在现实中成本高昂。我们认为,一个更贴近现实的设定是,每个智能体都处于不完全信息(Incomplete-information)环境中。
为此,我们将此设定形式化为去中心化部分可观察马尔可夫决策过程(decentralized partially observable Markov decision process)。
在此框架下,我们引入博弈论中的贝叶斯纳什均衡(BNE)作为协作目标。BNE描述了一个稳定状态:每个智能体根据其对其他智能体行为的概率性信念(Belief),选择能最大化自身期望回报的策略。在此均衡下,任何智能体都无法单方面改变策略以获得更好结果。
我们将协作目标定义为寻找 BNE,从而将昂贵的显式通信,转变为高效的、基于内部信念的隐式协调。我们为这一范式提供了坚实的理论保障:
BNE 的存在性:我们基于Glicksberg 不动点定理,从理论上证明了在我们的多 LLM 框架中,BNE 策略组合是必然存在的。
收敛性保证:我们使用遗憾(Regret)来衡量当前策略与最优策略的差距。理论分析表明,ECON 能够实现亚线性遗憾界(Sublinear Regret Bound),这意味着系统能随优化过程持续趋近最优解。相比之下,缺乏均衡保障的传统辩论方法通常对应线性遗憾,性能提升会更快遭遇瓶颈。
为了在实践中实现 BNE,我们设计了 ECON 框架,它采用“协调者-执行者(Coordinator-Executor)”的层次化架构,并在训练和推理阶段解耦。
图2. ECON 框架图。左侧为推理流程,右侧为信念网络优化流程。
ECON 框架主要包括以下核心模块:
执行者 LLM(Execution LLMs)与信念网络:多个执行者 LLM 并行独立地进行推理。每个执行者拥有一个信念网络(Belief Network),该网络将其局部历史轨迹映射为一个信念状态,并据此生成最优行动。同时,信念网络也会输出一个局部的 Q 值,用于后续的全局优化。
协调者 LLM(Coordinator LLM):一个中心的协调者LLM负责结构初始问题并提供策略指导(不多于 50token),并在最后整合所有执行者的答案,形成最终输出。
信念编码器与中心化混合网络:在训练阶段,一个共享的信念编码器(Belief Encoder)会聚合所有执行者的信念状态,形成群体表征。
随后,一个中心化混合网络(Centralized Mixing Network)会整合所有局部 Q 值和群体表征,计算出一个全局 Q 值,并指导每个信念网络进行参数更新,从而引导整个系统向 BNE 收敛。这种“中心化训练,分布式执行”的模式是 ECON 效率的关键。
奖励函数设计:我们设计了包含三个部分的综合奖励函数:(1)动作似然奖励,衡量个体输出与最终共识的一致性;(2)任务特定奖励,评估在具体任务上的表现;(3)协作贡献奖励,评估每个智能体对集体解方案的贡献。
三、新发现:实验结果与分析
我们在 6 个涵盖数学推理、常识推理和复杂规划的基准上对 ECON 进行了全面评测。
1. 推理性能与成本效益
如图 3 所示,ECON 在所有基准上的平均性能优于各类基线方法。在具有挑战性的TravelPlanner任务上,ECON(GPT-4)将最终通过率提升至 15.2%,显著高于同样设置下多智能体辩论(MAD)的 7.1%。
在成本方面,与 3 轮辩论的 MAD 相比,ECON 的 token 消耗平均减少了 21.4%。
图3. 五个推理数据集上的平均准确率对比
图4. 三个推理数据集上的 token 消耗对比2. 不同模型配置下的有效性
为了验证 ECON 的泛化能力,我们测试了多种模型配置,包括同构(如 3 个 LLaMA3.1 8B)和异构(如混合使用 Mixtral、Qwen 和 LLaMA)的执行者 LLM。
实验结果表明,尽管异构模型组合因达成 BNE 更具挑战而性能略有下降,但仍显著优于基线方法。这证明 ECON 框架能够有效协调不同能力的模型。
图5. 同异构语言模型协同实验3. 可扩展性验证:从局部到全局纳什均衡
我们进一步探究了 ECON 的扩展能力。实验发现,简单地将执行者 LLM 数量增加到 4 个以上时,单个协调者会面临瓶颈,这导致 BNE 无法实现,性能提升有限。
为此,我们引入了局部-全局纳什协调机制:将 9 个执行者分为 3 组,每组由一个局部协调者管理以达成“局部纳什均衡”,再由一个更高层的中心 LLM 整合,实现“全局纳什均衡”。
如图 4 所示,采用此机制后,系统性能得到持续且显著的提升。与基础的 3 执行者配置相比,9 执行者的扩展系统平均性能提升了 18.1%,展示了 ECON 良好的扩展潜力。
图6. 通过增加协调者和执行者数量,ECON 展现出持续的性能提升。 四、总结
ECON 框架通过将多 LLM 协作重新建模为寻找贝叶斯纳什均衡的过程,提出了一种无需直接通信的高效协调方法。完整的理论分析和详尽的实验结果表明,该框架在性能、效率和可扩展性方面均表现出强大的能力,为构建大规模、高效的多智能体系统提供了新的思路。
更多的实验分析和技术细节,请移步参阅我们的论文及源码,我们也将持续更新本工作的内容。
来源:公众号【PaperWeekly】
llustration From IconScout By IconScout Store
-The End-
本周上新!
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
michellechang@thejiangmen.com
或添加工作人员微信(michelle333_)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.