ICML 2025 | 模型不开口也能配合？贝叶斯纳什均衡重塑多智能体LLM协作|显式|icml

ICML 2025 | 模型不开口也能配合？贝叶斯纳什均衡重塑多智能体LLM协作

2025-09-03 08:27:08　来源: 将门创投

北京举报

分享至

ECON框架将多语言模型（LLM）协同工作的问题重构为贝叶斯纳什均衡的求解过程，创新性地提出了无需直接交互的高效协调机制。通过严谨的理论推导与多维度实验验证，该框架在任务处理效能、资源利用效率及系统扩展能力方面均展现出显著优势，为构建超大规模多智能体协作体系开辟了全新路径。

论文标题： From Debate to Equilibrium: Belief-Driven Multi-Agent LLM Reasoning via Bayesian Nash Equilibrium 论文链接： https://arxiv.org/abs/2506.08292 代码链接： https://github.com/tmlr-group/ECON

当前，通过 prompt 引导多个大语言模型（LLM）进行协作，如多智能体辩论（Multi-agent Debate），已被证明能显著增强模型的复杂推理能力。

然而，基于“显式多轮信息交互“的多模型框架普遍面临三大挑战：

高昂的通信成本：智能体之间频繁的显式信息交换消耗大量 token，计算开销巨大。
缺乏收敛保证：协作过程缺乏明确的理论保障，性能有时不稳定，甚至可能不如单体方法。
扩展性受限：多轮交互产生的信息量随智能体数量增加而急剧膨胀，容易超出 LLM 的上下文窗口限制。

如图 1 所示，多智能体辩论（MAD）依赖于 LLM 之间的多轮显式的消息传递，这种模式不仅效率低下，而且难以扩展。

图1. 多智能体协作方法对比。上为传统的多智能体辩论（MAD），依赖高昂的通信开销。下为本文提出的 ECON，基于信念的协调机制取代直接通信。

为解决上述挑战，我们提出将多 LLM 协作问题重塑为一个不完全信息博弈，并寻求其贝叶斯纳什均衡（Bayesian Nash Equilibrium，BNE）。

在 BNE 状态下，每个智能体根据其对其他智能体策略的“信念”来做出最优决策，从而无需进行昂贵的直接通信。基于此思想，我们设计了 ECON（Efficient Coordination via Nash Equilibrium）框架。

实验证明，ECON 在六个复杂的推理基准上，性能平均超越现有方法 11.2%，同时相较于 3 轮的多智能体辩论，平均减少 21.4% 的 token 消耗。最后我们通过引入局部-整体纳什均衡，成功扩展到了九个语言模型协同。

总计而言我们的主要贡献如下三点：

新视角：首次将多 LLM 协作问题形式化为不完全信息博弈，引入贝叶斯纳什均衡（BNE）作为其理论基础，并从存在性到收敛性建立了完整的理论框架。
新方法：设计了 ECON 框架，通过“协调者-执行者”的分布式架构和信念网络，在不依赖直接通信的情况下实现 BNE，并通过局部-全局纳什协调机制解决了扩展性瓶颈。
新发现：通过大量实验证明，ECON 在多种复杂推理任务上超越了现有的单智能体和多智能体方法，并验证了其在同异构模型配置下的有效性、成本效益和良好的扩展能力。

一、新视角：基于贝叶斯纳什均衡（BNE）的协作理论

现有方法大多依赖显式的“完全信息”交互，这在现实中成本高昂。我们认为，一个更贴近现实的设定是，每个智能体都处于不完全信息（Incomplete-information）环境中。

为此，我们将此设定形式化为去中心化部分可观察马尔可夫决策过程（decentralized partially observable Markov decision process）。

在此框架下，我们引入博弈论中的贝叶斯纳什均衡（BNE）作为协作目标。BNE描述了一个稳定状态：每个智能体根据其对其他智能体行为的概率性信念（Belief），选择能最大化自身期望回报的策略。在此均衡下，任何智能体都无法单方面改变策略以获得更好结果。

我们将协作目标定义为寻找 BNE，从而将昂贵的显式通信，转变为高效的、基于内部信念的隐式协调。我们为这一范式提供了坚实的理论保障：

BNE 的存在性：我们基于Glicksberg 不动点定理，从理论上证明了在我们的多 LLM 框架中，BNE 策略组合是必然存在的。
收敛性保证：我们使用遗憾（Regret）来衡量当前策略与最优策略的差距。理论分析表明，ECON 能够实现亚线性遗憾界（Sublinear Regret Bound），这意味着系统能随优化过程持续趋近最优解。相比之下，缺乏均衡保障的传统辩论方法通常对应线性遗憾，性能提升会更快遭遇瓶颈。

二、新方法：ECON框架的设计与实现

为了在实践中实现 BNE，我们设计了 ECON 框架，它采用“协调者-执行者（Coordinator-Executor）”的层次化架构，并在训练和推理阶段解耦。

图2. ECON 框架图。左侧为推理流程，右侧为信念网络优化流程。

ECON 框架主要包括以下核心模块：

执行者 LLM（Execution LLMs）与信念网络：多个执行者 LLM 并行独立地进行推理。每个执行者拥有一个信念网络（Belief Network），该网络将其局部历史轨迹映射为一个信念状态，并据此生成最优行动。同时，信念网络也会输出一个局部的 Q 值，用于后续的全局优化。

协调者 LLM（Coordinator LLM）：一个中心的协调者LLM负责结构初始问题并提供策略指导（不多于 50token），并在最后整合所有执行者的答案，形成最终输出。

信念编码器与中心化混合网络：在训练阶段，一个共享的信念编码器（Belief Encoder）会聚合所有执行者的信念状态，形成群体表征。

随后，一个中心化混合网络（Centralized Mixing Network）会整合所有局部 Q 值和群体表征，计算出一个全局 Q 值，并指导每个信念网络进行参数更新，从而引导整个系统向 BNE 收敛。这种“中心化训练，分布式执行”的模式是 ECON 效率的关键。

奖励函数设计：我们设计了包含三个部分的综合奖励函数：（1）动作似然奖励，衡量个体输出与最终共识的一致性；（2）任务特定奖励，评估在具体任务上的表现；（3）协作贡献奖励，评估每个智能体对集体解方案的贡献。

三、新发现：实验结果与分析

我们在 6 个涵盖数学推理、常识推理和复杂规划的基准上对 ECON 进行了全面评测。

1. 推理性能与成本效益

如图 3 所示，ECON 在所有基准上的平均性能优于各类基线方法。在具有挑战性的TravelPlanner任务上，ECON（GPT-4）将最终通过率提升至 15.2%，显著高于同样设置下多智能体辩论（MAD）的 7.1%。

在成本方面，与 3 轮辩论的 MAD 相比，ECON 的 token 消耗平均减少了 21.4%。

图3. 五个推理数据集上的平均准确率对比

图4. 三个推理数据集上的 token 消耗对比2. 不同模型配置下的有效性

为了验证 ECON 的泛化能力，我们测试了多种模型配置，包括同构（如 3 个 LLaMA3.1 8B）和异构（如混合使用 Mixtral、Qwen 和 LLaMA）的执行者 LLM。

实验结果表明，尽管异构模型组合因达成 BNE 更具挑战而性能略有下降，但仍显著优于基线方法。这证明 ECON 框架能够有效协调不同能力的模型。

图5. 同异构语言模型协同实验3. 可扩展性验证：从局部到全局纳什均衡

我们进一步探究了 ECON 的扩展能力。实验发现，简单地将执行者 LLM 数量增加到 4 个以上时，单个协调者会面临瓶颈，这导致 BNE 无法实现，性能提升有限。

为此，我们引入了局部-全局纳什协调机制：将 9 个执行者分为 3 组，每组由一个局部协调者管理以达成“局部纳什均衡”，再由一个更高层的中心 LLM 整合，实现“全局纳什均衡”。

如图 4 所示，采用此机制后，系统性能得到持续且显著的提升。与基础的 3 执行者配置相比，9 执行者的扩展系统平均性能提升了 18.1%，展示了 ECON 良好的扩展潜力。

图6. 通过增加协调者和执行者数量，ECON 展现出持续的性能提升。四、总结

ECON 框架通过将多 LLM 协作重新建模为寻找贝叶斯纳什均衡的过程，提出了一种无需直接通信的高效协调方法。完整的理论分析和详尽的实验结果表明，该框架在性能、效率和可扩展性方面均表现出强大的能力，为构建大规模、高效的多智能体系统提供了新的思路。

更多的实验分析和技术细节，请移步参阅我们的论文及源码，我们也将持续更新本工作的内容。

来源：公众号【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信（michelle333_）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.