延迟下降20×，token减少4.4×！突破多智能体「共识」瓶颈|推理|大模型

延迟下降20×，token减少4.4×！突破多智能体「共识」瓶颈

2026-02-07 12:23:24　来源: 新智元

北京举报

分享至

新智元报道

编辑：LRST

【新智元导读】多智能体AI系统需要明确的共识机制来协调不同AI主体的决策。新理论框架将多智能体推理建模为分布式共识过程，大幅提升系统性能，降低延迟和计算成本，使多智能体AI从实验阶段迈向实际应用。

过去一年，LLM Agent几乎成为所有 AI 研究团队与工业界的共同方向。

OpenAI在持续推进更强的推理与工具使用能力，Google DeepMind将推理显式建模为搜索问题，Anthropic则通过规范与自我批判提升模型可靠性。

一个非常清晰的行业趋势正在形成：单模型能力正在接近结构性边界，多智能体被视为下一步。

Advaita Research/Hetu联合创始人Jialin Li发布的最新研究论文，为多智能体协作共识提出了明确的理论框架，并给出了一组生产级系统指标的跃迁式改善：在accuracy基本不变的前提下，实现最高20×端到端延迟下降，最高11×的P99尾延迟改善，以及最高4.4×的token成本削减。

论文链接：https://arxiv.org/pdf/2512.20184

英文版链接：https://x.com/advaita_labs/status/2018576622048473241

这项工作将多智能体推理的问题，从prompt与workflow设计，重新拉回到系统设计和工程层面：一致性语义、停止条件与尾延迟治理。

在工程语境中，论文给出的核心判断可以概括为一句话：当前多智能体系统，缺乏一套明确的Agentic Consensus（智能体共识）系统语义。

Advaita Research / Hetu CMO Stephanie Yu从系统工程视角对论文进行了解读。

研究背景

在当前主流路线中，大型研究机构对Agent的探索大致可以分为三类，但它们在一个关键问题上保持了共同的沉默：当多个随机推理主体并行工作时，系统何时可以认为已经达成稳定一致？

OpenAI：强化单主体推理能力

OpenAI的路线始终围绕test-time scaling，包括self-consistency、多路径推理、更强的 chain-of-thought、更成熟的 tool use。

该体系在单主体条件下具有非常清晰的工程优势：推理质量高度可控、行为一致性强、工程复杂度集中。

其隐含前提同样明确：系统只有一个决策主体。

一旦扩展为多个planner、多个actor并行执行，一致性不再由模型内部保证，而被外包给上层workflow的规则组合。

Google DeepMind搜索式推理

Tree-of-Thoughts等方法将推理显式建模为搜索问题，通过评估函数在候选路径中选择最优解。

该范式在离线推理和数学问题上表现稳定，但在系统层面呈现出两个明显特征：推理过程高度同步、停止条件由搜索深度或预算上限决定。

本质上，这类方法优化的是路径质量，而不是在并发、延迟与成本约束下的决策时机问题。

Anthropic/Meta启发式协调

Anthropic的constitutional debate，以及Meta、Stanford 提出的多 Agent debate / society-of-minds，引入了多主体交互。

在工程实现上，这类系统通常依赖：固定agent数、固定轮数、barrier synchronization（等待所有 agent 完成）、多数投票或规则聚合。

但这些机制并没有给出稳定一致性的系统定义。

当主流Agent路线仍在强化「如何更好地推理」，将多智能体视为推理技巧的叠加时，

Advaita Research的这项研究把问题下沉到了系统层：在多个随机推理主体并行时，如何定义、验证并稳定达成一致。

把多智能体当成分布式系统

论文提出的核心方法体系为Aegean，其根本重构在于：多智能体推理不再被视为workflow编排问题，而被建模为一个分布式共识过程。

不同于传统分布式系统，智能体决策呈现随机不确定性，使得现有共识协议架构无法适用。论文针对多智能体环境提出了新的共识理论框架，并给出了严谨的多智能体共识的正确性定义。

论文之后基于理论框架提出了新的共识协议。其核心机制包括三点：

（1）Quorum-fast，而不是wait-all

系统不再等待所有agent，只要达到 quorum 即推进决策，延迟不再由最慢 agent 决定。

（2）稳定性窗口（β），而不是「一致就停」

一致性必须在时间维度上持续存在，才能被视为有效共识，从而过滤暂时性多数。

（3）Streaming共识与即时取消

在token生成过程中持续检测共识状态，一旦满足稳定条件，立即终止剩余生成。

详细结果与实验分析

论文指出：多智能体推理，本质上是运行在随机推理主体之上的分布式共识问题。

一旦缺乏明确的共识语义，工程失败并非偶发，而是呈现出高度可预测的系统性模式。

暂时性一致：多数并不稳定标题

论文系统性测量了decision flip现象（在现有Agent workflow中几乎未被显式建模）。

结果显示：在引入agent间 reasoning exchange后，准确率提升的同时，多数决策在相邻轮次发生反转的频率显著上升。

以MMLU为例：100个样本中出现64次 decision flip，意味着系统在连续轮次中反复改变多数结论。

在缺乏稳定性约束时，任何基于「当前多数」的提前停止或投票机制，都可能发生在transient agreement（暂时性一致）上。

这不是推理能力问题，而是共识未被定义的问题。

同步模型错误：P99被最慢agent定义

当前多Agent系统普遍采用barrier synchronization，论文在AIME（1 req/s）场景下，对比了主流做法与引入共识机制后的系统表现：

多Agent baseline（MaxRound = 6）最慢请求为6571秒，P99 延迟为8749秒

引入共识机制后，最慢请求约325秒，P99延迟为772 秒；

在相同任务条件下：P99 延迟改善约11×，平均延迟改善约20×

该差异并非来自模型推理能力，而来自同步范式从「等所有人」转向「达成共识即可推进」。

算力浪费：token消耗发生在收敛之后

论文进一步量化了多智能体系统中长期被忽视的问题：收敛之后的无效计算。

在多个基准任务上，引入Agentic Consensus后：

GSM8K：4.4×减少（约 1.3K vs 5.7K）
MMLU：3.3×减少（约 3.3K vs 10.7K）
AIME：1.3×减少（约 46.0K vs 59.9K）
IMO：1.1×减少（约 64.8K vs 73.8K）

与此同时，accuracy波动被控制在约2.5%以内。

这表明：token成本下降来自共识驱动的早停与取消机制，而不是通过牺牲质量实现。

数字刻画了系统边界

在引入Agentic Consensus（Advaita Research 提出的多智能体共识建模方法）后，系统行为出现了清晰的数量级变化：平均延迟降低1.2–20×，P99尾延迟最高改善11×，token消耗降低1.1–4.4×，accuracy波动约2.5%

这些指标共同指向同一个系统级结论：多智能体推理的性能瓶颈，并不来自模型能力，而来自协作机制是否具备可操作的共识语义。

工程判断与应用前景

Agentic Consensus并不是一个附加能力，而是一条明确的系统分界线。

当Agent作为真实系统中的行动单元运行时，问题不再是：「单个模型能否推理得更好」，而是在多个随机推理主体并行的情况下，系统是否具备可判断、可停止、可扩展的一致性语义。

论文给出的核心判断标准是：如果一个多智能体系统无法明确回答「何时算达成一致、何时可以安全停止、延迟由谁决定」，那它在工程上仍停留在workflow，而非系统。

从这个角度看：decision flip、P99被最慢agent定义、收敛后的token浪费，都不是实现细节上的瑕疵，而是系统尚未进入「共识可操作阶段」的信号。

Advaita Research的这项工作，并不是提出一种新的Agent玩法，而是把Agentic Consensus提升为一个工程判断标准：多智能体推理，是否已经从「推理技巧的叠加」，迈入「具备可验证共识语义的系统」。

当这个标准成立，多智能体才能真正从demo走向production；当它不成立，再复杂的推理流程，也只是在同步成本之上叠加计算。

参考资料：

https://arxiv.org/pdf/2512.20184

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.