网易首页 > 网易号 > 正文 申请入驻

延迟下降20×,token减少4.4×!突破多智能体「共识」瓶颈

0
分享至


新智元报道

编辑:LRST

【新智元导读】多智能体AI系统需要明确的共识机制来协调不同AI主体的决策。新理论框架将多智能体推理建模为分布式共识过程,大幅提升系统性能,降低延迟和计算成本,使多智能体AI从实验阶段迈向实际应用。

过去一年,LLM Agent几乎成为所有 AI 研究团队与工业界的共同方向。

OpenAI在持续推进更强的推理与工具使用能力,Google DeepMind将推理显式建模为搜索问题,Anthropic则通过规范与自我批判提升模型可靠性。

一个非常清晰的行业趋势正在形成:单模型能力正在接近结构性边界,多智能体被视为下一步。

Advaita Research/Hetu联合创始人Jialin Li发布的最新研究论文,为多智能体协作共识提出了明确的理论框架,并给出了一组生产级系统指标的跃迁式改善:在accuracy基本不变的前提下,实现最高20×端到端延迟下降,最高11×的P99尾延迟改善,以及最高4.4×的token成本削减。


论文链接:https://arxiv.org/pdf/2512.20184

英文版链接:https://x.com/advaita_labs/status/2018576622048473241

这项工作将多智能体推理的问题,从prompt与workflow设计,重新拉回到系统设计和工程层面:一致性语义、停止条件与尾延迟治理。

在工程语境中,论文给出的核心判断可以概括为一句话:当前多智能体系统,缺乏一套明确的Agentic Consensus(智能体共识)系统语义。

Advaita Research / Hetu CMO Stephanie Yu从系统工程视角对论文进行了解读。

研究背景

在当前主流路线中,大型研究机构对Agent的探索大致可以分为三类,但它们在一个关键问题上保持了共同的沉默:当多个随机推理主体并行工作时,系统何时可以认为已经达成稳定一致?

OpenAI:强化单主体推理能力

OpenAI的路线始终围绕test-time scaling,包括self-consistency、多路径推理、更强的 chain-of-thought、更成熟的 tool use。

该体系在单主体条件下具有非常清晰的工程优势:推理质量高度可控、行为一致性强、工程复杂度集中。

其隐含前提同样明确:系统只有一个决策主体。

一旦扩展为多个planner、多个actor并行执行,一致性不再由模型内部保证,而被外包给上层workflow的规则组合。

Google DeepMind搜索式推理

Tree-of-Thoughts等方法将推理显式建模为搜索问题,通过评估函数在候选路径中选择最优解。

该范式在离线推理和数学问题上表现稳定,但在系统层面呈现出两个明显特征:推理过程高度同步、停止条件由搜索深度或预算上限决定。

本质上,这类方法优化的是路径质量,而不是在并发、延迟与成本约束下的决策时机问题

Anthropic/Meta启发式协调

Anthropic的constitutional debate,以及Meta、Stanford 提出的多 Agent debate / society-of-minds,引入了多主体交互。

在工程实现上,这类系统通常依赖:固定agent数、固定轮数、barrier synchronization(等待所有 agent 完成)、多数投票或规则聚合。

但这些机制并没有给出稳定一致性的系统定义

当主流Agent路线仍在强化「如何更好地推理」,将多智能体视为推理技巧的叠加时,

Advaita Research的这项研究把问题下沉到了系统层:在多个随机推理主体并行时,如何定义、验证并稳定达成一致。

把多智能体当成分布式系统

论文提出的核心方法体系为Aegean,其根本重构在于:多智能体推理不再被视为workflow编排问题,而被建模为一个分布式共识过程。

不同于传统分布式系统,智能体决策呈现随机不确定性,使得现有共识协议架构无法适用。论文针对多智能体环境提出了新的共识理论框架,并给出了严谨的多智能体共识的正确性定义。

论文之后基于理论框架提出了新的共识协议。其核心机制包括三点:

(1)Quorum-fast,而不是wait-all

系统不再等待所有agent,只要达到 quorum 即推进决策,延迟不再由最慢 agent 决定。

(2)稳定性窗口(β),而不是「一致就停」

一致性必须在时间维度上持续存在,才能被视为有效共识,从而过滤暂时性多数。

(3)Streaming共识与即时取消

在token生成过程中持续检测共识状态,一旦满足稳定条件,立即终止剩余生成。

详细结果与实验分析

论文指出:多智能体推理,本质上是运行在随机推理主体之上的分布式共识问题。

一旦缺乏明确的共识语义,工程失败并非偶发,而是呈现出高度可预测的系统性模式。

暂时性一致:多数并不稳定标题

论文系统性测量了decision flip现象(在现有Agent workflow中几乎未被显式建模)。

结果显示:在引入agent间 reasoning exchange后,准确率提升的同时,多数决策在相邻轮次发生反转的频率显著上升。

以MMLU为例:100个样本中出现64次 decision flip,意味着系统在连续轮次中反复改变多数结论。

在缺乏稳定性约束时,任何基于「当前多数」的提前停止或投票机制,都可能发生在transient agreement(暂时性一致)上。

这不是推理能力问题,而是共识未被定义的问题

同步模型错误:P99被最慢agent定义

当前多Agent系统普遍采用barrier synchronization,论文在AIME(1 req/s)场景下,对比了主流做法与引入共识机制后的系统表现:

多Agent baseline(MaxRound = 6)最慢请求为6571秒,P99 延迟为8749秒

引入共识机制后,最慢请求约325秒,P99延迟为772 秒;

在相同任务条件下:P99 延迟改善约11×,平均延迟改善约20×

该差异并非来自模型推理能力,而来自同步范式从「等所有人」转向「达成共识即可推进」

算力浪费:token消耗发生在收敛之后

论文进一步量化了多智能体系统中长期被忽视的问题:收敛之后的无效计算。

在多个基准任务上,引入Agentic Consensus后:

  • GSM8K:4.4×减少(约 1.3K vs 5.7K)

  • MMLU:3.3×减少(约 3.3K vs 10.7K)

  • AIME:1.3×减少(约 46.0K vs 59.9K)

  • IMO:1.1×减少(约 64.8K vs 73.8K)

与此同时,accuracy波动被控制在约2.5%以内。

这表明:token成本下降来自共识驱动的早停与取消机制,而不是通过牺牲质量实现。

数字刻画了系统边界

在引入Agentic Consensus(Advaita Research 提出的多智能体共识建模方法)后,系统行为出现了清晰的数量级变化:平均延迟降低1.2–20×,P99尾延迟最高改善11×,token消耗降低1.1–4.4×,accuracy波动约2.5%

这些指标共同指向同一个系统级结论:多智能体推理的性能瓶颈,并不来自模型能力,而来自协作机制是否具备可操作的共识语义。

工程判断与应用前景

Agentic Consensus并不是一个附加能力,而是一条明确的系统分界线。

当Agent作为真实系统中的行动单元运行时,问题不再是:「单个模型能否推理得更好」,而是在多个随机推理主体并行的情况下,系统是否具备可判断、可停止、可扩展的一致性语义。

论文给出的核心判断标准是:如果一个多智能体系统无法明确回答「何时算达成一致、何时可以安全停止、延迟由谁决定」,那它在工程上仍停留在workflow,而非系统。

从这个角度看:decision flip、P99被最慢agent定义、收敛后的token浪费,都不是实现细节上的瑕疵,而是系统尚未进入「共识可操作阶段」的信号。

Advaita Research的这项工作,并不是提出一种新的Agent玩法,而是把Agentic Consensus提升为一个工程判断标准:多智能体推理,是否已经从「推理技巧的叠加」,迈入「具备可验证共识语义的系统」。

当这个标准成立,多智能体才能真正从demo走向production;当它不成立,再复杂的推理流程,也只是在同步成本之上叠加计算。

参考资料:

https://arxiv.org/pdf/2512.20184


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不是普通肺炎!韩媒曝光大S死亡真正诱因,她和李咏犯了一样的错

不是普通肺炎!韩媒曝光大S死亡真正诱因,她和李咏犯了一样的错

吴蒂旅行ing
2026-02-06 07:03:46
苏轼见到友人妻子漂亮,羡慕之余写下一首词,感动世人近千年

苏轼见到友人妻子漂亮,羡慕之余写下一首词,感动世人近千年

掠影后有感
2026-02-06 12:01:30
为救家人来中国踢球,8年赚走1.8亿,如今返回巴西老家享受生活

为救家人来中国踢球,8年赚走1.8亿,如今返回巴西老家享受生活

秋姐居
2026-02-07 09:26:20
“书记,你一件冲锋衣顶农民一年收成!”女选调生下乡,却被威胁

“书记,你一件冲锋衣顶农民一年收成!”女选调生下乡,却被威胁

妍妍教育日记
2026-02-04 18:29:23
警方通报:小区内发生一起致3死1伤刑事案件,嫌犯畏罪自杀身亡

警方通报:小区内发生一起致3死1伤刑事案件,嫌犯畏罪自杀身亡

澎湃新闻
2026-02-07 02:00:06
梁小龙妻子宋骧出镜向梁小龙相关账号维权,该账号运营者回应

梁小龙妻子宋骧出镜向梁小龙相关账号维权,该账号运营者回应

红星新闻
2026-02-07 14:06:09
湖南18岁儿子被母亲宠坏,父亲回家撞见后,酿成无法挽回的惨剧

湖南18岁儿子被母亲宠坏,父亲回家撞见后,酿成无法挽回的惨剧

民间精选故事汇
2025-02-01 08:10:03
演员立威廉:身心几近崩溃,已重新安排遗嘱!去年被诊断出甲状腺癌二期

演员立威廉:身心几近崩溃,已重新安排遗嘱!去年被诊断出甲状腺癌二期

都市快报橙柿互动
2026-02-07 00:32:47
上海两会炸锅!取消中高考是必然?82%家长怒怼:断了普通娃活路

上海两会炸锅!取消中高考是必然?82%家长怒怼:断了普通娃活路

户外小阿隋
2026-02-07 08:46:28
万科郁亮有这么多不为人知的可怕内幕!

万科郁亮有这么多不为人知的可怕内幕!

廖保平
2026-02-07 09:19:10
万万没想到!原以为马杜罗会在美国的监狱里把牢底坐穿,剧情突变

万万没想到!原以为马杜罗会在美国的监狱里把牢底坐穿,剧情突变

我心纵横天地间
2026-02-06 20:05:36
警惕中国式的叶利钦式人物,悄无声息地把人民引向歧途

警惕中国式的叶利钦式人物,悄无声息地把人民引向歧途

林子说事
2026-02-06 12:52:37
中美元首定调!特朗普不踩台海“红线”,台湾买武器以后难了

中美元首定调!特朗普不踩台海“红线”,台湾买武器以后难了

扬子晚报
2026-02-07 13:51:45
男子参加公司年会抽中苹果17ProMax,回家给老婆惊喜,打开发现是瓷砖:手机可以不要,策划人必须向我道歉

男子参加公司年会抽中苹果17ProMax,回家给老婆惊喜,打开发现是瓷砖:手机可以不要,策划人必须向我道歉

极目新闻
2026-02-07 10:04:57
歼35在新加坡航展遭老外卷尺测量,此人身份曝光,已被中方制裁

歼35在新加坡航展遭老外卷尺测量,此人身份曝光,已被中方制裁

兵国大事
2026-02-06 17:57:58
湖北95后小伙从上海走回老家过年!36天瘦了27斤

湖北95后小伙从上海走回老家过年!36天瘦了27斤

大风新闻
2026-02-07 11:36:06
2026除夕,别再说“新年快乐”,精选20句拜年祝福语,高级不俗套

2026除夕,别再说“新年快乐”,精选20句拜年祝福语,高级不俗套

Lily美食谈
2026-02-06 23:29:15
特朗普起诉美两部门索赔至少100亿美元,美财长承认:若他胜诉,费用将由美民众承担

特朗普起诉美两部门索赔至少100亿美元,美财长承认:若他胜诉,费用将由美民众承担

环球网资讯
2026-02-06 18:41:17
重庆美女篮球手邓圣洁去世!年仅20岁185公分,长期喝酒一天两场

重庆美女篮球手邓圣洁去世!年仅20岁185公分,长期喝酒一天两场

裕丰娱间说
2026-02-07 12:09:45
2015年饭局上,是谁举报了毕福剑?举报者和老毕的最终结局如何?

2015年饭局上,是谁举报了毕福剑?举报者和老毕的最终结局如何?

文史道
2026-02-03 06:45:08
2026-02-07 16:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14494文章数 66592关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

媒体:中美元首定调 特朗普不踩"红线"美欧对台态度变了

头条要闻

媒体:中美元首定调 特朗普不踩"红线"美欧对台态度变了

体育要闻

中国体育代表团亮相米兰冬奥会开幕式

娱乐要闻

何超欣说和何猷君没竞争,实力遭质疑

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

健康
家居
本地
房产
游戏

转头就晕的耳石症,能开车上班吗?

家居要闻

现代轻奢 温馨治愈系

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

房产要闻

新春三亚置业,看过这个热盘再说!

NS2版《生化9》表现一般?IGN:低配电脑也能爽玩

无障碍浏览 进入关怀版