网易首页 > 网易号 > 正文 申请入驻

告别Demo、真正跑进生产,华为新框架把Agent端到端效率拉升2.5倍

0
分享至



大模型 Agent 正在从 Demo 走向生产:多轮推理、工具调用、长上下文记忆、并发会话同时运行…… 但也正是在这些「真实工作流」里,很多看似先进的推理加速在落地时会失效:单步推理快了,端到端却更慢;吞吐更高了,高并发下却开始抖动;压缩了上下文,Agent 反而更容易迷路、回合数暴涨。

华为诺亚方舟实验室、先进计算与存储实验室联合在最新工作中提出了AgentInfer:一个面向工业 Agent 的端到端加速框架,把「推理架构设计」和「推理服务系统」放在一起协同优化。

它不是某个单点技巧,而是一套可拆可合的系统化方案:每个模块单独启用都有收益,组合在一起仍能叠加,并且在高并发、多会话、长上下文的真实负载下依然 work。



  • 论文标题:Towards Efficient Agents: A Co-Design of Inference Architecture and System
  • arXiv 链接:https://arxiv.org/pdf/2512.18337

为什么 Agent 的「加速」必须从端到端出发?

在传统 LLM 服务里,我们习惯用 tokens/s、单次延迟来衡量优化。但 Agent 的本质是一个持续运行的Think–Act–Observe循环:

  • 每次 Think 都要带着越来越长的上下文;
  • Act/Observe 会引入异构工具延迟与并行请求;
  • 一旦某一步质量下降,就会触发纠错、重试、冗余搜索,导致回合数上升、总体更慢。

团队在分析中总结了 Agent 场景的三个典型「工业坑」:

1. 量化陷阱:单步更快但精度更差,触发大量自我修复回路,端到端时间反而上升。



2. 文本总结不靠谱:大量的研究工作展示可以通过对过程信息总结来进行 token 压缩,但是本文的实测发现,很多场景中引入总结后单轮变短了,但是整体轮次变多了,甚至降低了精度。



3. 记忆持久性瓶颈(KV-cache):高并发下,常见的短作业优先(SJF)会频繁淘汰长上下文会话的 KV-cache,导致下一轮被迫重算大段 prefill,延迟尖刺明显,系统吞吐和稳定性一起掉。



结论很直接:Agent 的效率不是「每步快一点」,而是「更少的无效回合、更少的重算、更高的跨轮次复用」。

AgentInfer:四个可独立部署、可叠加增益的模块

AgentInfer 把 Agent 的端到端瓶颈拆成四类问题,并给出四个互补模块。它们分别作用在不同层次:有的减少「用大模型的次数」,有的控制「上下文变长」,有的提升「并发下的缓存命中」,有的加速「token 级生成」。



1)AgentCollab:难度感知的大小模型协作(少用大模型,但不掉质量)

核心思路是把常规工作交给小模型,把关键规划与卡住的推理交给大模型。关键不在「静态分工」,而在一个结构化的Progress Check 自评机制:每一步判断「是否取得实质进展」,若停滞则升级到大模型救场;恢复进展后再降级回小模型继续跑。

这让系统在工业场景里更「像人」:多数时间用便宜模型推进流程,只有在真的困难段落才调用昂贵模型,从而在质量与成本之间更接近 Pareto 最优。

2)AgentCompress:语义压缩与异步蒸馏(压缩不等于删记忆)



真实的深度研究 / 搜索型 Agent,上下文很快被搜索结果、网页内容、工具输出撑爆,序列长度飙升带来注意力成本激增。AgentCompress 做两件事:

  • 搜索结果过滤排序:先用轻量模型把 URL / 摘要排序剪枝,减少无关内容进入后续爬虫与文档问答,降低并行工具调用压力。
  • 异步上下文蒸馏:压缩工具输出等「环境交互记忆」,但关键是保留推理轨迹(reasoning memory)。团队观察到:只保留压缩后的环境信息会让 Agent 「失忆」,无法判断是否完成任务,导致回合数暴涨;保留推理轨迹才能维持认知连续性,压缩才真正带来端到端收益。

这也是工业落地里非常实用的一点:压缩必须服务于「少走弯路」,而不是只追求「prompt 变短」。

3)AgentSched:KV-cache 感知的混合调度(高并发下依然稳定)



在多会话并发中,短请求和超长上下文请求会同时出现。纯 FCFS 会被长请求阻塞,纯 SJF 又会牺牲长会话的 KV-cache 持久性,导致反复重算前缀、延迟尖刺。

AgentSched 引入一个可解释的控制信号(shadow-price),在「优先短请求低延迟」和「优先高 KV 复用」之间自适应切换:

  • 缓存宽松时更像 SJF,快速响应短请求;
  • 缓存紧张时更偏 KV-aware,保护长会话上下文,减少昂贵 prefill 重算。

这解决的是「工业高并发下仍然 work」的关键:不是某一次跑得快,而是在压力上来时系统不抖、不崩、吞吐还能上去。

4)AgentSAM:跨会话投机解码(把「重复模式」变成真加速)

Agent 推理中常出现高重复:同一任务多轮反复提问、相似用户请求复用模板、检索证据被多次引用。AgentSAM 用后缀自动机(SAM)把当前会话与语义相似的历史会话组合起来,为投机解码提供更高命中率的草稿;同时用异步构建避免长上下文下 SAM 构建阻塞首 token 延迟,并带有自适应开关:当 batch 太大、投机收益变差时自动回退,避免「为了投机而投机」。

工业可用性的证据:高并发下 QPS 仍能持续提升

在 BrowseComp-zh / DeepDiver 深度研究型 Agent 基准上,我们把四个模块集成到同一套服务栈中进行端到端评估。



结果显示两点:

1)它不是实验室「单请求优化」,而是高并发下依然能跑的系统

在并发会话数提升时(例如从 4 提升到 16),系统仍然能稳定获得收益,QPS 提升可达 2.52×。这意味着优化不仅对单次推理有效,更能在资源争用、缓存压力、长短请求混合的真实负载里保持稳定。

2)它不是「只能全套上」,而是模块化、可组合、增益可叠加

团队做了逐步叠加实验:

  • 只上 AgentCollab 就有提升;
  • 再加 AgentCompress、AgentSched,收益继续增长;
  • 最后加 AgentSAM,整体进一步提升(并且在高并发下会根据收益自动启停投机,避免副作用)。

这正是 AgentInfer 的设计目标:每个组件解决一类确定的工业瓶颈;组合起来仍能协同增益,而不是相互抵消。

写在最后:Agent 的效率问题,本质是「系统问题」

AgentInfer 想强调的并不是「把某个指标卷到极致」,而是一个更现实的工程结论:

真正能落地的 Agent 加速,必须同时优化推理架构与推理系统,并且以端到端任务完成为目标。

团队在实验中观察到:AgentInfer 能将无效 token 消耗降低50%+,实现1.8×–2.5×的端到端加速,同时保持任务准确率稳定。

当 Agent 进入生产环境,决定体验的往往不是单步 tokens/s,而是「少走弯路、少重算、抗并发」。这也是我们把 AgentInfer 定位为一套Self-Evolution Engine(自演进引擎)的原因:它让 Agent 在长周期任务与高并发环境中,依然保持效率与认知稳定。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
逆天改命是要祭品的!产妇家人吓得不敢提前生了,网友热帖引深思

逆天改命是要祭品的!产妇家人吓得不敢提前生了,网友热帖引深思

火山詩话
2026-03-13 09:07:00
57岁王菲断崖式衰老!脸肿皮肤松,十个月前和谢霆锋秀恩爱差距大

57岁王菲断崖式衰老!脸肿皮肤松,十个月前和谢霆锋秀恩爱差距大

青梅侃史啊
2026-02-18 07:25:41
朱温被杀前夜,叫儿媳王氏前来服侍,儿媳告诫:小心你父亲要杀你

朱温被杀前夜,叫儿媳王氏前来服侍,儿媳告诫:小心你父亲要杀你

掠影后有感
2026-03-13 10:29:30
47万小学老师只留20万?山东教师的“转岗焦虑”藏不住了

47万小学老师只留20万?山东教师的“转岗焦虑”藏不住了

教师吧
2026-03-12 19:39:53
“台独记者”范琪斐,狂黑大陆几十年,现在下场大快人心

“台独记者”范琪斐,狂黑大陆几十年,现在下场大快人心

混沌录
2026-03-13 17:01:16
纪实 老人狂扇未让座小伙4个耳光后猝死,家属索赔50万,法院判了

纪实 老人狂扇未让座小伙4个耳光后猝死,家属索赔50万,法院判了

谈史论天地
2026-02-19 15:41:31
日本懵了:导弹刚瞄向中国,就收到美国“战书”,特朗普访华有变

日本懵了:导弹刚瞄向中国,就收到美国“战书”,特朗普访华有变

林子说事
2026-03-12 20:11:19
中国造价最高大楼:买地花费63亿,奢华程度超乎想象

中国造价最高大楼:买地花费63亿,奢华程度超乎想象

聚焦真实瞬间
2026-03-06 06:41:19
网红王炸姐直播时去世!仅39岁,黑色外套像件寿衣,女儿才四岁!

网红王炸姐直播时去世!仅39岁,黑色外套像件寿衣,女儿才四岁!

乌娱子酱
2026-03-12 14:08:28
魔兽宣布退役!在NBA打了18年一共赚到多少钱?退休金又有多少?

魔兽宣布退役!在NBA打了18年一共赚到多少钱?退休金又有多少?

锅子篮球
2026-03-13 09:56:22
犹太人正以前所未有的数量逃离以色列

犹太人正以前所未有的数量逃离以色列

西楼知趣杂谈
2026-03-12 18:04:47
是巧合,还是冥冥中自有天意?3位航天员连“名字”都这么巧

是巧合,还是冥冥中自有天意?3位航天员连“名字”都这么巧

快看张同学
2026-03-13 10:37:40
两年了,为何许家印迟迟不判刑?真相可能比你想象的复杂得多

两年了,为何许家印迟迟不判刑?真相可能比你想象的复杂得多

南方健哥
2026-03-13 05:53:33
他是辛亥革命的元勋,解放前拒绝去台湾,1950年“镇反”中被处决

他是辛亥革命的元勋,解放前拒绝去台湾,1950年“镇反”中被处决

兴趣知识
2026-03-12 17:20:18
面相真的不会骗人!全红婵一出场终于懂什么叫“少年气里藏锋芒”

面相真的不会骗人!全红婵一出场终于懂什么叫“少年气里藏锋芒”

做一个合格的吃瓜群众
2026-03-13 12:32:39
巴拿马媒体痛批巴政府:得罪中国有什么好处?报应已彻底到来!

巴拿马媒体痛批巴政府:得罪中国有什么好处?报应已彻底到来!

影像温度
2026-03-12 20:01:45
凌晨在北京去世?75岁“风流妖精”刘晓庆,给内娱明星们上了一课

凌晨在北京去世?75岁“风流妖精”刘晓庆,给内娱明星们上了一课

乡野小珥
2026-03-11 19:44:41
西班牙驱逐以大使、叫板美国,美以誓言猛烈报复

西班牙驱逐以大使、叫板美国,美以誓言猛烈报复

民间胡扯老哥
2026-03-12 13:58:20
中方接到了通知,特朗普修改访华规格,他要带领美国对华弯道超车

中方接到了通知,特朗普修改访华规格,他要带领美国对华弯道超车

社会日日鲜
2026-03-13 03:21:57
美承认“误炸”伊朗小学,过时地图是AI提供的?

美承认“误炸”伊朗小学,过时地图是AI提供的?

红星新闻
2026-03-13 17:33:26
2026-03-13 21:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12497文章数 142583关注度
往期回顾 全部

科技要闻

龙虾热卷到AI硬件 “无脑”硬件或被淘汰

头条要闻

特朗普鼓动油轮"大胆"过霍尔木兹海峡:伊朗没有海军

头条要闻

特朗普鼓动油轮"大胆"过霍尔木兹海峡:伊朗没有海军

体育要闻

叕战奥运,张雨霏要做回“小将”

娱乐要闻

小S复工录制 感谢贾永婕陪大S走到最后

财经要闻

中小银行定存利率落入“1”时代

汽车要闻

置换补贴价8.68万 五菱缤果S 525km旗舰款上市

态度原创

本地
时尚
亲子
公开课
军事航空

本地新闻

坐标北京,过敏季反向迁徒

真正有气质的女性不会总穿羽绒服!看看这些穿搭,大方不显胖

亲子要闻

萌娃对老妈的年龄感到震惊,他的话太逗了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗称袭击"林肯"号航母致其撤走

无障碍浏览 进入关怀版