网易首页 > 网易号 > 正文 申请入驻

DeepSeek新论文剧透V4新框架!用闲置网卡加速智能体推理性能

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

DeepSeek这小子最精了,当全世界都在盯着他的GitHub仓库,等待V4时——

他和北大、清华在ArXiv悄咪咪地上了一篇论文,发布了一个全新的针对智能体的推理框架:DualPath



而且就跟前几天曝出的算力话题相关。

DualPath的核心在于解决Agent长文本推理场景下的I/O瓶颈,通过优化从外部存储加载KV-Cache的速度,确保计算资源不被存储读取拖累。

它改变了传统的存储至预填充引擎(Storage-to-Prefill)单路径加载模式,引入了存储至解码引擎(Storage-to-Decode)的第二条路径。

通过利用解码引擎闲置的存储网卡(SNIC)带宽读取缓存,并配合高速计算网络(RDMA)将其传输至预填充引擎,DualPath实现了集群存储带宽的全局池化与动态负载均衡。

在660B规模的生产级模型的实测中,DualPath表现惊人:

离线推理吞吐量提高了1.87倍,在线服务吞吐量平均提升1.96倍



在高负载下,首字延迟(TTFT)大幅优化,而 Token间的生成速度(TPOT)几乎不受任何干扰。

接下来,我们一起来看。

双路径加载 (Dual-Path Loading)

总的来说,DualPath是一个专门为智能体系统设计的推理框架,它的核心洞见是——

KV-Cache的加载不必以预填充为中心

在以往的理解中,谁负责计算谁就去搬数据。但DualPath认为,缓存可以先加载到解码引擎中,再通过高性能RDMA网络传输至预填充引擎。

通过在两条路径间动态选择,DualPath重新分配了网络负载,缓解了预填充侧的带宽压力。

那么,为什么要费这么大劲去“绕路”?

之所以这样做,是因为在当前的智能体应用中,对话轮数多且上下文长,KV-Cache命中率通常高达95%以上。

这意味着,每一轮对话都要搬运海量的“旧记忆”,推理性能的瓶颈已经从“计算”转移到了“搬运”上



在现有的预填充-解码分离(PD-disaggregated)架构中,所有的加载任务都拥挤在预填充引擎(PE)的存储网卡上,导致带宽瞬间饱和;

与此同时,解码引擎(DE)的存储网卡却在闲置,造成了严重的资源错配。



更进一步的,当前GPU算力的增长远快于网络带宽和HBM容量的增长,也加剧了I/O限制。

正如英伟达首席科学家Bill Dally、谷歌架构师Jeff Dean等大佬反复强调的:计算是免费的,但数据移动是昂贵的。

针对这些问题,DualPath构建了创新的双路径模型:



  • 路径 A(传统):存储→PE,缓存直接读入预填充引擎。
  • 路径 B(新增):存储→DE→PE,缓存先读入解码引擎的缓冲池,再通过RDMA传输给预填充引擎。

在架构组成上:

  • 推理引擎: 每个引擎管理一块GPU,严格区分为预填充(PE)和解码(DE)。
  • 流量管理器: 负责H2D/D2H拷贝、引擎间传输以及SNIC存储读写。
  • 中央调度器: 担任“大脑”角色,实时决策每一条请求该走哪条路,从而实现全局带宽的最大化利用。

核心技术方案:存储至解码路径

如上所述,DualPath推理系统的核心在于打破了传统的“存储至预填充”单路径模式,创新性地引入了“存储至解码”路径

该设计允许KV-Cache先加载至解码引擎(DE),再通过高带宽计算网络(RDMA)无损传输给预填充引擎(PE)。

通过在两条路径间动态分配负载,系统将集群中原本闲置的解码侧存储网卡(SNIC)带宽彻底释放,构建起一个全局可调度的存储I/O资源池。

具体来说,为了支持层级流式处理,DualPath在PE和DE上均分配了少量DRAM缓冲区(PE/DE Buffer),并针对不同阶段设计了精细的数据流:

  • PE读取路径: 命中Token的KV-Cache从存储读入PE缓冲区。在每层计算前,该层缓存传输至PE HBM,与计算过程重叠执行。计算完成后,全量KV-Cache传回DE缓冲区以形成完整上下文。
  • DE读取路径: KV-Cache直接进入DE缓冲区。在PE预填充期间,对应层的缓存跨节点传输至PE HBM(计算重叠)。计算结束后,PE仅需传回新生成的KV-Cache片段与DE原有缓存合并。
  • 解码与持久化: DE缓冲区接收完整KV-Cache后启动解码,执行H2D拷贝并随后释放CPU内存。虽然引入缓冲增加了DRAM压力,但能显著降低GPU显存占用并优化首字延迟(TTFT)。生成过程中,每累积满一个Block(如 64 Token)即触发异步持久化。

但就像前面提到的,“绕路”加载会带来新问题:比如搬运缓存的流量撞上了模型计算的通信,怎么办?

对此,DualPath给出了两套优化方案:

首先是以计算网卡(CNIC)为中心的流量管理,强制所有流量通过配对的CNIC走GPUDirect RDMA路径。

在InfiniBand或RoCE网络中,利用虚拟层(VL/TC)技术,将推理通信设为“最高优先级”并预留99%带宽,让缓存搬运只能在间隙中“蹭”带宽,确保互不干扰。

其次是自适应请求调度器: 调度器会盯着每个节点的磁盘队列长度和Token数。系统会优先将任务分配给I/O压力较小且计算负载较轻的节点,从根本上避免单侧网卡或单点计算资源的拥塞。

在实验阶段,DualPath在DeepSeek-V3、Qwen等模型上进行了测试,场景覆盖了离线Rollout和在线服务。

如开头所说,在离线推理中,DualPath 将端到端吞吐量提高了高达1.87倍,在线服务吞吐量平均提升1.96倍,显著降低了首字延迟(TTFT),且保持了极其稳定的Token间延迟(TBT)。

总的来说,DualPath 证明了通过重新思考数据加载路径可以有效突破当前大模型推理的I/O墙。

它成功利用了解码引擎原本被浪费的I/O带宽,配合自适应调度和严谨的流量隔离机制,在不增加硬件成本的前提下,大幅提升了智能体LLM推理系统的效率。

One more thing

这篇论文的第一作者吴永彤,是北京大学的博士生,师从金鑫教授。

他的研究方向聚焦于系统软件与大模型基础设施(LLM Infrastructure),尤其是推理系统的工程优化与规模化部署。



他目前在DeepSeek系统组,参与下一代模型的推理基础设施建设,负责大规模软件系统在多硬件平台上的性能优化。



此前,他还曾在腾讯、华盛顿大学,微软亚研院等机构实习。

[1]https://arxiv.org/pdf/2602.21548

[2]https://jokerwyt.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
法媒:“伊朗战争的首个受害者是真相”

法媒:“伊朗战争的首个受害者是真相”

参考消息
2026-03-26 13:30:07
这就是钱学森后人真实的样貌,女儿定居美国,儿子长孙精忠报国!

这就是钱学森后人真实的样貌,女儿定居美国,儿子长孙精忠报国!

旧史新谭
2026-03-25 13:15:22
停炸五天的真正含义:伊朗被迫进入二选一困局

停炸五天的真正含义:伊朗被迫进入二选一困局

斌闻天下
2026-03-26 07:45:03
正式确定!CBA名将加盟浙江广厦,重返老东家,全力卫冕总冠军

正式确定!CBA名将加盟浙江广厦,重返老东家,全力卫冕总冠军

体坛瞎白话
2026-03-25 16:52:09
经济下行后,正常人变得越来越稀缺了

经济下行后,正常人变得越来越稀缺了

经济学教授V
2026-03-24 08:04:04
张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

苗苗情感说
2026-03-26 09:33:59
美军中央司令部:美军“亚伯拉罕·林肯”号航空母舰“在区域海域航行期间,继续针对伊朗境内的军事目标开展作战行动”

美军中央司令部:美军“亚伯拉罕·林肯”号航空母舰“在区域海域航行期间,继续针对伊朗境内的军事目标开展作战行动”

潇湘晨报
2026-03-26 10:55:27
教育彻底变天!2026届初中生注意,这是最后一届只拼分数的一届

教育彻底变天!2026届初中生注意,这是最后一届只拼分数的一届

老特有话说
2026-03-25 15:22:58
南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

火山詩话
2026-03-26 06:37:23
中国移动正式发布通知:全国将统一执行:4月30日起

中国移动正式发布通知:全国将统一执行:4月30日起

云舟史策
2026-03-26 07:34:02
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
余承东正式宣布问界M6订单超6万台后,一个奇怪的现象就出现了

余承东正式宣布问界M6订单超6万台后,一个奇怪的现象就出现了

春雨说科技
2026-03-26 14:46:46
公职人员下班后这5种行为,将严肃处理,千万别踩红线!

公职人员下班后这5种行为,将严肃处理,千万别踩红线!

细说职场
2026-03-26 11:13:03
改口!姆巴佩为皇马队医发声:他们并未误诊 这事我也有一定责任

改口!姆巴佩为皇马队医发声:他们并未误诊 这事我也有一定责任

风过乡
2026-03-26 05:54:46
巴蒂:曾想成为大罗那样的前锋但我做不到;哈兰德让我很惊讶

巴蒂:曾想成为大罗那样的前锋但我做不到;哈兰德让我很惊讶

懂球帝
2026-03-26 11:02:09
歼-16D携载LD-8A,开启反辐射作战新篇!

歼-16D携载LD-8A,开启反辐射作战新篇!

杨风
2026-03-25 20:50:09
全国禁赛5年!凉山队一球员不满判罚赛后飞踹拳击裁判,此前已被四川省内禁赛5年

全国禁赛5年!凉山队一球员不满判罚赛后飞踹拳击裁判,此前已被四川省内禁赛5年

红星新闻
2026-03-25 23:19:21
如果美国疯狂印钞还完所有债会怎样 网友深度剖析 原来有人等着呢

如果美国疯狂印钞还完所有债会怎样 网友深度剖析 原来有人等着呢

侃神评故事
2026-03-23 17:20:03
骗贷6.6亿余元 潜逃境外涉金融领域犯罪嫌疑人张某被押解回国

骗贷6.6亿余元 潜逃境外涉金融领域犯罪嫌疑人张某被押解回国

新京报
2026-03-26 12:58:08
京华城案一审宣判不只柯文哲,应晓薇被判15年半,沈庆京10年

京华城案一审宣判不只柯文哲,应晓薇被判15年半,沈庆京10年

海峡导报社
2026-03-26 15:29:03
2026-03-26 18:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
游戏
手机
亲子
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

《刺客信条》又一新作野心炸裂!三张地图横跨半个地球

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

亲子要闻

上海美华妇儿医院"康复中心"完成全面升级并正式焕新启幕

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版