网易首页 > 网易号 > 正文 申请入驻

DeepSeek新论文剧透V4新框架!用闲置网卡加速智能体推理性能

0
分享至

来源:市场资讯

(来源:量子位)

DeepSeek这小子最精了,当全世界都在盯着他的GitHub仓库,等待V4时——

他和北大、清华在ArXiv悄咪咪地上了一篇论文,发布了一个全新的针对智能体的推理框架:DualPath


而且就跟前几天曝出的算力话题相关。

DualPath的核心在于解决Agent长文本推理场景下的I/O瓶颈,通过优化从外部存储加载KV-Cache的速度,确保计算资源不被存储读取拖累。

它改变了传统的存储至预填充引擎(Storage-to-Prefill)单路径加载模式,引入了存储至解码引擎(Storage-to-Decode)的第二条路径。

通过利用解码引擎闲置的存储网卡(SNIC)带宽读取缓存,并配合高速计算网络(RDMA)将其传输至预填充引擎,DualPath实现了集群存储带宽的全局池化与动态负载均衡。

在660B规模的生产级模型的实测中,DualPath表现惊人:

离线推理吞吐量提高了1.87倍,在线服务吞吐量平均提升1.96倍


在高负载下,首字延迟(TTFT)大幅优化,而 Token间的生成速度(TPOT)几乎不受任何干扰。

接下来,我们一起来看。

双路径加载 (Dual-Path Loading)

总的来说,DualPath是一个专门为智能体系统设计的推理框架,它的核心洞见是——

KV-Cache的加载不必以预填充为中心

在以往的理解中,谁负责计算谁就去搬数据。但DualPath认为,缓存可以先加载到解码引擎中,再通过高性能RDMA网络传输至预填充引擎。

通过在两条路径间动态选择,DualPath重新分配了网络负载,缓解了预填充侧的带宽压力。

那么,为什么要费这么大劲去“绕路”?

之所以这样做,是因为在当前的智能体应用中,对话轮数多且上下文长,KV-Cache命中率通常高达95%以上。

这意味着,每一轮对话都要搬运海量的“旧记忆”,推理性能的瓶颈已经从“计算”转移到了“搬运”上


在现有的预填充-解码分离(PD-disaggregated)架构中,所有的加载任务都拥挤在预填充引擎(PE)的存储网卡上,导致带宽瞬间饱和;

与此同时,解码引擎(DE)的存储网卡却在闲置,造成了严重的资源错配。


更进一步的,当前GPU算力的增长远快于网络带宽和HBM容量的增长,也加剧了I/O限制。

正如英伟达首席科学家Bill Dally、谷歌架构师Jeff Dean等大佬反复强调的:计算是免费的,但数据移动是昂贵的。

针对这些问题,DualPath构建了创新的双路径模型:


在架构组成上:

核心技术方案:存储至解码路径

如上所述,DualPath推理系统的核心在于打破了传统的“存储至预填充”单路径模式,创新性地引入了“存储至解码”路径

该设计允许KV-Cache先加载至解码引擎(DE),再通过高带宽计算网络(RDMA)无损传输给预填充引擎(PE)。

通过在两条路径间动态分配负载,系统将集群中原本闲置的解码侧存储网卡(SNIC)带宽彻底释放,构建起一个全局可调度的存储I/O资源池。

具体来说,为了支持层级流式处理,DualPath在PE和DE上均分配了少量DRAM缓冲区(PE/DE Buffer),并针对不同阶段设计了精细的数据流:

但就像前面提到的,“绕路”加载会带来新问题:比如搬运缓存的流量撞上了模型计算的通信,怎么办?

对此,DualPath给出了两套优化方案:

首先是以计算网卡(CNIC)为中心的流量管理,强制所有流量通过配对的CNIC走GPUDirect RDMA路径。

在InfiniBand或RoCE网络中,利用虚拟层(VL/TC)技术,将推理通信设为“最高优先级”并预留99%带宽,让缓存搬运只能在间隙中“蹭”带宽,确保互不干扰。

其次是自适应请求调度器: 调度器会盯着每个节点的磁盘队列长度和Token数。系统会优先将任务分配给I/O压力较小且计算负载较轻的节点,从根本上避免单侧网卡或单点计算资源的拥塞。

在实验阶段,DualPath在DeepSeek-V3、Qwen等模型上进行了测试,场景覆盖了离线Rollout和在线服务。

如开头所说,在离线推理中,DualPath 将端到端吞吐量提高了高达1.87倍,在线服务吞吐量平均提升1.96倍,显著降低了首字延迟(TTFT),且保持了极其稳定的Token间延迟(TBT)。

总的来说,DualPath 证明了通过重新思考数据加载路径可以有效突破当前大模型推理的I/O墙。

它成功利用了解码引擎原本被浪费的I/O带宽,配合自适应调度和严谨的流量隔离机制,在不增加硬件成本的前提下,大幅提升了智能体LLM推理系统的效率。

One more thing

这篇论文的第一作者吴永彤,是北京大学的博士生,师从金鑫教授。

他的研究方向聚焦于系统软件与大模型基础设施(LLM Infrastructure),尤其是推理系统的工程优化与规模化部署。


他目前在DeepSeek系统组,参与下一代模型的推理基础设施建设,负责大规模软件系统在多硬件平台上的性能优化。


此前,他还曾在腾讯、华盛顿大学,微软亚研院等机构实习。

[1]https://arxiv.org/pdf/2602.21548

[2]https://jokerwyt.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杜兰特空砍32+6+8+2封盖,阿德巴约打爆申京,热火终结火箭3连胜

杜兰特空砍32+6+8+2封盖,阿德巴约打爆申京,热火终结火箭3连胜

钉钉陌上花开
2026-03-01 07:08:50
战争打响,伊朗唯一活路是把一万枚导弹当成“一次性打火机”!

战争打响,伊朗唯一活路是把一万枚导弹当成“一次性打火机”!

百态人间
2026-01-29 15:41:40
国内将逐渐停止“CT检查”?做完人就废了?医生告诉您真相!

国内将逐渐停止“CT检查”?做完人就废了?医生告诉您真相!

荆医生科普
2026-02-28 23:05:03
养伤23天!皇马6000万前锋回归:18场仅1球 主力沦为替补

养伤23天!皇马6000万前锋回归:18场仅1球 主力沦为替补

叶青足球世界
2026-02-28 19:28:16
特朗普呼吁伊朗政权更迭

特朗普呼吁伊朗政权更迭

财联社
2026-02-28 15:54:28
女子替父亲请假两小时,父亲竟因此被开除,绝情臭豆腐店发布道歉声明

女子替父亲请假两小时,父亲竟因此被开除,绝情臭豆腐店发布道歉声明

极目新闻
2026-02-28 19:50:15
外媒:中国球迷畅想中国队取代伊朗队参加世界杯可能

外媒:中国球迷畅想中国队取代伊朗队参加世界杯可能

星耀国际足坛
2026-02-28 22:34:32
生意做到这份上,也真服了贾老板!

生意做到这份上,也真服了贾老板!

ICT解读者
2026-01-17 09:06:47
帝都两套房加600万现金,准备48岁提前退休旅居养老,却被大三的儿子劝退

帝都两套房加600万现金,准备48岁提前退休旅居养老,却被大三的儿子劝退

吃货的分享
2026-02-28 09:08:46
伦敦基本金属多数收跌,LME期铜跌0.06%

伦敦基本金属多数收跌,LME期铜跌0.06%

每日经济新闻
2026-02-28 07:09:05
重磅!一口气官宣5条,西安地铁传爆炸性消息!

重磅!一口气官宣5条,西安地铁传爆炸性消息!

西莫的艺术宫殿
2026-03-01 00:35:17
金龟子一家7口为外孙庆生,王宁看外孙好宠溺,元宝越长越像爷爷

金龟子一家7口为外孙庆生,王宁看外孙好宠溺,元宝越长越像爷爷

柒佰娱
2026-02-28 18:42:22
后悔!当年不顾家人反对,坚持全屋瓷砖上墙,入住3年后崩溃了

后悔!当年不顾家人反对,坚持全屋瓷砖上墙,入住3年后崩溃了

家居设计师宅哥
2026-02-26 16:16:14
停止医美1年后,40岁好莱坞花旦最真实一面曝光,网友炸了...

停止医美1年后,40岁好莱坞花旦最真实一面曝光,网友炸了...

英国那些事儿
2026-02-27 23:26:43
第二个李登辉出现?恐是民进党卧底,要继承王金平衣钵害残国民党

第二个李登辉出现?恐是民进党卧底,要继承王金平衣钵害残国民党

遁走的两轮
2026-02-19 14:27:38
马筱梅产子四天,S妈委托律师发声,汪小菲带玥儿给弟弟买礼物

马筱梅产子四天,S妈委托律师发声,汪小菲带玥儿给弟弟买礼物

岁月轻纱
2026-02-28 20:27:17
2岁的儿媳妇自己找上门!惊呆了!生活里那些惊人的巧合

2岁的儿媳妇自己找上门!惊呆了!生活里那些惊人的巧合

另子维爱读史
2026-02-05 23:23:06
大熊猫“半半”“香果” 因病救治无效死亡

大熊猫“半半”“香果” 因病救治无效死亡

界面新闻
2026-02-28 18:10:45
一旦爆发世界大战,谁敢直接攻击美国本土,美上将:只有一个国家

一旦爆发世界大战,谁敢直接攻击美国本土,美上将:只有一个国家

风流女汉
2026-02-09 23:23:10
以总理:美以军事行动目标是推翻伊朗政权

以总理:美以军事行动目标是推翻伊朗政权

界面新闻
2026-02-28 16:24:46
2026-03-01 07:35:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2301502文章数 5607关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

以官员称哈梅内伊身亡 遗体在其官邸废墟中被找到

头条要闻

以官员称哈梅内伊身亡 遗体在其官邸废墟中被找到

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

周杰伦儿子正面照曝光,与父亲好像

财经要闻

冲突爆发 市场变天?

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

健康
本地
数码
艺术
公开课

转头就晕的耳石症,能开车上班吗?

本地新闻

津南好·四时总相宜

数码要闻

小米超薄充电宝亮相MWC,98g有多能打?

艺术要闻

惊艳!这位天使般的女子与油画让人心动不已!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版