网易首页 > 网易号 > 正文 申请入驻

DeepSeek新论文剧透V4新框架!用闲置网卡加速智能体推理性能

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

DeepSeek这小子最精了,当全世界都在盯着他的GitHub仓库,等待V4时——

他和北大、清华在ArXiv悄咪咪地上了一篇论文,发布了一个全新的针对智能体的推理框架:DualPath



而且就跟前几天曝出的算力话题相关。

DualPath的核心在于解决Agent长文本推理场景下的I/O瓶颈,通过优化从外部存储加载KV-Cache的速度,确保计算资源不被存储读取拖累。

它改变了传统的存储至预填充引擎(Storage-to-Prefill)单路径加载模式,引入了存储至解码引擎(Storage-to-Decode)的第二条路径。

通过利用解码引擎闲置的存储网卡(SNIC)带宽读取缓存,并配合高速计算网络(RDMA)将其传输至预填充引擎,DualPath实现了集群存储带宽的全局池化与动态负载均衡。

在660B规模的生产级模型的实测中,DualPath表现惊人:

离线推理吞吐量提高了1.87倍,在线服务吞吐量平均提升1.96倍



在高负载下,首字延迟(TTFT)大幅优化,而 Token间的生成速度(TPOT)几乎不受任何干扰。

接下来,我们一起来看。

双路径加载 (Dual-Path Loading)

总的来说,DualPath是一个专门为智能体系统设计的推理框架,它的核心洞见是——

KV-Cache的加载不必以预填充为中心

在以往的理解中,谁负责计算谁就去搬数据。但DualPath认为,缓存可以先加载到解码引擎中,再通过高性能RDMA网络传输至预填充引擎。

通过在两条路径间动态选择,DualPath重新分配了网络负载,缓解了预填充侧的带宽压力。

那么,为什么要费这么大劲去“绕路”?

之所以这样做,是因为在当前的智能体应用中,对话轮数多且上下文长,KV-Cache命中率通常高达95%以上。

这意味着,每一轮对话都要搬运海量的“旧记忆”,推理性能的瓶颈已经从“计算”转移到了“搬运”上



在现有的预填充-解码分离(PD-disaggregated)架构中,所有的加载任务都拥挤在预填充引擎(PE)的存储网卡上,导致带宽瞬间饱和;

与此同时,解码引擎(DE)的存储网卡却在闲置,造成了严重的资源错配。



更进一步的,当前GPU算力的增长远快于网络带宽和HBM容量的增长,也加剧了I/O限制。

正如英伟达首席科学家Bill Dally、谷歌架构师Jeff Dean等大佬反复强调的:计算是免费的,但数据移动是昂贵的。

针对这些问题,DualPath构建了创新的双路径模型:



  • 路径 A(传统):存储→PE,缓存直接读入预填充引擎。
  • 路径 B(新增):存储→DE→PE,缓存先读入解码引擎的缓冲池,再通过RDMA传输给预填充引擎。

在架构组成上:

  • 推理引擎: 每个引擎管理一块GPU,严格区分为预填充(PE)和解码(DE)。
  • 流量管理器: 负责H2D/D2H拷贝、引擎间传输以及SNIC存储读写。
  • 中央调度器: 担任“大脑”角色,实时决策每一条请求该走哪条路,从而实现全局带宽的最大化利用。

核心技术方案:存储至解码路径

如上所述,DualPath推理系统的核心在于打破了传统的“存储至预填充”单路径模式,创新性地引入了“存储至解码”路径

该设计允许KV-Cache先加载至解码引擎(DE),再通过高带宽计算网络(RDMA)无损传输给预填充引擎(PE)。

通过在两条路径间动态分配负载,系统将集群中原本闲置的解码侧存储网卡(SNIC)带宽彻底释放,构建起一个全局可调度的存储I/O资源池。

具体来说,为了支持层级流式处理,DualPath在PE和DE上均分配了少量DRAM缓冲区(PE/DE Buffer),并针对不同阶段设计了精细的数据流:

  • PE读取路径: 命中Token的KV-Cache从存储读入PE缓冲区。在每层计算前,该层缓存传输至PE HBM,与计算过程重叠执行。计算完成后,全量KV-Cache传回DE缓冲区以形成完整上下文。
  • DE读取路径: KV-Cache直接进入DE缓冲区。在PE预填充期间,对应层的缓存跨节点传输至PE HBM(计算重叠)。计算结束后,PE仅需传回新生成的KV-Cache片段与DE原有缓存合并。
  • 解码与持久化: DE缓冲区接收完整KV-Cache后启动解码,执行H2D拷贝并随后释放CPU内存。虽然引入缓冲增加了DRAM压力,但能显著降低GPU显存占用并优化首字延迟(TTFT)。生成过程中,每累积满一个Block(如 64 Token)即触发异步持久化。

但就像前面提到的,“绕路”加载会带来新问题:比如搬运缓存的流量撞上了模型计算的通信,怎么办?

对此,DualPath给出了两套优化方案:

首先是以计算网卡(CNIC)为中心的流量管理,强制所有流量通过配对的CNIC走GPUDirect RDMA路径。

在InfiniBand或RoCE网络中,利用虚拟层(VL/TC)技术,将推理通信设为“最高优先级”并预留99%带宽,让缓存搬运只能在间隙中“蹭”带宽,确保互不干扰。

其次是自适应请求调度器: 调度器会盯着每个节点的磁盘队列长度和Token数。系统会优先将任务分配给I/O压力较小且计算负载较轻的节点,从根本上避免单侧网卡或单点计算资源的拥塞。

在实验阶段,DualPath在DeepSeek-V3、Qwen等模型上进行了测试,场景覆盖了离线Rollout和在线服务。

如开头所说,在离线推理中,DualPath 将端到端吞吐量提高了高达1.87倍,在线服务吞吐量平均提升1.96倍,显著降低了首字延迟(TTFT),且保持了极其稳定的Token间延迟(TBT)。

总的来说,DualPath 证明了通过重新思考数据加载路径可以有效突破当前大模型推理的I/O墙。

它成功利用了解码引擎原本被浪费的I/O带宽,配合自适应调度和严谨的流量隔离机制,在不增加硬件成本的前提下,大幅提升了智能体LLM推理系统的效率。

One more thing

这篇论文的第一作者吴永彤,是北京大学的博士生,师从金鑫教授。

他的研究方向聚焦于系统软件与大模型基础设施(LLM Infrastructure),尤其是推理系统的工程优化与规模化部署。



他目前在DeepSeek系统组,参与下一代模型的推理基础设施建设,负责大规模软件系统在多硬件平台上的性能优化。



此前,他还曾在腾讯、华盛顿大学,微软亚研院等机构实习。

[1]https://arxiv.org/pdf/2602.21548

[2]https://jokerwyt.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国提案:谷爱凌将面临100%个税,上亿收入恐清零

美国提案:谷爱凌将面临100%个税,上亿收入恐清零

史鹷的生活科普
2026-02-27 15:13:55
爽了!日本男篮官方被打自闭,FIBA被冲,日迷声讨郭士强进场破防

爽了!日本男篮官方被打自闭,FIBA被冲,日迷声讨郭士强进场破防

篮球资讯达人
2026-02-27 00:01:26
老百姓没等来房价如葱,12%的房产税、20%的“遗产税”,已经开始

老百姓没等来房价如葱,12%的房产税、20%的“遗产税”,已经开始

猫叔东山再起
2026-02-27 10:50:03
特朗普的深层恐惧,资本家不允许再出现第二个罗斯福

特朗普的深层恐惧,资本家不允许再出现第二个罗斯福

月满大江流
2026-02-27 07:00:03
吃自助餐遇到的人有多离谱?网友:浪费粮食的下辈子吃不上热菜

吃自助餐遇到的人有多离谱?网友:浪费粮食的下辈子吃不上热菜

解读热点事件
2026-02-25 15:07:10
原来库明加真是被科尔耽误了啊...

原来库明加真是被科尔耽误了啊...

火热篮球
2026-02-27 17:49:02
恐高女游客游乐园玩蹦极 跳下后因太紧张把自己吓晕 工作人员:十几秒就清醒了 身体无碍

恐高女游客游乐园玩蹦极 跳下后因太紧张把自己吓晕 工作人员:十几秒就清醒了 身体无碍

闪电新闻
2026-02-27 16:18:28
DeepSeek发布下一代技术!北大实习生立功

DeepSeek发布下一代技术!北大实习生立功

智东西
2026-02-27 12:59:15
中虎跳峡游客落水事故目击者:同行女子称他们“马上回去就要结婚的”消防仍在搜救

中虎跳峡游客落水事故目击者:同行女子称他们“马上回去就要结婚的”消防仍在搜救

红星新闻
2026-02-27 14:14:12
欧冠出局=财政崩盘?别被带了节奏!一文拆解国米财政与债务

欧冠出局=财政崩盘?别被带了节奏!一文拆解国米财政与债务

狗哥是一名内拉
2026-02-27 16:57:15
云南天价拖车费越闹越大!车主被威胁,拖车公司被扒,果然不简单

云南天价拖车费越闹越大!车主被威胁,拖车公司被扒,果然不简单

观察鉴娱
2026-02-26 10:11:06
跟男生玩饥饿营销,这可能是我26年听过最好笑的笑话了。

跟男生玩饥饿营销,这可能是我26年听过最好笑的笑话了。

流苏晚晴
2026-02-26 18:14:25
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
闻泰出手,安世中国一家独大,德总理带队倒戈!这一局荷兰输惨了

闻泰出手,安世中国一家独大,德总理带队倒戈!这一局荷兰输惨了

浩舞纆画
2026-02-27 16:01:59
意外吗?鲁能一场2比9惨败,彰显了王大雷含金量,接班人遥遥无期

意外吗?鲁能一场2比9惨败,彰显了王大雷含金量,接班人遥遥无期

罗掌柜体育
2026-02-27 16:57:36
特朗普访华临近,美国逼中国撤回对鲁比奥反制,这事情能商量吗?

特朗普访华临近,美国逼中国撤回对鲁比奥反制,这事情能商量吗?

我心纵横天地间
2026-02-27 19:09:23
刚刚,周五下午传来3个特大级消息!A股或迎来更大级别大行情?

刚刚,周五下午传来3个特大级消息!A股或迎来更大级别大行情?

股市皆大事
2026-02-27 14:45:30
普京时代即将落幕?俄罗斯总统候选人浮出水面,谁会是接班人?

普京时代即将落幕?俄罗斯总统候选人浮出水面,谁会是接班人?

老范谈史
2026-02-26 23:29:00
联合国爆发争端,凌晨中美大吵一架,美国犯下大错,局势已恶化

联合国爆发争端,凌晨中美大吵一架,美国犯下大错,局势已恶化

芊芊子吟
2026-02-26 11:26:11
输太阳遭3连败!湖人奇葩阵容坑惨詹姆斯,最强技能被雷迪克废掉

输太阳遭3连败!湖人奇葩阵容坑惨詹姆斯,最强技能被雷迪克废掉

小路看球
2026-02-27 13:34:04
2026-02-27 19:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
12209文章数 176397关注度
往期回顾 全部

科技要闻

单张不到五毛!谷歌深夜发布Nano Banana 2

头条要闻

世界经济论坛总裁辞职 曾私信爱泼斯坦称对方"天才"

头条要闻

世界经济论坛总裁辞职 曾私信爱泼斯坦称对方"天才"

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

继网暴谷爱凌后 美国欲没收其全部收入

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

游戏
教育
旅游
家居
时尚

微软立大功!Xbox商店曝光《红色沙漠》发售时间

教育要闻

最高学费26万!2026济南、青岛私立学费汇总!

旅游要闻

国家植物园雪落初春,蜡梅披上了雪衣

家居要闻

素色肌理 品意式格调

今年春天最美搭配:西装+半裙,怎么穿都好看!

无障碍浏览 进入关怀版