网易首页 > 网易号 > 正文 申请入驻

DeepSeek发布下一代技术!北大实习生立功

0
分享至


智东西
编译 陈骏达
编辑 云鹏

DeepSeek又找到突破大模型推理瓶颈的新方法了!

智东西2月27日报道,昨天,DeepSeek发布了一项名为DualPath的全新推理系统方案,直指当前大语言模型在智能体应用场景下遭遇的短板——KV缓存存储I/O瓶颈。该方案通过引入双路径加载机制,显著提升系统吞吐量,基本消除了KV缓存的I/O开销。

DualPath的核心创新在于开辟了一条从存储直通解码引擎的新通道。KV缓存不再仅由预填充引擎加载,而是可以加载至解码引擎,再通过计算网络中的RDMA高效传输至预填充端。这一设计不仅缓解了存储端的压力,还避免了网络拥塞,确保延迟敏感型任务不受干扰。

与全局调度器协同后,DualPath实现了动态平衡两端负载,进一步提升资源利用率。在真实智能体工作负载测试中,DualPath将离线推理吞吐量提升最高达1.87倍,在线服务吞吐量平均提升1.96倍。

在大规模可扩展性方面,DualPath系统在最多1152张GPU上进行了验证。离线推理从2P4D(2K智能体)扩展到48P96D(48K智能体)实现近线性扩展,任务完成时间基本保持一致。

值得一提的是,与之前DeepSeek发表的许多研究论文类似,这篇论文的第一作者吴永彤同样是DeepSeek的实习生。吴永彤目前在北京大学攻读博士学位,师从金鑫教授,主要研究大模型基础设施相关课题,自2025年8月以来便在DeepSeek系统组工作,曾参与DeepSeek-V3.2的研究。

论文链接:

https://arxiv.org/pdf/2602.21548

一、智能体I/O瓶颈凸显,传统设计成本高昂

随着智能体应用普及,多轮推理已成常态。智能体通过工具与外部环境进行数十甚至数百轮交互,上下文跨轮累积到极长长度。由于多轮、短追加的特性,KV缓存命中率高达95%以上,加载效率取代计算成为性能主导因素。

现有系统采用分层预填充、预填充-解码分离(PD分离)和外部KV缓存存储架构。但问题在于:预填充引擎存储网卡带宽持续饱和,而解码引擎存储网卡带宽大量闲置。这种不平衡暴露了根本性低效——存储网络带宽利用不均,而单纯增加预填充端带宽成本高昂。


▲现有瓶颈(左)与DualPath(右)

DualPath的提出正是为了解决上述问题,其核心洞察在于打破“KV缓存加载必须以预填充为中心”的传统设计。

现有系统仅通过存储到预填充引擎的单一路径加载,导致预填充端带宽饱和而解码端带宽闲置。DualPath则增加了存储到解码路径,将KV缓存先加载至空闲的解码引擎,再通过RDMA高效传输给预填充引擎。

这一模式聚合了所有存储网卡带宽,重新分配网络负载,从根本上缓解预填充端的I/O瓶颈。

不过,该设计仍然面临两大挑战:首先,引入额外的加载路径会产生复杂的流量模式,并可能与模型执行中的集体通信原语产生潜在干扰,若管理不当会降低整体性能。

其次,系统必须在动态和异构的工作负载下在线决定使用哪条加载路径,并同时确保GPU和网卡之间的负载均衡。

二、三大核心组件打造DualPath,新组件并未引入瓶颈

那么,DeepSeek究竟是如何解决这些挑战的呢?DualPath使用了两项广泛使用的技术:

(1)PD分离,将提示词和解码处理分开以提高效率。

(1)分层预填充,避免了预填充引擎上的HBM瓶颈,并提高了GPU利用率。

而DualPath主要由三大核心组件构成。推理引擎是基础执行单元,每个引擎管理一个GPU,并明确区分为专司预填充计算的预填充引擎和负责解码生成的解码引擎。

流量管理器内嵌于每个引擎,统筹所有数据移动:包括主机与设备间的内存拷贝、预填充与解码引擎之间的KV缓存传输,以及通过存储网卡进行的KV缓存持久化读写。其采用以计算网卡为中心的流量管理策略,确保KV缓存流量不会干扰延迟敏感的模型集体通信。

请求调度器作为中央决策单元,接收客户端请求并智能分发给各引擎,同时动态决策每条请求采用传统存储到预填充路径还是新型存储到解码路径,实现双路径间的流量均衡与全局负载优化。


在具体实现上,DualPath在每个预填充引擎和解码引擎上预留少量DRAM作为缓冲区。对于预填充端读路径,命中token的KV缓存首先从存储读入预填充引擎缓冲区,然后按层流式传入预填充引擎的HBM,与未命中token的KV计算过程重叠执行。随后,完整的提示词KV会被传输至解码引擎缓冲区,供解码阶段使用。

对于解码端读路径,命中KV首先加载到解码引擎缓冲区,在预填充引擎执行预填充时逐层通过RDMA读取,同时与计算重叠。未命中KV计算完成后回传至解码引擎,与命中KV合并形成完整提示词缓存。

无论哪条路径,数据传输都采用分层流式方式,以缓解HBM容量压力并实现计算与通信的重叠。解码阶段开始前,解码引擎将完整KV从缓冲区传入HBM,完成主机到设备拷贝后释放CPU内存;在生成过程中,每当累积满一个固定大小的token块,就立即持久化到存储。

为了验证该架构不会引入新的瓶颈,论文对计算网卡带宽和DRAM带宽进行了系统性分析。通过建立每对预填充引擎—解码引擎之间的流量模型,并假设负载均衡与网络无拥塞,作者推导出在一定的P/D(预填充节点与解码节点数量之比)范围内,计算网卡、PCIe以及DRAM均不会成为瓶颈。

在典型配置(例如每节点8个GPU、存储带宽远小于计算带宽)下,可行的P/D区间覆盖大多数实际部署比例,说明系统能够在充分利用所有存储网卡带宽的同时,保持计算与内存资源的稳定运行。

三、系统落地仍面临三大挑战,采用计算网卡为中心的流量管理

然而,在真实系统中落地双路径架构仍面临三项核心挑战。首先是细粒度数据传输。分层执行缓解了HBM容量压力,但也将KV拆分为大量小块,需要在存储、主机DRAM和GPUHBM之间高效搬运,同时控制软件与硬件开销。

其次是流量隔离。新增的KV传输可能干扰模型执行中的延迟敏感型集体通信(如AllToAll、ReduceScatter/AllGather),若缺乏隔离机制,将直接推高端到端推理延迟。

最后是动态负载均衡。由于系统存在两条读取路径,调度器必须结合磁盘队列长度、GPU负载和请求特征动态决策,否则容易再次形成局部瓶颈。

为避免KV传输干扰模型通信,系统采用以计算网卡为中心的流量管理机制。所有进出GPU的流量,包括H2D/D2H拷贝,统一经由与GPU配对的计算网卡,并通过GPUDirectRDMA完成传输,使全部数据流汇聚到计算网络,从而利用硬件QoS能力进行优先级隔离。

在基于InfiniBand的部署中,模型推理通信被映射到高优先级虚拟通道,KV传输映射到低优先级通道,并通过加权轮询保障前者带宽。这样既保护了延迟敏感通信,又允许KV流量利用空闲带宽。实验还表明,在大量小块场景下,其更适合细粒度传输。

在调度层面,系统采用两级自适应机制。引擎间调度为请求选择预填充引擎—解码引擎对并确定读取路径,通过token数量与磁盘队列长度实现负载均衡;解码引擎调度分为跨组与组内两阶段,在平衡总token数的同时考虑HBM容量约束,避免资源过载。

引擎内调度主要作用于预填充引擎,通过估计注意力层计算量设定“计算配额”,以FIFO方式组批,必要时对请求分块,使各GPU计算时间趋于一致,减少同步等待。

总体而言,双路径加载聚合存储带宽,理论分析保证系统无新增瓶颈,计算网卡中心化设计实现严格流量隔离,自适应调度则维持负载均衡与低延迟,共同构成一个高吞吐、可扩展的推理架构。

四、实验证明KV缓存I/O开销已基本消除,在千卡集群上实现线性扩展

为验证DualPath带来的性能提升,DeepSeek在一个由InfiniBand互连的GPU服务器集群上进行实验,评估了三个模型的表现:DeepSeek V3.2 660B(记为DS 660B)、DS 660B的27B缩小版本(记为DS 27B)以及作为稠密模型代表的Qwen2.5-32B(记为Qwen 32B)。

实验结果显示,DualPath在更大的批次规模和更长的最大有效上下文长度下获益更加显著。在DS 660B上,DualPath相较于DeepSeek内部的基线推理框架最高实现1.87倍加速,且性能接近假设零I/O开销的理论性能上限,说明KV缓存I/O开销已基本被消除。


在DS 27B上,DualPath相较于DeepSeek内部的基线推理框架最高提升1.78倍

在改变追加长度和生成长度时,DualPath在短token场景下优势更明显。随着追加长度增加,GPU计算压力增大,而生成长度增加则因预填充间隔变长,降低了KV缓存加载压力。

图9显示,随着追加长度增长,未采用DualPath的推理引擎表现和DualPath的性能越发接近,表明系统瓶颈逐渐转向GPU计算。在不同追加规模下,DualPath相较于基线实现1.82至1.99倍加速,生成长度扩展趋势类似。

在不同预填充-解码比例下,DualPath均显著优于基线,平均实现1.64倍加速,最高达2.46倍。基线推理引擎只能使用预填充节点的存储带宽,而DualPath能够利用所有节点的带宽,验证了在智能体场景下存储带宽是主要瓶颈。

在在线服务评估中,DualPath在智能体请求到达速率上显著优于基线,在DS27B和DS660B上分别达到1.67倍和2.25倍提升


在负载均衡方面,DualPath显著改善了存储网卡和注意力层执行时间的均衡性。相较于轮询调度,调度算法将存储网卡负载均衡指标从1.53优化至1.18。同时,在任务前5%执行阶段,将注意力层最大/平均执行时间比控制在1.06以内,减少了GPU空闲气泡。

在大规模可扩展性方面,DualPath系统在最多1152张GPU上进行了验证。离线推理从2P4D(2K智能体)扩展到48P96D(48K智能体)实现近线性扩展,任务完成时间基本保持一致。


在线服务中,44P88D配置在保持相似延迟的同时,将吞吐量提升22倍。所有实验中调度器CPU占用低于10核,表明其不是性能瓶颈。

大规模部署不仅减少资源碎片化,还为并行度和P/D比例调优提供更大灵活性,同时在突发在线请求场景下提供更多调度空间以缓解排队延迟。

结语:智能体推理迎来提效利器,未来或引入自适应机制

随着DualPath论文的发布,它有望为业界在处理大规模智能体推理任务时提供一个新的思路。对于正苦于KV缓存I/O压力的开发者与研究者而言,这或许是一个值得关注的方向。

不过,DeepSeek的研究团队也坦言,离线推理的工作负载高度动态,下一步需要研究更自适应和更灵活的并行度和P/D比例配置方法,例如模拟器或在线调整机制。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发利好!国产算力板块爆发,人民币升到了6.83,港股被抛弃了?

突发利好!国产算力板块爆发,人民币升到了6.83,港股被抛弃了?

看财经show
2026-02-26 17:13:06
全世界都被骗了!液态电池700Wh/kg,固态电池还有存在的必要吗?

全世界都被骗了!液态电池700Wh/kg,固态电池还有存在的必要吗?

粤语音乐喷泉
2026-02-27 12:56:36
涉及A股、港股!重要指数,调整在即!

涉及A股、港股!重要指数,调整在即!

证券时报
2026-02-27 17:55:56
已建成的高架道路是“违建” 广州环龙高速公路公司被罚款并责令退还土地

已建成的高架道路是“违建” 广州环龙高速公路公司被罚款并责令退还土地

信网
2026-02-27 14:15:22
震惊!网传河北一女子短期内嫁两次,彩礼收取58万,还是黄花闺女

震惊!网传河北一女子短期内嫁两次,彩礼收取58万,还是黄花闺女

火山詩话
2026-02-27 13:34:31
医生忠告:肺癌早期不是咽痛,而是频繁出现这3症状,小心异常

医生忠告:肺癌早期不是咽痛,而是频繁出现这3症状,小心异常

王二哥老搞笑
2026-02-27 16:30:00
从广东突然“消失”的张明池,如今换条路反而成了人生赢家!

从广东突然“消失”的张明池,如今换条路反而成了人生赢家!

林子说事
2026-02-27 12:44:44
太暖心!30万现金烧成黑渣,基层银行拒之门外?央行直接上门处理

太暖心!30万现金烧成黑渣,基层银行拒之门外?央行直接上门处理

川渝视觉
2026-02-26 16:21:37
对着干?中国管控24小时内,日本要部署导弹,特朗普背刺高市早苗

对着干?中国管控24小时内,日本要部署导弹,特朗普背刺高市早苗

纾瑶
2026-02-26 17:05:05
塔利班最高领袖在巴基斯坦空袭中丧生

塔利班最高领袖在巴基斯坦空袭中丧生

林子说事
2026-02-27 12:12:40
小杨阿姨挺怕丢掉工作的,再没有接到汪小菲电话的时候,她心不安

小杨阿姨挺怕丢掉工作的,再没有接到汪小菲电话的时候,她心不安

魔都姐姐杂谈
2026-02-25 19:24:42
开工第一天,广东人晒的不是利是,是成年人最真实的体面!

开工第一天,广东人晒的不是利是,是成年人最真实的体面!

吃货的分享
2026-02-27 01:10:51
向华强公布遗产细节,两个要求严控孙子孙女,一句话道尽苦衷

向华强公布遗产细节,两个要求严控孙子孙女,一句话道尽苦衷

李橑在北漂
2026-02-26 18:29:52
WTT大满贯!女单4强对阵出炉,张本美和强势横扫,王曼昱苦战逆转

WTT大满贯!女单4强对阵出炉,张本美和强势横扫,王曼昱苦战逆转

翰飞观事
2026-02-27 11:38:06
钱再多有啥用?56岁李富真走路东倒西歪、瘦成皮包骨,真不忍直视

钱再多有啥用?56岁李富真走路东倒西歪、瘦成皮包骨,真不忍直视

洲洲影视娱评
2026-02-27 15:07:49
李兆会的18年复仇路

李兆会的18年复仇路

诗意世界
2025-10-10 14:09:20
特朗普着急访华,苦等4天,中方终于给出回应,提了一个新要求

特朗普着急访华,苦等4天,中方终于给出回应,提了一个新要求

始于初见见
2026-02-27 03:42:13
造不出就买!260 亿吞下美国打印机巨头,珠海破解暴利垄断

造不出就买!260 亿吞下美国打印机巨头,珠海破解暴利垄断

知识TNT
2026-02-24 12:30:09
你家里有铁皮茶叶盒吗?赶紧回家找出来,作用太厉害花钱都难买!

你家里有铁皮茶叶盒吗?赶紧回家找出来,作用太厉害花钱都难买!

妙招酷
2026-02-26 23:48:36
美国提出四个条件,伊朗全部拒绝,关键时刻,美海军中将被解职

美国提出四个条件,伊朗全部拒绝,关键时刻,美海军中将被解职

咣当地球
2026-02-27 17:00:58
2026-02-27 19:20:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11269文章数 116982关注度
往期回顾 全部

科技要闻

单张不到五毛!谷歌深夜发布Nano Banana 2

头条要闻

发布"中国男篮逆转日本队"的帖子中措辞不妥 FIBA致歉

头条要闻

发布"中国男篮逆转日本队"的帖子中措辞不妥 FIBA致歉

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

继网暴谷爱凌后 美国欲没收其全部收入

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

旅游
教育
游戏
健康
公开课

旅游要闻

9天25万人次!春节期间泰国赢麻了

教育要闻

未雨绸缪?多地明确:开学不强制作业检查,不得因作业未完成处罚学生!你家寒假作业怎样了?

生化危机9:安魂曲发售即封神 在线人数评分双破纪录

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版