网易首页 > 网易号 > 正文 申请入驻

DeepSeek再发新论文,DualPath架构如何将推理吞吐量提升近2倍?

0
分享至

【TechWeb】2月27日消息,就在外界翘首期盼DeepSeek-V4大模型发布之际,DeepSeek团队再次带来了一份技术惊喜。

DeepSeek联合北京大学、清华大学发布了一篇题为《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference》的论文,提出了一种创新的推理系统架构,直指当前大语言模型在多轮Agent交互场景下的核心性能瓶颈。


论文开篇指出了一个重要趋势:LLM正在从单轮对话机器人演变为能够自主规划、调用工具、解决现实世界任务的Agentic系统。在这种新范式下,模型不再处理孤立的提示词,而是参与长达数十甚至数百轮的长期会话,上下文不断累积。

这种变化带来了全新的计算特征:高KV-Cache(键值缓存)命中率、低计算需求。论文中的数据显示,在典型的编码任务轨迹中,平均轮次达到157轮,平均上下文长度32.7K tokens,而每次追加的平均长度仅429 tokens,这意味着KV-Cache命中率高达98.7%。

这种“长上下文、短追加、多轮次”的工作负载模式,使得KV-Cache的加载效率而非计算效率成为主导性能的关键因素。

现有架构的致命弱点

当前主流的LLM推理系统普遍采用预填充-解码分离架构。在这种设计中,预填充引擎负责从分布式存储加载KV-Cache,然后传输给解码引擎进行自回归生成。

然而,论文揭示了一个严重的资源利用不平衡问题:预填充引擎的存储网络带宽成为整个系统的吞吐瓶颈,而解码引擎的存储网络带宽却基本闲置。

更令人担忧的是硬件发展趋势。论文数据显示,从NVIDIA Ampere架构到Blackwell架构,I/O与计算的比例下降了14.4倍。这意味着GPU算力增长远快于网络带宽和HBM容量的增长,导致I/O瓶颈问题日益严重。

DualPath的创新突破

面对这一挑战,DeepSeek团队提出了一个反直觉的解决方案:让KV-Cache加载不再局限于预填充引擎。

DualPath的核心洞察是:可以利用解码引擎闲置的存储带宽来加载KV-Cache,然后通过高性能RDMA计算网络传输给预填充引擎。这种“双路径加载”架构将存储I/O从单一瓶颈资源转变为全局可调度的容量池。

具体实现中,DualPath在预填充引擎和解码引擎上各分配少量DRAM作为缓冲区。当采用传统的预填充读取路径时,KV-Cache从存储加载到预填充引擎缓冲区,然后逐层传输到GPU HBM进行计算,最后传输给解码引擎。而当采用新颖的解码读取路径时,KV-Cache首先加载到解码引擎缓冲区,然后在预填充计算过程中逐层传输给预填充引擎。

实现这一设计面临三个关键挑战:

第一,细粒度数据传输。 层式预填充技术将KV-Cache分割成众多细粒度块,传输这些小块数据需要极低的开销。DualPath通过设计两种块布局(全量块和层块)来优化传输效率。

第二,流量隔离。 额外的KV-Cache传输流量可能与模型执行中的延迟敏感型集体通信产生干扰。DualPath采用CNIC中心化的数据传输方式,所有进出GPU的数据都必须通过GPU配对的计算NIC,并利用InfiniBand的虚拟通道技术实现严格的流量分级。

第三,动态负载均衡。 系统需要在线决策每条请求使用哪条加载路径。DualPath设计了两级调度算法,综合考虑存储NIC队列长度、GPU计算负载和请求特征,实现计算和网络资源的联合平衡。

推理吞吐量提升近2倍

论文在三个模型上进行了全面评估:DeepSeek-V3.2 660B、一个27B的降规模版本以及Qwen2.5-32B。

实验数据令人印象深刻:在离线批处理推理场景(如强化学习训练中的 rollout 阶段)中,DualPath相比基线系统实现了最高1.87倍的吞吐量提升。在在线服务场景中,DualPath在不违反SLO的前提下,平均提升了1.96倍的Agent每秒处理能力。

研究团队还在多达1152块GPU的规模上验证了DualPath的可扩展性。从2个预填充引擎+4个解码引擎扩展到48+96配置时,系统实现了接近线性的加速。在在线服务场景中,44+88配置实现了22倍的吞吐量提升,同时保持相似的延迟特征。

同时,论文也指出了未来工作方向:更自适应、更灵活的并行度和预填充-解码比例配置方法,以及在大规模部署中实现更低的TTFT(Time To First Token)百分位数。

在万众期待DeepSeek-V4之际,这篇论文展示了DeepSeek团队在系统层面的深厚积累。DualPath的创新不仅解决了当前Agentic LLM推理的核心瓶颈,也为未来更大规模、更复杂的多轮交互应用铺平了道路。(宜月)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
002734,直线涨停!午间突发公告:与拜耳签16亿元合同!

002734,直线涨停!午间突发公告:与拜耳签16亿元合同!

证券时报e公司
2026-02-27 13:57:44
73岁李修贤:老到认不出,住3层豪华别墅,带3个混血外孙当网红

73岁李修贤:老到认不出,住3层豪华别墅,带3个混血外孙当网红

以茶带书
2026-02-27 19:15:16
一晚上,四家上市公司公告:被立案调查

一晚上,四家上市公司公告:被立案调查

证券时报e公司
2026-02-27 21:29:34
男篮战胜日本队后的思考:周琦曾凡博张镇麟胡明轩还能进国家队吗

男篮战胜日本队后的思考:周琦曾凡博张镇麟胡明轩还能进国家队吗

姜大叔侃球
2026-02-27 10:41:56
春天,少吃苹果多吃它,一次买20斤,晒干囤起来,从春天吃到夏天

春天,少吃苹果多吃它,一次买20斤,晒干囤起来,从春天吃到夏天

阿龙美食记
2026-02-26 19:13:38
战斗打响了!哈梅内伊住所遭袭,斩首行动开始了!

战斗打响了!哈梅内伊住所遭袭,斩首行动开始了!

大嘴说天下
2026-02-26 18:37:30
不留遗产,拒绝见面,没有微信,这一次,向华强撕碎了向佑的体面

不留遗产,拒绝见面,没有微信,这一次,向华强撕碎了向佑的体面

叨唠
2026-02-26 22:49:36
围炉煮茶,为啥凉了?

围炉煮茶,为啥凉了?

放牛娃的遐想
2026-02-25 08:14:29
宗馥莉在上海高档餐厅露面,与外籍男士共进晚餐,同行女孩画面温馨

宗馥莉在上海高档餐厅露面,与外籍男士共进晚餐,同行女孩画面温馨

东方不败然多多
2026-02-25 16:20:33
中国驻以色列使馆:提醒在以中国公民密切关注安全形势变化

中国驻以色列使馆:提醒在以中国公民密切关注安全形势变化

界面新闻
2026-02-27 20:52:53
国际篮联向中国队道歉

国际篮联向中国队道歉

观察者网
2026-02-27 18:58:13
中国驻符拉迪沃斯托克总领馆:18-65岁在俄长期居留男性 须同意在俄军事单位等至少服役1年

中国驻符拉迪沃斯托克总领馆:18-65岁在俄长期居留男性 须同意在俄军事单位等至少服役1年

闪电新闻
2026-02-26 12:56:09
美国被曝已决定对伊朗发动军事打击,预计23日或24日

美国被曝已决定对伊朗发动军事打击,预计23日或24日

每日经济新闻
2026-02-23 14:21:22
向华强宣布遗产全给郭碧婷!向佐2兄弟不得继承,彻底闹翻小儿子

向华强宣布遗产全给郭碧婷!向佐2兄弟不得继承,彻底闹翻小儿子

银河史记
2026-02-26 19:12:27
最新!卫星图像显示美国11架F-22隐形战机抵达以色列!美军最大航母前往中东!伊朗拒绝向国外转移浓缩铀

最新!卫星图像显示美国11架F-22隐形战机抵达以色列!美军最大航母前往中东!伊朗拒绝向国外转移浓缩铀

每日经济新闻
2026-02-27 07:08:08
大爆冷!悄悄升至联盟第一!整个NBA看不起你们,你们却要夺冠了

大爆冷!悄悄升至联盟第一!整个NBA看不起你们,你们却要夺冠了

篮球扫地僧
2026-02-27 22:52:50
当不成总统了?日本逮捕美军士兵,特朗普下令撤侨,14国向美施压

当不成总统了?日本逮捕美军士兵,特朗普下令撤侨,14国向美施压

史智文道
2026-02-27 22:51:55
大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

墨兰史书
2026-02-27 20:05:03
63名华人被限制出境

63名华人被限制出境

以希腊之名
2026-02-27 18:26:55
3月一口气放出10部好莱坞大片?!

3月一口气放出10部好莱坞大片?!

君君电影院
2026-02-26 22:05:14
2026-02-28 00:04:49
TechWeb incentive-icons
TechWeb
做有态度的互联网资讯。
16150文章数 43066关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

东莞纯电公交大面积停运 公司5.5亿索赔"砍"至6400万

头条要闻

东莞纯电公交大面积停运 公司5.5亿索赔"砍"至6400万

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

房产
数码
手机
公开课
军事航空

房产要闻

重磅!海南“十五五”规划出炉!未来五年,方向定了!

数码要闻

蓝宝石发布黑钻、合金脉动S两款RX 9060 XT显卡,2749元起

手机要闻

华为Pura 90系列:全系首发新麒麟8系列!Ultra版本:或被砍!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国11架F-22隐形战机抵达以色列

无障碍浏览 进入关怀版