网易首页 > 网易号 > 正文 申请入驻

DeepSeek硬核突破!DualPath破解Agent推理瓶颈,V4升级方向清晰了

0
分享至

大模型的进化正迎来关键拐点。

从单轮对话的聊天机器人,快速迭代为能自主规划、调用工具、完成百轮交互的Agent智能体,而这一转变也让底层推理架构的核心瓶颈彻底暴露——GPU算力不再是制约性能的关键,KV-Cache存储I/O带宽成为了Agent大模型落地的最大拦路虎。


就在DeepSeek V4发布前夕,DeepSeek-AI联合北大、清华团队发布了重磅研究DualPath。

DualPath通过创新的双路径架构,让Agentic大模型离线推理吞吐量最高提升1.87倍,在线服务吞吐量平均提升1.96倍,还在1152张GPU的千卡集群完成验证,为下一代模型的升级打下了坚实的技术基础。


之所以会出现如此严重的I/O瓶颈,核心源于Agent大模型的工作特性。


与传统短对话不同,Agent需要在数十甚至上百轮的环境交互中累积上下文,长度可达百万tokens,而每轮新增的有效信息仅有数百tokens,这让KV-Cache命中率普遍超过95%。

此时,GPU的大量时间并非用于计算,而是在等待从外部SSD存储中读取海量的历史KV-Cache数据。

再加上现代大模型推理普遍采用的Prefill-Decode(预填充-解码)分离架构,进一步加剧了这一矛盾,即所有KV-Cache都只能从外部存储加载到预填充节点,这导致预填充节点的存储网卡带宽被完全占满,成为系统性能的绝对瓶颈,而解码节点的存储网卡却长期处于闲置状态,算力资源被严重浪费。


同时,硬件发展的失衡也让问题雪上加霜,GPU计算力的增长速度远超网络带宽和显存容量,计算与I/O的比例严重失调,让这一瓶颈愈发突出。


DualPath的核心创新,正是抓住了解码节点带宽闲置的关键痛点,重构了KV-Cache的加载架构。

在传统的“存储→预填充节点”加载路径之外,它创新性地开辟了第二条“存储→解码节点→预填充节点”的加载通道,通过动态分配两条路径的数据流,把原本单一节点的I/O压力,转化为全局资源池化的负载分担,充分聚合所有节点的存储带宽,从根源上打破了带宽天花板。


在第一条预填充读取路径中,KV-Cache从持久化存储读入预填充节点的内存缓冲,再传输到GPU显存完成计算,最后将完整的KV-Cache传给解码节点。

而新增的解码读取路径,则让KV-Cache先读入解码节点的内存缓冲,在预填充阶段通过高速RDMA计算网络,以层级流式传输的方式传给预填充节点参与计算,整个过程中数据加载还能与模型计算无缝重叠,进一步提升效率。

当然,把这个看似直观的想法,落地到亚毫秒级延迟敏感的大模型推理系统中,需要攻克两大核心工程难题。

第一个难题是网络流量的干扰,额外的KV-Cache传输极易与模型推理中的关键集合通信冲突,拖慢推理速度。

对此DualPath设计了以计算网卡为中心的流量管理机制,让所有进出GPU的流量都强制通过计算网卡,再利用底层网络的QoS控制能力,将模型推理通信分配到占99%带宽的高优先级通道,KV-Cache传输则分配到低优先级通道,仅在计算网络的空闲间隙传输,实现了两者的完美隔离,既保证了推理延迟,又充分利用了闲置带宽。

第二个难题是动态负载均衡,面对复杂多变的请求,系统需要实时决定每条请求的读取路径,同时兼顾网卡队列长度和GPU负载。


DualPath为此打造了自适应请求调度器,将Token数量作为核心负载指标,把节点划分为过载、低读取队列、高读取队列三类,优先将任务分配给未过载且读取队列较短的节点。

同时在节点内部,还会基于时间预估机制,将执行时间相近的请求打包成批,最大程度减少GPU同步时的计算气泡,让硬件利用率达到最优。


实测数据足以印证DualPath的强悍性能。

研究团队在NVIDIA Hopper GPU集群上,基于DeepSeek-V3.2 660B、DS 27B、Qwen2.5-32B三大模型,结合真实的Agent强化学习轨迹数据集完成了全面测试。

在离线批量推理场景(如RL训练的Rollout阶段),DualPath对基线系统实现了碾压式超越,处理DeepSeek 660B模型时吞吐量最高提升1.87倍,且无论每轮追加Token长度、生成长度如何变化,都能保持稳定的性能提升,证明其彻底消除了存储网络瓶颈。


在在线服务场景中,在首字延迟≤4秒的严格SLO约束下,DualPath能支撑的请求到达率相比基线最高提升2.25倍,还能保持极低的端到端生成延迟。


而消融实验也证实,双路径加载机制和自适应调度算法,是推动性能大幅提升的核心关键。

更值得一提的是,DualPath还具备极强的大规模扩展性,在1152张GPU的千卡集群中,系统实现了近乎线性的性能扩展,调度器CPU占用还不到10个核心,完全满足生产级的部署需求。


从DualPath的技术突破中,我们也能清晰看到DeepSeek V4的核心升级方向。

首先,模型与推理系统的协同优化将进一步深化,V4大概率会内置对双路径加载的原生支持,让模型层的KV-Cache结构优化与系统层的路径调度深度融合,实现更高的带宽利用率。

其次,自适应资源配置能力会成为重点,针对不同的工作负载,系统能在线动态调整预填充/解码节点的比例,让资源分配更贴合实际需求,避免固定配置的效率浪费。

同时,KV-Cache的智能拆分加载也有望落地,将单个请求的KV-Cache拆分到两条路径并行加载,进一步挖掘I/O性能潜力。

此外,结合DeepSeek已有的稀疏注意力技术,V4还可能将模型结构优化与DualPath的系统优化结合,在降低计算量的同时减少KV-Cache数据量,形成“模型+系统”的双轮驱动。

此次DualPath的发布,不仅为Agentic大模型的推理性能突破提供了全新的解决方案,更让行业看到了大模型发展的新趋势。

当模型规模接近物理极限时,底层架构的创新与模型算法的深度协同,将成为突破性能天花板的核心关键。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本涩谷十字路口女童被恶意撞倒!日网一句撞人者“怎么看都是中国人”引爆热议…

日本涩谷十字路口女童被恶意撞倒!日网一句撞人者“怎么看都是中国人”引爆热议…

东京新青年
2026-02-27 18:33:26
欧冠1/8决赛对阵:皇马连续5年遇曼城!巴黎VS切尔西,马竞战热刺

欧冠1/8决赛对阵:皇马连续5年遇曼城!巴黎VS切尔西,马竞战热刺

我爱英超
2026-02-27 19:19:50
转发提醒!在伊朗的中国公民尽快撤离

转发提醒!在伊朗的中国公民尽快撤离

闪电新闻
2026-02-27 19:30:43
首次:乌克兰激光炮应用于战场!摧毁俄罗斯军机

首次:乌克兰激光炮应用于战场!摧毁俄罗斯军机

项鹏飞
2026-02-27 20:19:25
去政府部门借厕所,被怼“我还把你当神敬嘞”

去政府部门借厕所,被怼“我还把你当神敬嘞”

中国新闻周刊
2026-02-27 21:04:19
证监会重磅!紧急召开座谈会,利好三大板块!下周A股将加速上涨

证监会重磅!紧急召开座谈会,利好三大板块!下周A股将加速上涨

虎哥闲聊
2026-02-28 08:39:33
六位快乐的罕见病女孩相约长沙录歌:一定要见面,怕再失去我们中的任何一个

六位快乐的罕见病女孩相约长沙录歌:一定要见面,怕再失去我们中的任何一个

潇湘晨报
2026-02-27 22:17:26
大山里走出来的23岁博士研究生确诊胃癌晚期,抗癌大半年化疗十多次,目前病情暂趋稳定

大山里走出来的23岁博士研究生确诊胃癌晚期,抗癌大半年化疗十多次,目前病情暂趋稳定

红星新闻
2026-02-27 20:01:15
“手机将全面涨价”,冲上热搜

“手机将全面涨价”,冲上热搜

南方都市报
2026-02-27 14:31:12
女子回湖北婆家过年,车被妯娌砸稀烂,报警后绝不和解,结局爽了

女子回湖北婆家过年,车被妯娌砸稀烂,报警后绝不和解,结局爽了

离离言几许
2026-02-27 21:13:58
国家有难时,请交出你的黄金和美元

国家有难时,请交出你的黄金和美元

深度报
2026-02-27 21:34:36
上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

壹月情感
2026-02-27 19:45:48
2026开年第一枪:零跑A10提前锁定年轻家庭市场爆款

2026开年第一枪:零跑A10提前锁定年轻家庭市场爆款

36氪
2026-02-27 21:39:17
多国撤人、双航母就位,特朗普就伊朗问题释放最新信号

多国撤人、双航母就位,特朗普就伊朗问题释放最新信号

齐鲁壹点
2026-02-28 07:01:15
56岁潘蔚现状:做家庭主妇,离开北京和孙楠住农村大院,生活惬意

56岁潘蔚现状:做家庭主妇,离开北京和孙楠住农村大院,生活惬意

查尔菲的笔记
2026-02-27 15:15:32
永远不要向任何人,包括你的亲戚和好友,透露你真实的财务状况

永远不要向任何人,包括你的亲戚和好友,透露你真实的财务状况

流苏晚晴
2026-02-27 18:09:29
伊朗的投降王牌:只要美国松绑,出卖中国利益绝不会有半点犹豫

伊朗的投降王牌:只要美国松绑,出卖中国利益绝不会有半点犹豫

老范谈史
2026-02-28 06:45:51
男子藏身于商场通风管道内潜伏近9小时,盗走黄金首饰1885.421克、玉石手镯6个等,总价值达140万余元,案发后仅9小时被抓获

男子藏身于商场通风管道内潜伏近9小时,盗走黄金首饰1885.421克、玉石手镯6个等,总价值达140万余元,案发后仅9小时被抓获

大风新闻
2026-02-27 23:14:05
21岁男子想花200和女骑手发生关系,被警察找上门后:我给你跪下

21岁男子想花200和女骑手发生关系,被警察找上门后:我给你跪下

社会酱
2026-02-27 17:37:31
美荷两国曾同时发声,对中国独立研发的光刻机技术给予了强烈批评

美荷两国曾同时发声,对中国独立研发的光刻机技术给予了强烈批评

来科点谱
2026-02-27 07:32:59
2026-02-28 11:07:00
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
441文章数 60关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

1岁多男童春节探亲鼠药中毒 爸爸:他还没好好看过世界

头条要闻

1岁多男童春节探亲鼠药中毒 爸爸:他还没好好看过世界

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

艺术
时尚
手机
健康
军事航空

艺术要闻

这幅草书中19个字,您能一眼看懂吗?“徐娘半老”含义引热议!

被章若楠、秦岚带火的鞋子竟然是它?春天这样穿又美又气质!

手机要闻

W8市场遇冷,OPPO成功登顶,苹果排名第五

转头就晕的耳石症,能开车上班吗?

军事要闻

美国11架F-22隐形战机抵达以色列

无障碍浏览 进入关怀版