![]()
AI模型越来越强,但有一个问题正在悄悄拖慢所有人的脚步,那就是推理速度跟不上模型能力的增长。
DeepSeek在2026年2月25日挂上arXiv的这篇论文,直接切入了这个最核心的痛点。论文第一作者吴永通,以及张鸣兴、靳鑫等团队成员,背后有北京大学研究人员的深度参与,而其中还有在DeepSeek实习的北大学生贡献了关键技术思路,这让这项研究在技术圈迅速引发关注。
这项名为DualPath的推理系统,瞄准的是一个听起来有点拗口、但对大模型实际运行至关重要的概念:KV缓存存储I/O瓶颈。
论文地址:https://arxiv.org/pdf/2602.21548
![]()
KV缓存是什么,为什么它成了拦路虎
要理解DualPath,先得搞清楚KV缓存是怎么回事。
大语言模型在处理对话时,需要把此前所有轮次的上下文信息以键值对的形式储存起来,方便每一步推理时调用,这就是KV缓存。
问题在于,当AI智能体的任务越来越复杂、对话轮次越来越多,KV缓存的体积会急剧膨胀,轻则几十GB,重则上百GB。NVIDIA在其官方技术博客中早已指出,KV缓存的内存管理已经成为制约大规模推理部署的核心障碍之一,这个判断在业内几乎没有争议。
现有的主流架构,通常将"预填充引擎"和"解码引擎"拆分部署,KV缓存只能从外部存储加载到预填充引擎,这导致预填充端的网络接口卡长期处于高负荷状态,而解码端的网络资源却大量闲置,整个系统严重失衡。
![]()
这就好比一条高速公路,一半车道永远堵成停车场,另一半车道永远空着,却没有人打通中间的隔离带。
DualPath的核心:把闲置的车道用起来
DualPath的思路,说起来其实并不复杂,但能想到并且真正实现它,需要对整个推理系统的架构有极深的理解。
传统方案只有一条路径:存储直接把KV缓存加载给预填充引擎。DualPath在此基础上新开了第二条路径,让KV缓存也可以先加载到解码引擎,再通过计算网络中的RDMA技术高效传输到预填充端。
RDMA是一种允许服务器之间直接访问内存的技术,延迟极低、带宽利用率极高,在高性能计算领域早有应用,但将它引入KV缓存的跨引擎传输,是DualPath的关键创新点之一。
更重要的是,DualPath还引入了一个全局调度器,动态决定某一时刻的KV缓存应该走哪条路径,根据预填充端和解码端的实时负载状态进行弹性分配,让整个系统的资源利用率大幅提升。
实测结果相当亮眼:在三个模型的真实智能体工作负载测试中,DualPath将离线推理吞吐量提升最高达1.87倍,在线服务吞吐量平均提升1.96倍,且没有违反任何服务质量约束。
近乎翻倍的吞吐量提升,意味着同样的硬件可以服务几乎两倍的用户请求,这在商业部署上的意义不言而喻。
这项技术对整个行业意味着什么
BuzzHPC的技术分析指出,2026年AI推理效率已经成为整个行业新的核心战场。随着上下文窗口越来越长、智能体任务越来越复杂,存储和内存层次结构的管理能力,将直接决定谁能在推理成本上保持竞争优势。
DualPath的价值,恰恰在于它是一个系统层面的架构创新,而不依赖于更多更贵的硬件。在英伟达芯片供应持续紧张的背景下,这种"用好现有资源"的思路,比单纯堆算力更具现实意义。
FundaAI的分析师评论认为,DeepSeek在推理系统层面的持续创新,正在形成一种独特的技术路径,用系统工程的精细化来弥补在芯片资源上的相对劣势,这既是被动应对限制的结果,也正在成为一种主动的技术积累。
值得一提的是,北大学生参与DeepSeek核心技术攻关这件事本身,也传递出一个信号:中国顶尖高校与头部AI公司之间的协同创新,正在产出真正具有国际竞争力的原创成果,而不只是追赶和复制。
当然,DualPath目前的测试依托DeepSeek自研的推理系统,能否无缝移植到更广泛的开源或商业推理框架,仍然是一个需要时间验证的开放问题。
但这一次,DeepSeek交出的答卷,再次证明了一件事:在资源约束下的极致工程创新,有时候比花钱堆硬件更值得尊敬。
作品声明:仅在头条发布,观点不代表平台立场
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.