网易首页 > 网易号 > 正文 申请入驻

英伟达推出AI推理上下文NVMe SSD存储解决方案

0
分享至


英伟达通过推出新的推理上下文内存存储平台(ICMSP),解决了日益增长的KV缓存容量限制问题,将推理上下文标准化卸载到NVMe SSD中。这一方案在CES 2026上发布,可将GPU KV缓存扩展到基于NVMe的存储设备,并得到英伟达NVMe存储合作伙伴的支持。

KV缓存容量挑战与解决方案

在大语言模型推理过程中,KV缓存存储上下文数据,即表示模型处理输入时Token之间关系的键值对。随着推理的进行,新Token参数的生成使上下文数据不断增长,经常超出可用GPU内存容量。当较旧的条目被清除后又需要重新使用时,必须重新计算,这会增加延迟。智能体AI和长上下文工作负载通过扩大必须保留的上下文量而加剧了这个问题。ICMSP旨在通过将基于NVMe的KV缓存纳入上下文内存地址空间并在推理运行中保持持久化来缓解这一问题。

英伟达首席执行官兼创始人黄仁勋表示:"人工智能正在彻底改变整个计算堆栈,现在还包括存储。AI不再是一次性聊天机器人,而是理解物理世界、进行长期推理、以事实为基础、使用工具完成实际工作并保持短期和长期记忆的智能协作者。通过BlueField-4,英伟达及我们的软件和硬件合作伙伴正在为AI的下一个前沿重新设计存储堆栈。"

在CES演示中,他表示通过BlueField-4,机架中就有KV缓存上下文内存存储。

技术架构与管理挑战

随着AI模型扩展到数万亿参数和多步推理,它们会生成大量上下文数据,同时会有许多这样的模型同时运行。KV缓存软件ICMSP必须适用于GPU、GPU服务器以及GPU服务器机架,这些设备可能同时运行多个不同的推理工作负载。每个模型/智能体工作负载的参数集都必须被管理并提供给在正确GPU中运行的相应AI模型或智能体,随着作业调度的变化,这些可能会发生改变。这意味着存在KV缓存上下文元数据管理任务。

英伟达表示,ICMSP提升了KV缓存容量,并加速了机架级AI系统集群间的上下文共享。多轮AI智能体的持久化上下文提高了响应速度,增加了AI工厂吞吐量,并支持长上下文、多智能体推理的高效扩展。

硬件支持与性能提升

ICMSP依赖于Rubin GPU集群级缓存容量和英伟达即将推出的BlueField-4 DPU,该DPU配备Grace CPU,吞吐量可达800 Gbps。BlueField-4将提供并管理硬件加速缓存放置,以消除元数据开销、减少数据移动并确保GPU节点的安全隔离访问。英伟达的软件产品,如DOCA框架、Dynamo KV缓存卸载引擎以及包含的NIXL(英伟达推理传输库)软件,提供AI节点间KV缓存的智能加速共享。

Dynamo在内存和存储层次结构中工作,从GPU的HBM,通过GPU服务器CPU的DRAM,到直连NVMe SSD和网络化外部存储。还需要英伟达的Spectrum-X以太网,为基于RDMA的AI原生KV缓存访问提供高性能网络架构。英伟达表示,总体而言,ICMSP将提供比传统存储高5倍的功效,并实现高达5倍的每秒Token数。

合作伙伴生态与市场前景

英伟达列出了许多将在2026年下半年支持ICMSP与BlueField-4的存储合作伙伴。初始合作伙伴名单包括AIC、Cloudian、DDN、戴尔科技、HPE、日立万塔拉、IBM、Nutanix、Pure Storage、超微、VAST Data和WEKA。预计NetApp、联想和Hammerspace也将加入其中。

行业评价与技术对比

将KV缓存卸载或扩展到NVMe SSD的一般架构理念已经由多家公司实现,例如Hammerspace的Tier zero技术、VAST Data的开源VAST Undivided Attention(VUA)软件,以及WEKA的增强内存网格。戴尔也通过集成LMCache和NIXL等技术与三个存储引擎,为其PowerScale、ObjectScale和Project Lightning(私有预览)存储提供KV缓存卸载。

这些都是BlueField-3时代的产品。实际上,英伟达现在旨在为所有存储合作伙伴提供标准化的KV缓存内存扩展框架。戴尔、IBM、VAST和WEKA已经表示将支持ICMSP。WEKA的博客文章《上下文时代已经开始》解释了它将如何做到这一点以及原因。文章指出,ICMSP是"一类新的AI原生基础设施,旨在将推理上下文视为一等平台资源。这种架构方向与WEKA的增强内存网格一致,后者扩展了GPU内存以实现大规模的无限、快速、高效、可重复使用的上下文。"

WEKA产品营销副总裁Jim Sherhart表示:"应用为长期数据设计的重量级持久性、复制和元数据服务会带来不必要的开销,增加延迟和功耗,同时降低推理经济性。推理上下文仍然需要适当的控制,但它的行为不像企业数据,也不应该被强制通过企业存储语义。传统协议和数据服务引入的开销(元数据路径、小IO放大、持久性/复制默认值、在错误位置应用的多租户控制)可能将'快速上下文'变成'慢速存储'。当上下文对性能至关重要且频繁重复使用时,这种开销会立即表现为更高的尾延迟、更低的吞吐量和更差的效率。"

VAST Data表示,其存储/AI操作系统(AI OS)将在BlueField-4处理器上运行,"折叠传统存储层次,为长上下文、多轮和多智能体推理提供共享的、Pod级KV缓存和确定性访问。"

VAST全球技术联盟副总裁John Mao表示:"推理正在成为一个内存系统,而不是计算作业。获胜者不会是拥有最多原始计算能力的集群,而是能够以线速移动、共享和管理上下文的集群。连续性是新的性能前沿。如果上下文无法按需获得,GPU就会空闲,经济效益就会崩溃。通过在英伟达BlueField-4上运行VAST AI操作系统,我们正在将上下文转变为共享基础设施——默认快速,需要时策略驱动,并且在智能体AI扩展时保持可预测性。"

Q&A

Q1:ICMSP是什么?它能解决什么问题?

A:ICMSP是英伟达推出的推理上下文内存存储平台,主要解决大语言模型推理过程中KV缓存容量限制问题。它将GPU KV缓存扩展到NVMe存储设备,使上下文数据能够持久化保存,避免重复计算,降低推理延迟。

Q2:BlueField-4在ICMSP中扮演什么角色?

A:BlueField-4是英伟达即将推出的DPU,配备Grace CPU,吞吐量达800 Gbps。它为ICMSP提供硬件加速缓存放置,消除元数据开销,减少数据移动,并确保GPU节点的安全隔离访问,是整个系统的核心硬件支撑。

Q3:ICMSP能带来多大的性能提升?

A:据英伟达介绍,ICMSP能提供比传统存储高5倍的功效,并实现高达5倍的每秒Token处理数量。同时它还能提升KV缓存容量,加速集群间上下文共享,提高AI系统响应速度和吞吐量。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
绝杀北京,山东助教:面对优秀的对手,我们打得像一个团体

绝杀北京,山东助教:面对优秀的对手,我们打得像一个团体

懂球帝
2026-01-09 23:06:14
阿富汗突发恶性袭击事件:中方矿业公司遇袭致5死多人被绑

阿富汗突发恶性袭击事件:中方矿业公司遇袭致5死多人被绑

老马拉车莫少装
2026-01-10 00:00:42
曼城慌了?阿森纳冬窗最大手笔曝光,直接打乱英超争冠格局

曼城慌了?阿森纳冬窗最大手笔曝光,直接打乱英超争冠格局

奶盖熊本熊
2026-01-10 02:00:32
不到两天特朗普或下台,印度或将被征500%关税,美国收获千万石油

不到两天特朗普或下台,印度或将被征500%关税,美国收获千万石油

墨兰史书
2026-01-08 20:00:03
7战5败后终破咒!20岁林诗栋逆转张本,这才是国乒大旗模样

7战5败后终破咒!20岁林诗栋逆转张本,这才是国乒大旗模样

阿晞体育
2025-12-11 12:18:08
240年的统治,蒙古人给俄罗斯带来了什么?

240年的统治,蒙古人给俄罗斯带来了什么?

年代回忆
2026-01-04 20:31:33
朴槿惠出狱生活:住别墅,与小10岁律师为伴,如今生活安逸

朴槿惠出狱生活:住别墅,与小10岁律师为伴,如今生活安逸

策略述
2026-01-09 13:02:41
日本要分家了?日本这回是铁了心要“分家”了,连个缓冲期都不给

日本要分家了?日本这回是铁了心要“分家”了,连个缓冲期都不给

百态人间
2026-01-10 05:10:07
上海春考:6.8万家庭弃跨年,光鲜高考下的血拼真相

上海春考:6.8万家庭弃跨年,光鲜高考下的血拼真相

明德阅读
2026-01-07 19:34:13
东莞20年:亲眼目睹工厂女工的性生活,她们的孤独压抑和肆意欢歌

东莞20年:亲眼目睹工厂女工的性生活,她们的孤独压抑和肆意欢歌

农村情感故事
2025-04-06 20:07:35
广州商户遭精准打击,广州“扬尘逼迁”调查后续,又是自罚三杯!

广州商户遭精准打击,广州“扬尘逼迁”调查后续,又是自罚三杯!

你食不食油饼
2026-01-08 20:42:00
赵家班集体闭麦!闫学晶哭穷风波烧到家门口,宋晓峰直播被骂下播

赵家班集体闭麦!闫学晶哭穷风波烧到家门口,宋晓峰直播被骂下播

未曾青梅
2026-01-08 21:20:26
有钱人都往美国跑,为什么大家都在说美国的斩杀线?

有钱人都往美国跑,为什么大家都在说美国的斩杀线?

枫冷慕诗
2026-01-08 11:43:40
开播即爆!腾讯独播!大女主古装复仇!反杀套路太上头!熬夜追完

开播即爆!腾讯独播!大女主古装复仇!反杀套路太上头!熬夜追完

每一次点击
2026-01-08 15:01:03
日媒:张本已成国乒新人无法逾越的障碍 有人幻想张本松岛会师四强

日媒:张本已成国乒新人无法逾越的障碍 有人幻想张本松岛会师四强

劲爆体坛
2026-01-10 07:18:09
“价格3倍,长期空着”,网友质疑!深圳地铁:没有取消计划

“价格3倍,长期空着”,网友质疑!深圳地铁:没有取消计划

南方都市报
2026-01-09 21:09:50
郁亮35年万科生涯落幕

郁亮35年万科生涯落幕

每日经济新闻
2026-01-08 23:13:05
五十六岁的钟丽缇更加油腻了,从机场出来,150斤的体重惊呆众人

五十六岁的钟丽缇更加油腻了,从机场出来,150斤的体重惊呆众人

可乐谈情感
2026-01-08 06:28:33
1945年重庆酒局,毛主席偶遇江青前夫,握手时说了3个字,让张治中冷汗直流

1945年重庆酒局,毛主席偶遇江青前夫,握手时说了3个字,让张治中冷汗直流

历史回忆室
2026-01-05 11:05:14
侄女每次来我家都不肯进门,我偷装了针孔监控,看监控后我浑身发冷

侄女每次来我家都不肯进门,我偷装了针孔监控,看监控后我浑身发冷

罪案洞察者
2026-01-07 10:59:18
2026-01-10 08:12:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15370文章数 49684关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

媒体:日本吃下中方反制重拳后怕了 欲拉G7给自己壮胆

头条要闻

媒体:日本吃下中方反制重拳后怕了 欲拉G7给自己壮胆

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

关晓彤鹿晗风波后露面 不受影响状态佳

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

助跑三年的奇瑞 接下来是加速还是起跳?

态度原创

艺术
游戏
本地
亲子
公开课

艺术要闻

15位著名画家的女性之美:哪一张触动了你的心?

Steam 模组版本控制功能上线 / 《底特律:变人》销量破1500万

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

亲子要闻

“国学驯化”从娃娃抓起?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版