开启存储下一个大机会！韩媒详解黄仁勋“神秘推理上下文内存平台”|闪存|gpu|英伟达|nvidia

分享至

在1月5日的2026年国际消费电子展（CES）上，英伟达首席执行官黄仁勋发布了名为“推理上下文内存平台”（ICMS）的全新硬件，旨在解决人工智能推理阶段爆炸式增长的数据存储需求。此举标志着AI硬件架构的重心正从单纯的算力堆叠向高效的上下文存储转移，NAND闪存和SSD有望接棒HBM，成为下一个关键的增长引擎。

《韩国经济日报》在1月24日的文章中介绍，黄仁勋在演讲中展示了一个被称为“推理上下文内存平台”（Inference Context Memory Platform，简称ICMS）的神秘黑色机架。这并非普通的硬件更新，而是一个旨在解决人工智能推理阶段数据瓶颈的关键创新。记者敏锐地捕捉到，这可能是继HBM（高带宽内存）之后，存储行业的下一个爆发点。

这一平台的核心逻辑在于解决AI推理中的“KV缓存”（键值缓存）问题。随着AI从单纯的学习阶段转向大规模推理应用，数据量呈爆炸式增长，现有的GPU显存和服务器内存架构已难以满足需求。英伟达通过引入全新的数据处理单元（DPU）和海量SSD（固态硬盘），构建了一个庞大的缓存池，试图打破这一物理限制。

这一技术变革对于韩国存储巨头三星电子和SK海力士来说，无疑是一个巨大的利好消息。报道认为，随着ICMS的推广，NAND闪存将迎来类似HBM的“黄金时代”。这不仅意味着存储容量需求的激增，更预示着存储架构的根本性变革——GPU将可能绕过CPU，直接与存储设备进行高速通信。

KV缓存爆炸式增长引发存储焦虑

韩媒文章指出，黄仁勋引入ICMS技术的核心动因在于“KV缓存”的激增在AI推理时代，KV缓存是AI理解对话上下文、进行逻辑推理的关键。例如，当用户向AI询问关于G-Dragon的复杂主观问题时，AI需要调用模型内部数据和历史对话上下文（即KV缓存）进行权重分配和推理，以避免重复计算和幻觉。

随着AI从单纯的学习转向推理，以及应用场景向多模态扩展，所需处理的数据量呈现不规则且爆炸式的增长。英伟达发现，仅靠昂贵的HBM或常规DRAM已无法容纳海量的KV缓存，而现有的服务器内部存储架构在应对未来推理时代时显得捉襟见肘。因此，一种能承载海量数据且保持高效访问的专用存储平台成为刚需。

DPU驱动的9600TB巨量空间

据韩媒文章，ICMS平台的核心在于将DPU与超大容量SSD相结合。文章转述英伟达介绍，该平台采用了新的“BlueField-4”DPU，充当数据传输的“行政后勤官”，以减轻CPU负担。一个标准的ICMS机架包含16个SSD托架，每个托架配备4个DPU并管理600TB的SSD，使得单个机架的总容量达到惊人的9600TB。

这一容量远超传统GPU机架。相比之下，一套包含8个机架的VeraRubin GPU平台，其SSD总容量约为4423.68TB。黄仁勋表示，通过ICMS平台，虚拟层面上将GPU的可用内存容量从以前的1TB提升到了16TB。同时，借助BlueField-4的性能提升，该平台实现了每秒200GB的KV缓存传输速度，有效解决了大容量SSD在网络传输中的瓶颈问题。

开启NAND闪存黄金时代

文章指出，ICMS平台主要利用的是SSD，这直接利好NAND闪存制造商。过去几年，虽然AI火热，但镁光灯主要集中在HBM上，NAND闪存和SSD并没有受到同等程度的关注。

英伟达将该平台定位为介于服务器内部本地SSD和外部存储之间的“第3.5层”存储。与昂贵且耗电的DRAM相比，由高性能DPU管理的SSD具备大容量、速度快且断电不丢失数据的优势，成为存储KV缓存的理想选择。

这一架构变革直接利好三星电子和SK海力士。由于ICMS对存储密度的极高要求，市场对企业级SSD和NAND闪存的需求将大幅攀升。此外，英伟达正在推进“Storage Next”（SCADA）计划，旨在让GPU绕过CPU直接访问NAND闪存，进一步消除数据传输瓶颈。

SK海力士已迅速响应这一趋势。据报道，SK海力士副总裁金天成透露，公司正与英伟达合作开发名为“AI-N P”的原型产品，计划利用PCIe Gen 6接口，在今年年底推出支持2500万IOPS（每秒读写次数）的存储产品，并预计到2027年底将性能提升至1亿IOPS。随着各大厂商加速布局，NAND闪存和SSD有望在AI推理时代迎来量价齐升的新周期。

以下是韩媒文章全文，由AI翻译：

英伟达首席执行官黄仁勋在2026年国际消费电子展（CES）上发布了一个神秘的内存平台：“推理上下文内存平台”。今天，《科技与城市》栏目将深入探讨它究竟是什么。
关键词：KV缓存在5日（当地时间）于拉斯维加斯举行的NVIDIA Live大会上，NVIDIA首席执行官黄仁勋在演讲结尾谈到了内存平台。我不禁竖起了耳朵。这会是下一个HBM吗？

今日之星：黑色机架式 NVIDIA ICMS（推理上下文内存存储）。图片来源：NVIDIA
首席执行官黄仁勋指着的是VeraRubin人工智能计算平台一角的一个黑色机架。这个机架，也就是我们今天故事的主角，里面存放着海量的存储空间。
首先，让我解释一下黄仁勋引入这项技术的原因。我们应该从“KV缓存”说起，黄仁勋CEO在官方场合经常提到它。读者朋友们，你们可能在最近关于GPU和AI硬件的文章中已经多次听到过KV缓存这个名字。
这个关键词在AI推理时代至关重要。它关乎AI理解对话上下文和高效计算的能力。我们举个简单的例子。假设你打开OpenAI的ChatGPT或Google Gemini，问一个关于韩国流行歌手G-Dragon的问题。
如果用户问的是G-Dragon的音乐、时尚或事业等客观信息，AI可以根据它学习到的信息回答。但是，聊了一会儿之后，用户突然问：“那他为什么会成为他那个时代的‘偶像’呢？”这就好比问了一个没有明确答案的论述题。这时，AI就开始推理了。
这就是KV缓存的关键所在：键和值。首先是键。我们很容易理解，但人工智能使用键向量来清晰地识别对话上下文中问题中的“那个人”是谁，以及答案的主题和目标（键）。然后，它会利用模型内部关于G-Dragon以及在与用户对话过程中收集到的各种数据（值）的中间计算结果，进行权重分配、推理，最终得出答案。
如果没有KV缓存，如果每个问题都像第一次一样重新计算，GPU将重复两到三次工作，从而降低效率。这可能导致人工智能出现幻觉和错误答案。然而，KV缓存可以提高效率。基于“注意力计算”的推理，会重用从与用户的长时间对话中获得的各种数据并应用权重，速度更快，对话也更加自然。

图片由 NVIDIA 提供
随着人工智能行业从学习向推理转型，这种键值缓存不再仅仅是辅助存储器。此外，所需的容量也在不断增加。
首先，随着越来越多的人将生成式人工智能融入日常生活，数据量的不规则激增不可避免。随着图像和视频服务的加入，对人工智能高级推理和想象力的需求将进一步增长，数据量还将呈爆炸式增长。
随着人工智能发现新信息的能力不断提升，它会在与用户的互动过程中，在各种场景下创建大量有用的键值缓存（KV缓存）。
面对键值缓存的爆炸式增长，NVIDIA 也对 GPU 流量进行了管理。他们将 GPU 分为两类：一类是大量生成键值缓存的 GPU，另一类是使用键值缓存的 GPU。然而，存储空间不足以存储所有这些缓存。
当然，服务器内部的内存容量很大。GPU旁边是HBM内存→如果不够用，就用DRAM模块→如果实在不行，甚至会在服务器内部使用SSD固态硬盘。然而，CEO黄仁勋似乎已经意识到，这种架构在未来的推理时代将难以驾驭。因此，他在CES上发布了这款黑盒子。

NVIDIA CEO 黄仁勋在 CES 2026 上推出 ICMS。图片由 NVIDIA YouTube 提供。
DPU + 超大容量 SSD = KV 缓存存储专用团队
这台黑色服务器是“推理上下文内存平台”，简称ICMS。让我们仔细看看它的规格。
首先，驱动ICMS的设备是DPU，即数据处理单元。读者可能对GPU和CPU比较熟悉，但服务器的隐藏动力源——DPU也值得一看。

NVIDIA首席执行官黄仁勋发布了BlueField-4 DPU。图片由NVIDIA提供。
DPU（数据处理单元）就像军队中的行政后勤官。如果说CPU是连长，那么GPU就是计算突击队员。DPU负责弹药和食物的运送，甚至处理通信和移动，使CPU能够做出适当的决策，而GPU则专注于攻击。NVIDIA的新型DPU“Bluefield-4”被赋予了一项新任务：ICMS（集成内容管理系统）。现在，让我们仔细看看ICMS平台。这个机架总共包含16个SSD托架。

图片来源：NVIDIA
每个托架配备四个 DPU，每个 DPU 管理 150TB 的 SSD。这意味着一个托架总共有 600TB 的缓存 SSD。
这是一个相当大的存储容量。我们来比较一下。假设在 Blackwell GPU 服务器中，为了最大化 KV 缓存，我们在 SSD 放置区域安装了八个 3.84TB 的通用缓存 SSD。这样每台服务器就有 30.72TB 的 SSD，这意味着一个包含 18 台服务器的 GPU 机架的总 SSD 容量为 552.96TB。
也就是说，单个 ICMS 托架的缓存 SSD 容量可以超过一个 GPU“机架”所能容纳的容量。一个机架中的 SSD 总数为 600TB x 16，即 9600TB。这比一套完整的 VeraRubin 8 个 GPU 机架（4423.68TB，552.96 x 8）的 SSD 容量高出一倍多。

图片由 NVIDIA 提供
黄仁勋在CES演讲中表示：“以前GPU的内存容量为1TB，但通过这个平台，我们获得了16TB的存储容量。”
仔细想想，他的话似乎相当准确。一个完整的VeraRubin平台由八个GPU机架组成。每个机架有72个GPU，共计576张存储卡。将ICMS的总容量9600TB除以576张存储卡，得出约16.7TB。
虽然人们仍然担心服务器的物理距离和SSD的传输速度，但BlueField 4性能的提升缓解了这些问题。黄仁勋解释说：“我们实现了与之前相同的每秒200GB的KV缓存传输速度。”
此外，现有的GPU服务器存在网络瓶颈，限制了7.68TB和15.36TB等大容量SSD的充分利用。这项基于DPU的网络改进似乎正是为了解决这些问题。
被视为“零”的NAND闪存的黄金时代即将到来吗？
图片由 NVIDIA 提供
NVIDIA 将此平台划分为 3.5 个内存组。第一组是 HBM，第二组是 DRAM 模块，第三组是服务器内部的本地 SSD，第四组是服务器外部的存储。ICMS深入研究了介于第三组和第四组之间的神秘领域。与昂贵或耗电的 DRAM 不同，SSD 比硬盘速度更快、容量更大，即使断电也不会丢失数据（这得益于高性能 DPU），使其成为理想之选。
该平台显然为三星电子和 SK 海力士提供了巨大的商机。仅一个机架就能增加 9,600 TB 的容量，这意味着他们可以销售比现有 NVIDIA 机架多数倍的 NAND 闪存，而且这仅仅是按位计算。此外，这款产品的开发商是 NVIDIA，一家全球所有人工智能公司都梦寐以求的公司，因此商机更加巨大。

三星电子的服务器固态硬盘。即使人工智能时代已经到来，NAND闪存和固态硬盘的价格一直滞后，预计今年第一季度将出现大幅上涨。图片由三星电子提供。
过去三年，尽管人工智能市场发展迅猛，但NAND闪存和固态硬盘(SSD)并未受到太多关注。这主要是因为与在NAND闪存发展中发挥关键作用的HBM相比，它们的利用率较低。NVIDIA正从ICMS项目入手，筹备一个旨在进一步提升SSD利用率的项目。该项目是“Storage Next”（也称为SCADA，即Scaled Accelerated Data Access，规模化加速数据访问）计划的一部分。目前，执行AI计算的GPU将直接访问NAND闪存（SSD）来获取各种数据，而无需经过CPU等控制单元。这是一个旨在消除GPU和SSD之间瓶颈的大胆设想。SK海力士也已正式宣布正在开发AI-N P，以顺应这一趋势。 SK海力士副总裁金天成表示：“SK海力士正与NVIDIA积极开展名为‘AI-N P’的初步实验（PoC）。”
他解释说：“基于PCIe Gen 6、支持2500万IOPS（每秒输入/输出操作数）的存储原型产品有望在今年年底发布。”他还表示：“到2027年底，我们将能够生产出支持高达1亿IOPS的产品。”2500万IOPS是目前固态硬盘速度的10倍以上。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.