网易首页 > 网易号 > 正文 申请入驻

英伟达AI存储棋局(平台篇)——从Hopper到Vera Rubin:存储不再是配角

0
分享至


[平台级思考,存储级变革]

为突破AI推理时代的内存、通信与功耗等瓶颈,英伟达不再只聚焦于芯片本身,而是将GPU、CPU、网络、存储作为整体系统来设计。这一转变,正是从加速计算平台层面发起的。从Hopper到Blackwell再到Vera Rubin,英伟达完成从GPU单品供应商到AI系统集成商的战略蜕变,在重构存储架构的同时,重塑AI产业的价值分配逻辑与竞争格局。随着平台的迭代演进,存储从配角转变为核心支柱,定义AI加速平台性能上限、破解“内存墙”难题、支撑万亿级参数模型落地。

Hopper:聚焦芯片设计,存储向计算侧“靠拢”

Hopper以突破AI训练的算力瓶颈为核心,此时的存储优化本质是围绕算力的 “适配性升级”。AI发展的早期阶段,随着模型参数增长,为提高模型训练效率,英伟达推出采用Hopper架构的加速计算平台。H100是首款基于Hopper架构的GPU,主要聚焦算力提升,其算力FP16、FP32、FP64以及TF32性能均为前代A100的3倍,支持带宽为A100(HBM2E)的1.64倍。在Grace Hooper之前,H系列GPU主要通过PCIe接口连接CPU,存储与计算物理分离,数据无法直接共享,传输路径较长,搬运效率低。

Grace Hopper拉近存储与计算之间的距离。英伟达推出首个自研数据中心CPU——Grace CPU,并通过NVLink-C2C技术将Grace CPU与Hopper GPU融合至一个超级芯片中,大幅缩短存储与计算的距离,规避远距离传输带来的延迟损耗。此外,高带宽 NVLink-C2C上的扩展GPU内存(EGM)功能使得GPU能够高效地访问系统内存,并大幅扩展GPU可用的高效内存容量。

图1 NVLink连接的Grace Hopper超级芯片的内存访问


图片来源:NVIDIA

然而,受限于物理设计和架构约束,Grace Hopper在内存扩容上限、跨域带宽效率、多级缓存协同及大模型内存调度机制上仍存在瓶颈,难以原生适配超大模型高参数、超长上下文、超高并发的极致算力与内存需求。

Blackwell:机架级系统落地,存储从被动变主动

从Hopper到Blackwell,存储逐渐从被动变主动。Hopper初步实现了CPU与GPU的统一寻址和远距离内存访问,为存储池化提供了技术可能;而Blackwell则将这一能力真正工程化、规模化,在超级芯片的基础上,以“数据中心”为单位进行设计,推出GB200 NVL72机架系统。内存一致性延伸到所有处理器,允许CPU和GPU共享数据结构而无需显式复制。存储不再是等待调用的“仓库”,而是像一个主动参与协同工作的“共享工作台”,与计算单元紧密配合。

一方面,实现了从“芯片级”到“机架级”的架构革新。GB200 NVL72机架集成36个Grace CPU和72个Blackwell GPU,提供1.8TB/s的GPU间互连,配备了高达13.5TB的总HBM3e内存,GPU显存带宽最高支持576 TB/s,机架总互连带宽为 130TB/s。整个机架中的所有CPU和GPU内存,通过高带宽结构连接成一个巨大的统一内存池,提供了“开箱即用”的超大规模内存池系统。这大幅减少了传统模式下数据先在CPU内存中转、再复制到GPU显存的冗余拷贝过程,极大地提升了效率。

另一方面,存储从“等待调用”到“主动协同”。Blackwell引入软件定义和系统化支持,借助节点间内存交换服务(IMEX)和Compute Domains等软件层,将过去依赖硬件的直接访问和人工配置的权限控制、内存导入导出与安全隔离,变为可编程、可调度的自动化能力,实现跨节点访问显存的同时保证地址不乱,让共享权限和跨节点协同变得可编程、可调度且安全可靠。

Vera Rubin:集成五大机架,存储成为“支柱”之一

相较于Blackwell的单一机架,Vera Rubin升级为“五机架协同”,存储成为与GPU和CPU并驾齐驱的“支柱”。如果说Blackwell的GB200 NVL72机架是将计算与存储在单机架内紧密耦合,实现了存储从被动到主动的转变,那么Vera Rubin则是首次将存储以独立的机架级系统——BlueField-4 STX——纳入NVIDIA的AI超级计算机体系中,与GPU计算(Vera Rubin NVL72机架)、CPU编排(Vera CPU机架)、网络互连(Spectrum-6 SPX机架)和推理加速(Groq 3 LPX机架)共同构成了五大专用机架系统,构建了一个POD级别的异构协同超级计算机。存储的“支柱化”让AI系统的设计重心从“计算优先”转向“数据驱动”,使得计算资源专注于核心运算,而存储则全权负责数据的存储、共享、调度与加速。

Vera Rubin NVL72实现代际性能跨越,为下一代“AI工厂”的高效运转提供了坚实的底层支撑。相较于Blackwell,Vera Rubin NVL72不仅将NVFP4推理与训练算力分别大幅提升了5倍和3.5倍,更在存储方面实现性能飞跃。其LPDDR5X容量达到54TB(提升2.5倍),HBM4容量扩充至20.7TB(提升1.5倍),HBM4带宽飙升至1.6 PB/s,带来高达2.8倍的传输速率增长,配合翻倍至260 TB/s的Scale-Up带宽,极大地释放了数据吞吐潜力。

表1 Vera Rubin NVL72性能数据


数据来源:公开资料,CFM整理

BlueField-4 STX从底层重构存储层级,搭载专为KV缓存优化的CMX上下文内存存储平台。Blackwell 依赖HBM3e作为统一内存池的核心,解决了单机架内CPU与GPU 的内存一致性与数据共享问题,但仍受限于GPU显存容量与焊接式设计,难以应对万亿参数模型和超长上下文推理带来的海量KV缓存压力。Vera Rubin不仅将GPU内存升级为可插拔的HBM4,单卡容量提升至288GB,还通过独立的BlueField-4 STX存储机架,在GPU高带宽内存与传统存储之间新增CMX上下文内存存储平台。该平台将推理上下文数据从GPU显存中剥离,使得KV Cache不再被挤在昂贵的HBM和传统SSD之间,通过专属优化存储层级独立承载,解决了长期制约大模型发展的“显存墙”瓶颈。

[小结]

从Hopper到Blackwell再到Vera Rubin的迭代,英伟达通过内存池化、架构革新及存储层级重构,破解“内存墙”等瓶颈,重新定义AI时代的存储新定位,实现以存储为重要支柱的系统级重构。

[系列文章预告]

平台层面的变化,为存储架构的创新提供了土壤。在下一篇文章(机架篇)中,我们将深入Vera Rubin平台的内部,重点拆解AI原生存储机架:BlueField-4 STX,了解CMX平台具体如何运作?又对存储产生了哪些影响?敬请期待!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马斯克力挺遭欧洲封杀的电影:好莱坞不希望你看到

马斯克力挺遭欧洲封杀的电影:好莱坞不希望你看到

移光幻影
2026-06-30 08:31:30
生育率跌破1.01!比日本还低,中国人为啥再也不愿生孩子了?

生育率跌破1.01!比日本还低,中国人为啥再也不愿生孩子了?

誮惜颜a
2026-07-02 06:37:56
WTT美国大满贯:莎头组合连扳3局大逆转!国乒新增外战5胜2负

WTT美国大满贯:莎头组合连扳3局大逆转!国乒新增外战5胜2负

全言作品
2026-07-02 06:50:28
陈建斌:原以为能牵手蒋勤勤已很知足,没想到如今日子再度升级!

陈建斌:原以为能牵手蒋勤勤已很知足,没想到如今日子再度升级!

乡野小珥
2026-06-30 11:59:43
关注:2026届1270万毕业生,超七成6月底暂时还没定工作——

关注:2026届1270万毕业生,超七成6月底暂时还没定工作——

叶初七
2026-07-01 11:47:29
开拓者公布夏联名单!杨瀚森身披16号在列 预计只打一两场比赛

开拓者公布夏联名单!杨瀚森身披16号在列 预计只打一两场比赛

罗说NBA
2026-07-02 08:23:19
中方:我们得知近期俄乌双方都承受了巨大苦难,单月平民伤亡人数达战争爆发以来的峰值,令人痛心

中方:我们得知近期俄乌双方都承受了巨大苦难,单月平民伤亡人数达战争爆发以来的峰值,令人痛心

政知新媒体
2026-06-30 11:00:42
为什么老片重映难获年轻人共鸣?

为什么老片重映难获年轻人共鸣?

小眼睛小世界
2026-07-02 06:37:02
她是大家熟悉的演员,不拍戏在法国洗碗谋生,如今遭遇高温热得慌

她是大家熟悉的演员,不拍戏在法国洗碗谋生,如今遭遇高温热得慌

潋滟晴方DAY
2026-07-01 23:20:19
美国大满贯冷门不断,日本连赢四场,全是3-0,锁定一张八强门票

美国大满贯冷门不断,日本连赢四场,全是3-0,锁定一张八强门票

野渡舟山人
2026-07-01 16:53:11
74个国家免签,唯独让中国交五倍签证费,选亚运会开幕前何意味?

74个国家免签,唯独让中国交五倍签证费,选亚运会开幕前何意味?

深析古今
2026-06-30 13:54:46
小鹏MONA L03静拍:一台给足年轻人情绪价值的SUV

小鹏MONA L03静拍:一台给足年轻人情绪价值的SUV

澎湃新闻
2026-06-30 12:26:28
贵客抵达北京!不到24小时,美财长发火:全世界只有中国敢接单

贵客抵达北京!不到24小时,美财长发火:全世界只有中国敢接单

离离言几许
2026-07-02 02:22:55
按法院逻辑:河北那个女子最大的错,就是没被丈夫打死

按法院逻辑:河北那个女子最大的错,就是没被丈夫打死

迷世书童
2026-06-29 12:52:31
飞天、金鹰、白玉兰三奖大满贯的演员

飞天、金鹰、白玉兰三奖大满贯的演员

阿废冷眼观察所
2026-07-02 04:12:12
中国男篮惨败26分!3人上双,1人正负值-36堪称灾难级,体能太差

中国男篮惨败26分!3人上双,1人正负值-36堪称灾难级,体能太差

老吴说体育
2026-07-01 21:01:47
精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

深度报
2026-02-11 23:35:03
事实证明马杜罗政权垮台之后,委内瑞拉人确实更有盼头了

事实证明马杜罗政权垮台之后,委内瑞拉人确实更有盼头了

玲儿爱唱歌
2026-06-04 07:05:24
马宁代表得了十几亿中国人民吗

马宁代表得了十几亿中国人民吗

大国老记老顾
2026-07-02 07:49:31
630GB 机密文件外泄,苹果这次底裤都快没了。。。

630GB 机密文件外泄,苹果这次底裤都快没了。。。

差评XPIN
2026-07-02 04:07:13
2026-07-02 10:15:00
闪存市场 incentive-icons
闪存市场
闪存市场
2830文章数 4352关注度
往期回顾 全部

科技要闻

可灵AI上市前夜,快手想给它融30亿美元

头条要闻

父亲带9岁女儿在清华门口合影 17年后二人复刻了照片

头条要闻

父亲带9岁女儿在清华门口合影 17年后二人复刻了照片

体育要闻

世界杯硬核球迷,把自己变成了雕像

娱乐要闻

77岁牛群公证裸捐全部财产,清贫独居坚持月捐

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

同比暴涨188.4% 方程豹6月热销35607台

态度原创

教育
亲子
时尚
旅游
军事航空

教育要闻

九年义务教育可能真要变了!探索延长义务教育年限首次写入国家级五年规划

亲子要闻

趣味游戏

月入3万,时代红利砸向文科生

旅游要闻

中国之城|甘肃张掖:“蜂腰之地”山河万象

军事要闻

万斯:美伊间接会谈进展顺利

无障碍浏览 进入关怀版