网易首页 > 网易号 > 正文 申请入驻

解读英伟达的最新GPU路线图

0
分享至

如果您希望可以时常见面,欢迎标星收藏哦~

来源:内容编译自nextplatform,谢谢。

高科技公司总是有路线图。无论他们是否向公众展示,如果他们处于早期阶段,准备在华尔街出售一些股票以赚钱(确切地说是上市),或者与有兴趣购买平台(而不仅仅是解决当前问题的点产品)的关键客户交谈,他们总是会向关键投资者展示这些路线图。

当你投资于每台机架价值数百万美元的设备时,你希望知道你购买的是一种能够在未来持续提供容量和性能改进的方法。因为如果有什么企业不喜欢的东西,那就是它在关键应用程序上遇到了性能或容量上限,不得不等待摩尔定律的出现来解决这个问题。

在芯片及其封装和系统制造难度越来越大的市场中,路线图的作用在于降低技术规划和采用的风险。出于这个原因,IT 公司(尤其是芯片制造商)不愿意公开其路线图。但有时,当风险足够高时,IT 公司别无选择,只能公开路线图,向客户和竞争对手展示未来道路上的里程碑。

当 Oracle 收购 Sun Microsystems 时,它制定了一份五年路线图,并且基本上一直沿用。当 GPU 加速计算在 2010 年起飞时,GPU 技术大会刚刚开始,与本周涌向圣何塞的 25,000 名与会者相比,与会人数少了一个数量级,Nvidia 制定了一份四年路线图,该路线图在 2013 年进行了修订,对一些功能进行了重新调整。当 AMD 想要在几年中断后重返服务器 CPU 领域时,它制定了一份持续了几年的路线图,但它只公开谈论了其芯片的N代和N+1代,就像现在一样。

Nvidia 在很大程度上拥有 AI 训练,并且如今在 AI 推理方面占有很大的份额,尤其是基础和推理模型。所以你可能会认为路线图上没有具体信息。但 Nvidia 也让世界上很多人想知道对 AI 计算的需求是否最终会减弱,或者至少会用更便宜的替代品来满足。此外,作为其最大客户的所有超大规模和云构建者也在构建自己的 CPU 和 AI 加速器;公开的路线图是为了提醒他们 Nvidia 致力于构建比他们更好的系统——并让我们都知道,这样我们就可以跟踪谁在实现他们的里程碑,谁没有。

Nvidia 的路线图非常宏大,它拥有 GPU、CPU、纵向扩展网络(用于跨 GPU 和有时 CPU 共享内存的内存原子互连)和横向扩展网络(用于更松散地将共享内存系统相互连接)。它还有 DPU,即具有本地化 CPU 和有时 GPU 处理的高级 NIC,以下路线图中未显示这些产品:

Quantum 系列 InfiniBand 交换机的容量增长也同样不尽如人意,也没有入选。对于人工智能领域来说,InfiniBand 的重要性越来越低,因为人工智能领域希望能够进一步扩展,而基于 InfiniBand 的相对扁平的网络层次结构则无法实现这种扩展。这种古老而具有竞争力的网络协议以及运行该协议的交换机将在未来许多年内用于 HPC,但大多数企业以及超大规模企业和云构建者都希望回到仅使用以太网的网络中。

X 轴上的时间有点不准确,这是故意为之。“Blackwell” B100 和 B200 GPU 加速器是去年发布的,而不是今年,第五代 NVLink 端口和第四代 NVSwitch 也是如此,它们以 1.8 TB/秒的速度驱动 NVLink 端口。“Grace” CG100 Arm 服务器处理器于 2022 年 5 月发布,并于 2023 年初开始与“Hopper” H100 GPU 加速器一起出货,然后于 2024 年底与 H200 内存扩展踢球器(Nvidia 今天可能称之为“Hopper Ultra”)一起出货。Spectrum-X 网络平台核心的 Spectrum 5 以太网交换机 ASIC 是去年推出的,但现在正在批量出货。

可以这么说,如果该路线图是谈论产品发布还是产品出货,那么它可能更加精确。其目的是让客户和投资者了解 Nvidia 产品将如何发展,以满足 Nvidia 联合创始人兼首席执行官 Jensen Huang 坚信的市场需求,因为思维链模型(通常称为推理模型)对推理的计算需求异常巨大且出乎意料,因此市场将不断扩大。

事实证明,思维更像是一位老人自言自语,而不是幼儿园小朋友脱口而出脑海中浮现的第一个答案。而且这需要的计算量至少是任何人想象的 100 倍。所以,朋友们,这种轻松的生活方式将继续下去,但方式可能与你想象的略有不同。

我们才刚刚开始研究推理模型和物理人工智能——不同类型的模型可以理解世界的物理,一旦给它们提供机器人宿主,它们就可以操纵世界上的物体。

使用 GB300 NVL72,Blackwell Ultra B300 GPU 被换入机架式系统,其机架代号为“Oberon”,具有水平计算和网络滑轨。与 B100 和 B200 一样,B300 在单个 SXM6 插槽中拥有一对受限光罩的 GPU。目前我们还没有关于这款 B300 的大量数据,但我们知道它不仅内存容量增加了 50%,而且 FP4 性能也增加了 50%,达到 15 千万亿次浮点运算(在密集矩阵上),而 B100 和 B200 为 10 千万亿次浮点运算。因此,B300 不仅仅是内存升级,而且看起来时钟速度也提高了,并且可能还增加了活动流式多处理器的数量。(我们会尽快找到答案。明天将发布架构简报。)

综上所述,GB300 NVL72(应该再次称为 GB300 NVL144,因为机架中有 144 个 GPU 芯片,黄仁勋也承认了这一点)拥有 1,100 petaflops 的密集 FP4 推理性能和 360 petaflops 的 FP8 训练性能,比目前正在出货的 GB200 NVL72 机器高出 50%。GB300 NVL72 将于 2025 年下半年上市。

用于以太网和 InfiniBand 的 ConnectX-8 SmartNIC 运行速度为 800 Gb/秒,也将于今年晚些时候推出,其速度是之前推出的 ConnectX-7 SmartNIC 中 400 Gb/秒端口的两倍。

2026 年下半年 - 大约是 GB300 NVL72 机器发货一年后 - CPU 和 GPU 都将得到巨大提升,其计算引擎以研究银河系旋转并发现宇宙充满暗物质的天文学家 Vera Rubin 的名字命名。

“Vera” CV100 Arm 处理器(我们之所以这样称呼它,是因为我们喜欢逻辑命名约定,就像 Nvidia 过去那样)将拥有 88 个定制 Arm 内核,而这一次 Nvidia 为内核添加了同步多线程,以获得 176 个线程。CPU 和与其相连的 GPU 之间的 NVLink C2C 链接将翻倍至 1.8 TB/秒,与 Blackwell GPU 上当前的 NVLink 5 端口速度相匹配。根据上图的放大图,我们强烈怀疑 Vera 芯片将具有单片核心芯片和单个 I/O 芯片。看起来 Vera CPU 的主内存将略大于 1 TB,如果我们必须猜测的话,可能是 LPDDR6。

“Rubin” R100 GPU 加速器将配备两个 SXM7 插槽中的受限 GR100 GPU,并配备 288 GB 的 HBM4 内存。因此,容量与 B300 Blackwell Ultra 相同,并且与 B300 一样拥有 8 个 HBM 堆栈。但是通过迁移到 HBM4 内存,带宽将跃升 62.5%,达到 13 TB/秒,跨越这 8 个 HBM 堆栈。

让我们深入研究其中的每一个,它们的主要特征在于其计算引擎和 GPU 加速器。

最新平台基于“Blackwell” B300 GPU(也称为 Blackwell Ultra),旨在处理超大规模 AI 推理工作负载以及 AI 训练。B300 将每个 GPU 上的 HBM3E 容量提升 50% 至 288 GB,这是通过迁移到 DRAM 芯片的十二高堆栈(路线图中为 12S)来实现的,而 B100 和 B200 使用的八高堆栈(8S)最高可达 192 GB。Blackwell 和 Blackwell Ultra GPU 中使用的 HBM3E 内存的带宽保持不变,因为堆栈数量保持不变。

在 GB200 NVL72 机架中(黄仁勋承认应该将其称为 NVL144,因为它实际上是单个 SXM6 插槽中的两个不同的 GB100 GPU 芯片),有 36 个 Grace CPU,每个有 74 个内核,每个 Grace 都有一对 B200 挂在上面,总共有 72 个 GPU。CPU 和 GPU 上的 NVLink 5 端口为这三个计算引擎提供了一个共享内存池,另一组 18 个 NVSwitch 4 交换机创建了一个共享 GPU 内存池,大部分实际的 AI 工作都在这里完成。

Rubin GPU 插槽将能够以 FP4 精度处理 50 千万亿次浮点运算——我们不知道它是否支持密集或稀疏矩阵,但我们认为它可能支持密集,因为在上面图表的其他地方,Nvidia 表示机架规模系统将以 FP4 精度进行推理,以 FP8 训练进行训练,以 1.2 千万亿次浮点运算,这是今年晚些时候推出的 GB300 NVL72 系统的 3.3 倍。这款 VR300 NVL144 系统的性能将是当前 GB200 NVL72 的 5 倍,而 GPU 芯片和 CPU 芯片的物理数量相同。

Vera-Rubin NVL144 系统中的性能将通过将 NVLink 7 端口加倍和 NVSwitch 6 交换机切换至 3.6 TB/秒来平衡。

2027 年下半年,GPU 将升级到“Rubin Ultra”,这将把四个受限于光罩的 GPU 芯片放入一个插槽中(可能称为 SXM8),该插槽拥有 100 petaflops 的 FP4 性能和 1 TB 的 HBM4E 堆叠内存。去年的路线图表明,Rubin Ultra GPU 将有 12 个 HBM4E 内存堆栈(12S),但如果您放大本文顶部的新路线图,您会看到它显示 16S,大概是 16 个内存堆栈。

人们很容易认为 Rubin Ultra GPU(大概称为 R300)中的每个 HBM4E 堆栈都将堆叠十几个 DRAM,但计算起来却行不通。但如果 DRAM 的容量为 8 GB,并且您有 16 个堆栈,并且它们有 8 个高,那么您将获得 1,024 TB 的内存。所以现在我们知道了。

命名约定中 NVL 后面的数字表示机架中有多少个 GPU 芯片,因此 576 个芯片除以每个 SXM8 插槽 4 个芯片意味着有 144 个 GPU 插槽,这是上述 GB200、GB300 和 VR200 系统的两倍。每个 CPU 插槽有两个 GPU 插槽,该架构将在一个机架中拥有 72 个节点,每对 GPU 插槽有一个 CPU 插槽,与以前一样。

Vera Rubin Ultra VR300 NVL576 系统使用代号为“Kyber”的新型液冷机架,其组件看起来就像过去的商用刀片服务器一样垂直堆叠。它看起来有八个垂直刀片托架,每个托架有 18 个刀片,我们猜测每个刀片都是一个节点。Kyber 机架的前面似乎没有任何网络,所以我们认为可能所有网络都在机架后面,而且,我们认为这可能是 Nvidia 将硅光子学放在 GPU 上并通过交换结构将它们相互连接起来的点,这将比使用铜线(如当前的 GB200 系统)更容易、更省力。但我们刚刚对 Buck 进行了视频采访,他证实,扩展网络将保留在铜线上,包括 Kyber 机架。

事情是这样的。2027 年下半年推出的 VR300 NVL576 的性能将是目前正在加速的 GB200 NVL72 系统的 21 倍。即在 FP4 精度下,AI 推理密集矩阵的每秒 15 百亿亿次浮点运算,以及 AI 训练的每秒 5 百亿亿次浮点运算。机架规模 VR300 NVL576 的机架内 144 TB HBM4E 内存的带宽为 4.6 PB/秒,并且将拥有另外 365 TB 的“快速内存”(可能是 LPDDR6)。GPU 将使用 144 个 NVSwitch 交换机通过 NVLink 7 端口进行连接,端口带宽可能翻倍至 7.2 TB/秒。该机架将配备 576 个 Rubin GR100 GPU 芯片、2,304 个内存芯片(容量为 150 TB)和 4,600 PB/秒的总带宽。它将配备 576 个 ConnectX-9 NIC(端口速率为 1.6 Tb/秒)和 72 个 BlueField DPU(代号未知)。

最后,在 2028 年,“费曼”一代 GPU 的问世将再次让一切重现。费曼 GPU 以著名而机智的物理学家理查德·费曼 (Richard Feynman) 的名字命名。费曼参与了曼哈顿计划,在量子物理学方面做出了杰出贡献,发明了纳米技术,破解了玛雅象形文字代码,还演奏了一套出色的邦戈鼓。费曼 GPU 将与 Vera CPU 和 3.2 Tb/秒 ConnectX-10 NIC、204 Tb/秒 Spectrum 7 以太网交换机以及 7.2 TB/秒 NVSwitch 8 交换机配对使用。

这就是您制定路线图的方式。

https://www.nextplatform.com/2025/03/19/nvidia-draws-gpu-system-roadmap-out-to-2028/

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4069期内容,欢迎关注。

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
31岁施工员:娶一个农村女孩,一天好日子也没有,但我乐意

31岁施工员:娶一个农村女孩,一天好日子也没有,但我乐意

施工员小天哥
2026-03-22 15:32:59
从4月1日起,银行有纸质存单的人,务必做好三手准备

从4月1日起,银行有纸质存单的人,务必做好三手准备

夜深爱杂谈
2026-03-22 23:26:27
张水华名利双收,签约3个代言并夺首冠,自豪称大家说我挺好看

张水华名利双收,签约3个代言并夺首冠,自豪称大家说我挺好看

尘语者
2026-03-22 21:15:23
万万没想到!美国跳出中东陷阱,一招洗空 30 万亿天量债务。

万万没想到!美国跳出中东陷阱,一招洗空 30 万亿天量债务。

小祁谈历史
2026-03-23 12:49:19
黄艺任重庆市人社局党组书记

黄艺任重庆市人社局党组书记

中国经济网
2026-03-23 11:59:07
教育部发布通知,幼儿园将迎来大变动,家长:幸福来得太突然!

教育部发布通知,幼儿园将迎来大变动,家长:幸福来得太突然!

另子维爱读史
2026-03-21 19:52:30
开战以来首次,以色列承认被打痛了,内塔尼亚胡度过最痛苦的一夜

开战以来首次,以色列承认被打痛了,内塔尼亚胡度过最痛苦的一夜

壹只灰鸽子
2026-03-22 11:44:23
争端升级,日本援兵已到,中方宣布封海4天,俄罗斯警告军备竞赛

争端升级,日本援兵已到,中方宣布封海4天,俄罗斯警告军备竞赛

123斯蒂芬
2026-03-23 13:54:00
为股市悬着的心,终于死了

为股市悬着的心,终于死了

金牛远望号
2026-03-20 21:00:52
上海这个区要起飞了?直达宁波,最快40分钟!中国最长跨海大桥安排上!

上海这个区要起飞了?直达宁波,最快40分钟!中国最长跨海大桥安排上!

上观新闻
2026-03-22 15:06:17
恐慌性抛售,还在大跌!现货黄金一度跌破4100美元,今天早前已连破4300、4200美元大关|金银价格

恐慌性抛售,还在大跌!现货黄金一度跌破4100美元,今天早前已连破4300、4200美元大关|金银价格

每日经济新闻
2026-03-23 16:00:04
中石化发短信提醒加油!此轮油价上涨有多离谱?

中石化发短信提醒加油!此轮油价上涨有多离谱?

热点科技
2026-03-23 13:35:25
难以置信!深圳1100套安居房,价格1.7万左右,居然只有1人选房了

难以置信!深圳1100套安居房,价格1.7万左右,居然只有1人选房了

火山詩话
2026-03-21 17:00:09
离谱又真实!伊朗空袭现场:民众山顶开心的弹吉他庆祝

离谱又真实!伊朗空袭现场:民众山顶开心的弹吉他庆祝

老马拉车莫少装
2026-03-21 11:23:41
陈亚男直播哽咽:离婚4年放不下大衣哥名气,坚持再婚要比朱家强

陈亚男直播哽咽:离婚4年放不下大衣哥名气,坚持再婚要比朱家强

未曾青梅
2026-03-21 23:48:33
一旦开战,中国若发射一枚东风41,得付出多大的代价?

一旦开战,中国若发射一枚东风41,得付出多大的代价?

小正说娱乐
2026-03-19 18:51:30
年内涨幅快归零!黄金暴跌,水贝商家:问价的人多,买的人少

年内涨幅快归零!黄金暴跌,水贝商家:问价的人多,买的人少

界面新闻
2026-03-23 14:07:57
papi酱会议室录综艺!4万成本碾压亿元S+级,把内娱遮羞布全撕了

papi酱会议室录综艺!4万成本碾压亿元S+级,把内娱遮羞布全撕了

啊呆吃瓜
2026-03-22 21:35:03
毛主席问14岁小红军:你们首长在哪?小红军回答:我就是首长

毛主席问14岁小红军:你们首长在哪?小红军回答:我就是首长

旧史新谭
2026-03-23 15:12:05
金正恩再次当选朝鲜国务委员长!新标准像正式发布

金正恩再次当选朝鲜国务委员长!新标准像正式发布

IN朝鲜
2026-03-23 12:55:54
2026-03-23 17:48:49
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
13216文章数 34854关注度
往期回顾 全部

科技要闻

裁掉2万多名员工后,扎克伯格对自己下手了

头条要闻

特朗普向伊朗发出48小时"最后通牒" 中方表态

头条要闻

特朗普向伊朗发出48小时"最后通牒" 中方表态

体育要闻

不敢放手一搏,你拿什么去争冠?

娱乐要闻

刘烨47岁生日,安娜晒全家福为其庆生

财经要闻

沪指险守3800点!真正的恐慌盘出现了?

汽车要闻

"拒绝"豪车税 新款Panamera尽享版99.8万元起精准入局

态度原创

教育
房产
旅游
本地
数码

教育要闻

教育部:抓源头管理 让专利“为转而生”

房产要闻

440亿!海南又一城城更计划曝光!TOP10房企巨头突然杀入!

旅游要闻

这里是上海|浦江郊野公园 邂逅“小王子”

本地新闻

这里是宝鸡 嫽滴很!

数码要闻

韩国Upstage宣布将分阶段部署AMD Instinct MI355显卡加速器

无障碍浏览 进入关怀版