网易首页 > 网易号 > 正文 申请入驻

英伟达震惊世界的芯片

0
分享至

公众号记得加星标⭐️,第一时间看推送不会错过。

2026年2月14日,情人节。黄仁勋、SK集团董事长崔泰源以及来自英伟达和SK海力士的约30名工程师在圣克拉拉一家名为99 Chicken的韩国炸鸡店享用炸鸡和啤酒。晚餐后,《韩国经济日报》的一名记者在店外拦住了黄仁勋,请求进行简短采访。他回答说:“有什么问题尽管问。”

以下是他说的话:

“下个月在GTC大会上,我们将发布一些足以震惊世界的芯片。我们已经准备了多款前所未见的芯片。”

“每项技术都会遇到极限,没有什么是轻而易举的。但有了像这样的团队(NVIDIA 和 SK 海力士的内存工程师携手合作),就没有什么是不可能的。”

有三件事让我印象深刻。

“多款芯片”。并非只发布一款GPU,而是同时推出多款产品。

“每项技术都在逼近极限。”这并非谦虚,而是对三大物理瓶颈的诊断:硅芯片尺寸缩小、电信号传输和内存带宽。

时机选在与SK海力士工程师共进晚餐之后。这强烈表明,存储器逻辑集成对于未来的发展至关重要。

GTC 2026 将于 3 月 16 日至 19 日在圣何塞举行。在本文中,我将根据公开信息、学术论文和供应链数据,阐述三种技术上最可信的情景以及一种长期情景。

免责声明:本文内容为基于公开数据、学术论文和行业报告的技术分析,并非投资建议。GTC 2026 的实际公告可能与本文分析有所不同,所有情景均基于作者的推测。产品规格、时间表和性能数据以制造商的官方公告为准。

首先,背景:人工智能芯片面临的三重障碍

第一道墙:内存带宽差距

特拉华大学研究团队于2025年12月发表的一篇微基准测试论文显示,B200的张量核心在FP16/FP8下的吞吐量比H200高出1.57到1.59倍。在FP4下,推理吞吐量更是提升至2.5倍。计算引擎本身也在逐代显著提升速度。

问题出在内存上。从 H100(HBM3,约 3.35 TB/s)到 B200(HBM3e,约 8 TB/s),再到 R200(HBM4,约 20.5 TB/s),GPU 的计算能力每代提升 3 到 5 倍,而内存带宽仅增长 2 到 3 倍。无论 GPU 的速度有多快,如果无法及时提供足够的数据,它就会闲置。正如我在之前的几篇文章中讨论过的,这就是我们所说的“内存墙”。

第二道墙:互连电源

Jensen本人在2025年GTC大会的主题演讲中也提到了这个数字。在一个假想的百万GPU集群中,仅可插拔收发器就会消耗数百兆瓦的功率。一个1.6Tbps的可插拔收发器大约消耗30瓦,而DSP(数字信号处理)就占了其中一半以上。互连功耗正在蚕食计算能力。

在每个通道 200 Gbps 的传输速率下,即使 PCB 板上 14 到 16 英寸的走线距离也会造成大约 22 dB 的信号损耗。为了补偿这种损耗,DSP 需要消耗额外的功耗。铜的物理限制正成为人工智能数据中心扩展的真正瓶颈。

第三道墙:LLM推理的结构性低效性

微软研究院和华盛顿大学(Splitwise)在 2023 年发表的一篇论文中阐明了一个基本事实:LLM 推理分为两个阶段:预填充(快速处理,计算密集型)和解码(生成标记,内存带宽密集型),这两个阶段对硬件的要求截然不同。如果在同一 GPU 上运行这两个阶段,则其中一个阶段会不断干扰另一个阶段。

Splitwise 的研究表明,在相同的功耗和成本预算下,将两个阶段分开可以提高 2.35 倍的吞吐量。这一理念后来成为 NVIDIA Dynamo(GTC 2025)、vLLM、SGLang 和其他主要推理框架的默认设计,并最终发展成为专用硬件:Rubin CPX。

在本文中,我将以这三个限制条件为基础,预测Jensen在 GTC 2026 上所说的“将震撼世界的芯片”是什么意思。

方案一:Rubin Ultra路线图成为现实

Rubin Ultra目前已列入NVIDIA 2027年下半年的产品路线图。它将四个GPU计算芯片集成在一个封装内,配备16个HBM4E显存堆栈(1TB),在NVFP4模式下性能可达100 PFLOPS,功耗为3600W。GTC 2026可能会带来关于产品量产时间表和系统配置的具体更新信息。


技术核心:

Rubin R200 是 NVIDIA 的首款芯片级 GPU。它采用 CoWoS-L 中介层,集成了两个台积电 N3P 计算芯片和一个 I/O 芯片。Rubin Ultra 的配置则翻倍:四个光刻胶尺寸的计算芯片、两个 I/O 芯片以及十六个 HBM4E 显存堆叠。

最大的挑战在于其巨大的尺寸。据SemiAnalysis分析,这种封装很可能采用两个在基板层连接的中介层,而不是一个跨越八个光刻掩模的单个中介层。中间的I/O芯片负责基板层两部分之间的通信。这意味着需要使用尺寸过大的ABF基板,超过了目前JEDEC封装规范规定的120mm × 120mm。

Rubin Ultra NVL576 机架(代号“Kyber”)由 144 个这样的封装组成,总共 576 个计算芯片,可提供 15 ExaFLOPS 的 FP4 运算能力,并配备 2,304 个 HBM 内存堆栈。这相当于 GB300 NVL72 性能的 14 倍。

它为何可能在2026年GTC大会上亮相:

内存供应时间表是关键因素。在2026年国际消费电子展(CES)上,SK海力士发布了全球首款48GB 16层堆叠的HBM4实体内存。此前,36GB的12层堆叠HBM4内存已展现出11.7Gbps的传输速度,并于2025年下半年投入量产。三星也在为Rubin处理器进行HBM4测试。在JEDEC于2025年4月最终确定HBM4的官方规范(2048位接口,单堆栈最高2TB/s,最高16层堆叠)后,整个行业的研发进程将显著加快。

GTC 2026 可能会公布 Rubin Ultra 的具体生产日期以及 Kyber 机架的建筑细节。不过,我个人认为,这可能还不足以成为 Jensen 之前预告的“震惊世界”的时刻。

方案二:全硅光子堆栈

在2025年GTC大会上,NVIDIA发布了两款基于硅光子技术的网络交换机:

Quantum-X (InfiniBand):预计2025年下半年发货。144个端口 × 800 Gbps = 115 Tb/s

Spectrum-X (以太网):预计2026年下半年发货。端口数量从128个到512个不等,最高传输速度可达400 Tb/s。

2026 年 3 月的 GTC 大会恰好在 Quantum-X 正式商用部署之前举行。这不仅仅是一次确认发货的机会,它还可能包括 Rubin Ultra 时代的 NVLink 光互连路线图。


技术核心:

NVIDIA 的 CPO(共封装光学器件)中的关键器件是微环调制器(MRM)。它可以直接在硅光子芯片上处理每个波长 200 Gbps 的 PAM4 调制,其尺寸比传统的马赫-曾德尔调制器小得多。

这是采用台积电的 COUPE(紧凑型通用光子引擎)工艺制造的,该工艺将电子电路(CMOS)和光子电路(PIC)集成在 3D 堆叠中,彼此之间的距离仅为几微米。

Quantum-X 开关系统 (Q3450-LD) 的组成如下:

  • Quantum-X800 开关 ASIC 采用台积电 4N 工艺,1070 亿个晶体管

  • 集成在开关专用集成电路 (ASIC) 中的可拆卸光学子组件 (OSA),共 18 个硅光子引擎。

  • 144 个端口,每个端口速率为 800 Gbps,总带宽为 115 Tb/s

  • 14.4 TFLOPS 网络内计算(夏普第四代)

  • 与可插拔设备相比,能效提高 3.5 倍,网络弹性提高 10 倍。

根据 NVIDIA 的技术博客,这项技术是自 2016 年以来与台积电合作近十年,并拥有数百项专利支持的。

目前,NVLink 协议主要依靠铜缆传输。在单个机架(例如 Rubin Ultra NVL576)内连接 144 个封装的服务器,铜缆是完全可行的。但对于 NVIDIA 的下一代平台 Feynman(预计 2028 年发布),NVLink 需要跨越多个机架进行传输。在这种距离下,铜缆的传输能力将面临物理极限。

NVIDIA 已在 2025 年 GTC 大会上宣布了交换机级别的 CPO(光纤产品)。2026 年 GTC 大会可能会公布下一步计划:NVLink 光纤架构的具体路线图,这意味着 GPU 之间的互连将从铜缆过渡到光纤。如果实现,这将完善 AI 制造过程中所有互连层(而不仅仅是交换机)都采用光纤的方案。

方案三:Rubin CPX 系统演示

Rubin CPX 是一款仅用于推理的 GPU,于 2025 年 9 月的 AI 峰会上发布。虽然它没有获得太多媒体关注,但这款产品将软件中经过验证的理念(来自 Splitwise/DistServe 的预填充-解码分解)应用到了专用芯片上。

CPX规格和设计理念:


为什么选择 GDDR7?在预填充阶段,瓶颈在于计算能力,而非内存带宽。随着序列长度的增加,计算利用率不断攀升,而内存带宽利用率却会降至个位数。最终,你却要为几乎用不到的昂贵 HBM 带宽买单。

CPX 正面解决了这种浪费问题。用 GDDR7 替换 HBM 可将内存成本降低约五分之一。用 CoWoS-S 替换 CoWoS-L 可简化封装。正如 SemiAnalysis 所说,CPX 是“一种以最小成本实现最大浮点运算性能的设计”。

关于这些数字的说明:NVIDIA 官方公布的 30 PFLOPS 数据使用的是启用自适应压缩的 NVFP4。SemiAnalysis 估计其密集 FP4 计算能力约为 20 PFLOPS,大约是 R200 密集 FP4 计算能力(约 33 PFLOPS)的 60%。相比之下,消费级 GPU(例如 RTX 5090)的计算能力通常只有数据中心级 GPU 的 20% 左右。这是一个显著的提升。

Vera Rubin NVL144 CPX 机架


  • 单个机架内包含 72 个 R200 GPU 封装(144 个计算芯片)+ 144 个 CPX GPU + 36 个 Vera CPU

  • 单机架:8 ExaFLOPS NVFP4,1.7 PB/s 带宽

  • 与 GB300 NVL72 相比,AI 推理性能提升 7.5 倍

  • 英伟达官方宣称:“每投资 1 亿美元,即可获得 50 亿美元的代币收入”。

  • 2026 年 GTC 大会上可能会出现该机架及其在 CSP 客户部署中的现场演示。

  • 更宏观的视角:推理问题无法仅靠一块通用GPU解决

CPX 的出现本身就标志着一种战略转变。NVIDIA 承认,单一的通用 GPU 无法处理所有推理工作负载。

NVIDIA 与 Groq 于 2025 年 12 月达成的协议(200 亿美元的授权 + 人才收购)也符合同样的模式。Groq 的 LPU 是一种片上 SRAM 架构,专门用于解码(令牌生成)。它完全不使用 HBM。编译器以完全确定性的方式调度数据流,从而实现超低延迟推理。正如 CPX 在预填充过程中移除 HBM 一样,Groq 在解码过程中也移除了 HBM。


目前还没有集成产品。交易完成至今还不到三个月,而芯片级集成需要数年时间。但各个环节正在逐步到位。R200负责训练和通用推理。CPX拥有预填充功能。Groq的LPU拥有解码功能。异构架构的轮廓正在逐渐清晰,其中每个推理阶段都对应着单个机架内专用的芯片。

GTC 2026 是否会公布具体的 Groq 集成路线图,目前还不得而知。但 Jensen 曾表示他准备了“多款足以震撼世界的芯片”,因此很难排除价值 200 亿美元的推理架构是其中的一部分。

方案 4(长期):在 GPU 顶部堆叠内存——3D IC

这并非关乎最终产品,但或许才是Jensen与SK海力士工程师共进晚餐的真正原因。(这部分纯属个人猜测。)


当前方案:2.5D,并排显示

H100、B200 和 R200 都采用 2.5D CoWoS 封装。GPU 芯片和 HBM 内存堆叠并排位于硅中介层上。GPU 芯片位于中心,周围环绕着六到八个 HBM 内存堆叠。这种封装方式存在三个问题:

封装尺寸。GPU和 HBM 位于同一平面,因此封装尺寸较大。Rubin Ultra 封装的尺寸更大。

中介层成本。封装成本的很大一部分来自中介层本身。这就是为什么人们常说“封装比芯片贵”。

物理距离。数据通过中间层从GPU传输到HBM需要几毫米。

未来发展方向:3D IC,垂直堆叠

SK海力士副总裁李康旭(封装开发负责人)于2025年4月在电子信息工程师学会年会上发表了演讲:

“将DRAM芯片垂直堆叠在GPU上方可能会带来颠覆性的变革。这将显著降低数据传输延迟,并提高带宽和能效。”

他将这种架构称为3D HBM,并表示SK海力士计划从HBM5代(预计2028至2029年)开始引入该架构。KED Global报道称,SK海力士正在与包括NVIDIA在内的无晶圆厂公司就“将HBM直接置于处理器之上的集成设计”进行洽谈。在此背景下,SK海力士积极招聘逻辑半导体设计师(CPU、GPU)就显得更加合理了。

如果这项技术得以实现,GPU芯片将成为基础芯片。HBM DRAM层直接堆叠在其上,中间层将被移除。GPU内存控制器到DRAM的距离将从几毫米缩短到几十微米。利用台积电的SoIC-X混合键合技术,与目前的CoWoS相比,移动单个比特的能耗将降低一到两个数量级。这不仅仅是性能的提升,它将彻底改变人工智能系统的能耗格局。

为什么这件事还没发生

散热方面,GPU功耗高达400至700瓦,并产生巨大的热量。目前,散热片直接安装在GPU顶部以散发热量。如果将DRAM放置在GPU顶部,热量必须先经过DRAM。DRAM结温限制(85°C)远低于GPU热点温度(150°C以上)。背面供电、直接液冷和微通道冷却都是潜在的解决方案,但目前尚无任何技术可以量产。

良率。所有组件在组装完成后都会进行测试。如果GPU良率为85%,八个HBM堆栈的良率为95%,则总良率为0.85 × 0.95^8 ≈ 56%。这意味着近一半的芯片是废品。已知良品芯片(KGD)测试有所帮助,但这仍然是3D集成电路面临的一项根本性经济障碍。

预计时间表


  • HBM4(2026):采用台积电N12/N5定制基板。仍为2.5D CoWoS。这是3D打印的“准备阶段”。

  • HBM4E(2026 年至 2027 年):可引入混合键合技术用于 20 层堆叠结构。仍为 2.5D。

  • HBM5(2028 年至 2029 年):SK 海力士路线图上的首个 3D HBM 尝试。与 NVIDIA 的 Feynman 时间表一致。

  • HBM6 及未来(2030 年及以后):GPU-DRAM 3D IC 走向主流。

2026 年 GTC 大会上可能出现的情况:与其说是发布成品,不如说是正式宣布英伟达与 SK 海力士联合开发 3D 芯片。詹森在 99 Chicken 的晚餐或许是发布前的协调会议。

(来源:编译自damnang2)

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4327期内容,欢迎关注。

加星标⭐️第一时间看推送

求推荐

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
集体大涨!300164,一分钟拉涨停

集体大涨!300164,一分钟拉涨停

中国基金报
2026-02-24 13:06:38
弱冷空气在广东“开工”,多地有分散性零星小雨!早晚有轻雾

弱冷空气在广东“开工”,多地有分散性零星小雨!早晚有轻雾

南方都市报
2026-02-24 11:37:04
特朗普发AI视频,化身美国冰球运动员,赤手空拳殴打加拿大运动员,圆梦“拿下加拿大”;此前特朗普称:我想让加拿大成第51个州

特朗普发AI视频,化身美国冰球运动员,赤手空拳殴打加拿大运动员,圆梦“拿下加拿大”;此前特朗普称:我想让加拿大成第51个州

大风新闻
2026-02-24 15:02:04
6.9斤烤全羊商家好评如潮,多给了6斤活羊套餐还赠送大量菜

6.9斤烤全羊商家好评如潮,多给了6斤活羊套餐还赠送大量菜

映射生活的身影
2026-02-24 12:34:56
26岁男子春节离家失联5天,山中发现外套!父亲:事前曾去奶奶坟前,手机留“遗言”

26岁男子春节离家失联5天,山中发现外套!父亲:事前曾去奶奶坟前,手机留“遗言”

红星新闻
2026-02-24 13:12:52
一场高速堵车,戳穿了3700万新能源车主“谎言”,差距一目了然

一场高速堵车,戳穿了3700万新能源车主“谎言”,差距一目了然

芭比衣橱
2026-02-24 09:41:49
北上广“牛马”,羡慕县城同学

北上广“牛马”,羡慕县城同学

蓝鲸新闻
2026-02-24 10:00:03
福布斯发布:谷爱凌收入排名第一

福布斯发布:谷爱凌收入排名第一

第一财经资讯
2026-02-24 10:49:08
全网最爱发钱老板开工刷屏!2小时破亿、5000万首单、排队交钱!这才是河南制造硬核开门红

全网最爱发钱老板开工刷屏!2小时破亿、5000万首单、排队交钱!这才是河南制造硬核开门红

极目新闻
2026-02-23 22:49:15
雷霆躺升联盟第一!马刺力克活塞豪取9连胜 文班21+17+6帽

雷霆躺升联盟第一!马刺力克活塞豪取9连胜 文班21+17+6帽

醉卧浮生
2026-02-24 10:52:51
深圳男子840万房产到手仅7万:掏空六个钱包,半生努力归零

深圳男子840万房产到手仅7万:掏空六个钱包,半生努力归零

石辰搞笑日常
2026-02-23 09:35:56
傅彪儿子近照曝光!过年和张一山聚餐,生活奢华难掩35岁满头白发

傅彪儿子近照曝光!过年和张一山聚餐,生活奢华难掩35岁满头白发

离离言几许
2026-02-24 10:04:27
法国姑娘来中国旅游,回国哭了5天,坦言法国与中国差距一目了然

法国姑娘来中国旅游,回国哭了5天,坦言法国与中国差距一目了然

带你领略快乐真谛
2026-02-23 12:11:50
2名大学生跟风打卡被困温州“魔鬼崖”!救援人员下撤途中又发现8人,包含4名儿童,未携带任何登山装备,该区域今年以来已发生2起遇险事件

2名大学生跟风打卡被困温州“魔鬼崖”!救援人员下撤途中又发现8人,包含4名儿童,未携带任何登山装备,该区域今年以来已发生2起遇险事件

扬子晚报
2026-02-24 09:38:55
不出意外!2026年3月起,房子、车子、存款或将迎来重大改变

不出意外!2026年3月起,房子、车子、存款或将迎来重大改变

财经保探长
2026-02-23 19:40:52
“土皇帝”禹作敏扬言:副总理随便当,部长以下不接待,结局如何

“土皇帝”禹作敏扬言:副总理随便当,部长以下不接待,结局如何

顾史
2026-02-23 12:28:26
雷军公布改款小米SU7新配色:赤霞红

雷军公布改款小米SU7新配色:赤霞红

界面新闻
2026-02-24 09:48:13
新加坡大满贯赛:大爆冷!头号种子2:3被淘汰,世界第2无缘八强

新加坡大满贯赛:大爆冷!头号种子2:3被淘汰,世界第2无缘八强

国乒二三事
2026-02-24 13:15:11
妈祖巡游换童后续:多人证实10岁女童无辜,17岁妈祖女孩吃相难看

妈祖巡游换童后续:多人证实10岁女童无辜,17岁妈祖女孩吃相难看

古希腊掌管松饼的神
2026-02-23 17:20:21
演员马卫军:演了大半辈子日本人,和妻儿定居日本,67岁死在日本

演员马卫军:演了大半辈子日本人,和妻儿定居日本,67岁死在日本

手工制作阿歼
2026-02-22 01:13:51
2026-02-24 15:44:49
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
13005文章数 34807关注度
往期回顾 全部

科技要闻

AI颠覆发展最新牺牲品!IBM跳水重挫超13%

头条要闻

38岁中国商人在土耳其被害 警方:遭同行女子引诱掳上车

头条要闻

38岁中国商人在土耳其被害 警方:遭同行女子引诱掳上车

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

杨洋传遇上缅北剧组 开机就离开剧组?

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

家居
时尚
旅游
本地
亲子

家居要闻

本真栖居 爱暖伴流年

今年春天一定要拥有的针织,这样穿减龄又好看!

旅游要闻

“家门口旅游”火爆,假期扩容要沿着一个方向继续努力下去|封面评论

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

亲子要闻

早孕B超大揭秘:经腹和经阴道检查到底选哪种?

无障碍浏览 进入关怀版