网易首页 > 网易号 > 正文 申请入驻

AI算力扩容的新瓶颈竟是铜缆,英伟达押注光互连

0
分享至

如果打开 Nvidia NVL72 机柜的后盖,你最先注意到的,可能不是那 72 颗 GPU,而是那超过 5,000 根同轴铜缆编织成的密网。这些铜缆总长超过 3.2 公里,是整台机柜 1.36 吨自重的主要来源。

而在机柜正中央是 9 块 NVSwitch 托盘,被上下各 9 块计算托盘夹在中间。之所以这样排列,是因为铜缆信号在 1.8 TB/s 的带宽下跑不了几英尺就开始衰减,NVSwitch 必须离每颗 GPU 尽可能近,居中是距离最短的布局。


(来源:ServeTheHome)

这台机柜浓缩了英伟达过去两年面对的核心问题:铜缆确实好用,但它给系统规模画了一条硬上限。2026 年 3 月的 GTC 上,黄仁勋宣布要用光互连把 GPU 系统从 72 颗扩展到 576 颗乃至 1,152 颗,并在一个月内向三家光学公司投了 60 亿美元。

而在两年前,他还说光互连太耗电。

铜缆的黄金时代,和它的极限

2024 年 GTC,Nvidia 第一次展示 NVL72 机柜(代号 Oberon)时,铜缆是理所当然的选择。Nvidia 网络高级副总裁 Gilad Shainer 向媒体表示:“铜是最好的连接方式,如果你能用的话。它非常便宜,功耗为零,没有任何有源组件。”


图丨NVL72(来源:Nvidia)

铜缆省下的功耗确实可观。黄仁勋在同年 GTC 主题演讲中算过一笔账:如果 NVL72 用 pluggable optics(可插拔光模块)替代铜缆,每颗 Blackwell GPU 需要配 18 个 800 Gbps 光模块,加速器端 9 个,交换机端 9 个,整套系统要多消耗约 20,000 瓦。对一台已经吃掉 120 千瓦的机柜来说,再加 20 千瓦不太切实。

铜缆还有一个不常被提及的优势:可靠性。在接近百万条链路的大规模 AI 集群里,可插拔的光模块每天可能出现数十次链路中断。铜缆是无源器件,没有激光器会老化,也没有信号处理芯片会发热,故障率低得多。

所以英伟达选铜是经过权衡的。72 颗 GPU 通过铜背板全互连,整台机柜就是一个巨大的加速器,万亿参数模型的推理速度比上一代 H100 快 30 倍。2024 年,这已经是行业能造出的最大一台机器。

但 AI 模型对 GPU 数量的需求没有停在 72 颗。

训练 ChatGPT 级别的模型需要数千颗 GPU 协同工作。NVL72 内部有 NVLink 高速互连,但多台 NVL72 之间仍然只能靠 InfiniBand 或以太网连接,带宽和延迟都差了一个量级。如果能把 500 颗甚至 1,000 颗 GPU 放进同一个 NVLink 域,让它们像一颗芯片一样通信,训练效率会大幅提升。

而铜缆挡住了这条路。信号在铜中的衰减随频率和距离急剧上升,1.8 TB/s 带宽下有效传输距离不到一米。单个机柜塞不下更多 GPU,跨机柜用铜缆又够不着。NVL72 已经把铜缆的工程做到了物理极限,再往前一步,需要换介质。最明显的替代方案就是光,但两年前黄仁勋亲手否掉了这个选项。

光从“太贵”变成“可以用”

光互连本身不是新技术,数据中心的机柜之间早就在用光纤通信。但把光互连用在 GPU 之间的 scale-up 网络上,也就是让一组 GPU 构成单一计算单元的内部互连,工程难度完全不同。

Scale-up 网络对带宽、延迟和功耗的要求远比 scale-out(机柜之间的外部网络)苛刻。2024 年英伟达评估过在 NVL72 上使用可插拔光模块的方案:单个模块功耗 10-15 瓦,看起来不多,但 72 颗 GPU 需要几百个模块,总功耗多出 20 千瓦。体积也是问题,每个模块约一包口香糖大小,几百个要占掉可观的机柜空间和散热余量。

改变这个局面的是 co-packaged optics(共封装光学,CPO)。CPO 把光引擎直接集成到交换芯片的封装里,省掉了可插拔模块的外壳、连接器和大部分信号处理电路,功耗和体积都大幅缩减。

2025 年,Nvidia 在自家的 Spectrum 以太网交换机和 Quantum InfiniBand 交换机上率先量产了 CPO,这是英伟达第一次在自己的产品线上规模验证光学互连。这次在 scale-out 网络上的部署,也为下一步把 CPO 引入 NVLink scale-up 网络积累了经验。

不过 CPO 目前仍处于早期阶段。TrendForce 的数据显示,2026 年 CPO 在 AI 数据中心光模块中的占比仅约 0.5%,但到 2030 年可能达到 35%。而英伟达选在渗透曲线刚起步的时候大举押注,所锚定的就是能定义规则的先发位置。

从 72 到 1152:铜光混合的路线图

2026 年 GTC 上,黄仁勋发布了两款新系统:Vera Rubin NVL576 和 Rosa Feynman NVL1152。前者把 8 个 NVL72 机柜用光互连组成一个 576 GPU 的计算域,后者进一步扩展到 1,152 颗。


图丨Vera Rubin NVL576(来源:DataCenterDynamics)

“有很多讨论说英伟达到底要走铜缆 scale-up 还是光学 scale-up,答案是两个都做。”黄仁勋在主题演讲中说。

具体方案分两层。据英伟达超大规模与高性能计算副总裁 Ian Buck 介绍,NVL576 的第一层网络(机柜内部 GPU 到交换机的连接)将继续使用铜缆,GPU 本身不需要改动;第二层 spine 网络(机柜与机柜之间)会换成光模块。铜缆在短距离上的低成本和高可靠继续发挥作用,光只负责铜缆物理上够不着的那段距离。

到 Feynman 一代(预计 2028 年中后期出货),Nvidia 打算走得更远。这代系统将提供 CPO 版本的 NVLink 互连,目前有两条可能的路径:一种是只在 NVSwitch 交换芯片上集成 CPO,机柜内仍用铜,代价是需要两层交换网络;另一种是在 GPU 封装上也集成 CPO,整个 NVLink 域只需一层交换网络,延迟更低。

Shainer 在 GTC 期间接受采访时拒绝透露英伟达会走哪条路,但暗示了自己的偏好:“Scale-up 网络如果不是必须,你不会想建多层的,因为你要尽量降低计算引擎之间的延迟。”单层网络意味着需要一颗端口数极高的交换芯片来直连上千颗 GPU,这在当前工艺下还做不到,但距离 Feynman 出货还有两年多时间。

另一个有意思的取舍是:Nvidia 在 Vera Rubin 这一代只对 NVL72 Oberon 机柜做光学扩展,但没有动 NVL144 Kyber 机柜。一个合理的推测是,既然光互连可以跨机柜扩展,就不需要在单机柜里硬塞 144 颗 GPU 了。把 8 个 72-GPU 机柜用光连起来,散热和供电压力都分散了。换句话说,光互连打开的不只是带宽上限,还有机柜设计上的空间。

60 亿美元锁供应链

技术路线定了,接下来的问题是谁来供货。CPO 省掉了传统光模块的大部分组件,但有一样东西省不掉:激光器。出于可靠性和可维护性的考虑,激光器通常和交换芯片分开放置,作为外部光源单独供应。谁能控制激光器的产能,谁就卡住了 CPO 大规模部署的咽喉。

2026 年 3 月,Nvidia 向 Coherent 和 Lumentum 各投资 20 亿美元,同时签下多年采购协议,锁定了优先供应权。Coherent 随后宣布将在 2026 年把磷化铟(InP)晶圆产能翻倍,扩产资金的主要来源正是英伟达的这笔投资。Lumentum 在高功率连续波激光芯片领域处于领先地位,是 CPO 外部光源的关键供应商。两笔投资瞄准的都是光学供应链上最稀缺的环节。

到了月底,Nvidia 又向 Marvell 投了 20 亿美元。这笔交易挂在 NVLink Fusion(允许第三方芯片接入 NVLink 生态的平台)名下,但联合声明里明确提到双方将合作开发硅光子技术。

Marvell 在 2026 年初刚以 32.5 亿美元收购了 Celestial AI,后者拥有一种叫做 Photonic Fabric 的光子互连技术,可以用来构建跨机柜的一致性内存网络。Nvidia 把 Marvell 拉进 NVLink Fusion 生态,Celestial AI 的光子技术大概率将在英伟达体系内落地,而不会流向竞争对手。


图丨传统 CPO 与 Photonic Fabric 的对比(来源:Celestial AI)

三笔投资合计 60 亿美元,一个月内密集完成。节奏一如英伟达过去在 HBM(高带宽内存)和 CoWoS(台积电先进封装)上的做法,趁技术拐点到来之前提前锁定稀缺产能,让竞争对手在供应端慢一拍。Futurum 的分析师把光学称为 AI 基础设施扩展的下一个瓶颈环节,而英伟达正赶在瓶颈形成之前卡住上游。

对 UALink 阵营来说,这个时间差相当不利。UALink 是 AMD、Intel、Broadcom 等公司联手推动的开放互连标准,目标是打破 NVLink 的封闭生态。但 UALink 硬件最早也要到 2026 年底才能出货,规模部署可能得等到 2027 年甚至更晚。而英伟达这边,光学供应链已经在签约、扩产、集成。等到开放标准的硬件终于量产,关键光学元件的产能可能已经被英伟达的长期协议占去了相当一部分。

不过 Shainer 至今仍然说铜是最好的连接方式。当然,前提是“如果你能用的话”。在机柜内部 GPU 到交换机的短距离连接上,铜缆依然是最经济、最可靠的方案,Vera Rubin 和 Feynman 都会继续使用铜背板。铜没有被淘汰,只是它能覆盖的范围不再够用了。

两年前黄仁勋拒绝光互连的时候,72 颗 GPU 还装得下英伟达最大的野心,但现在已经装不下了。

参考资料:

https://developer.nvidia.com/blog/nvidia-contributes-nvidia-gb200-nvl72-designs-to-open-compute-project/

https://www.theregister.com/2026/04/05/nvidia_optical_scale_up/

https://www.trendforce.com/presscenter/news/20260311-12962.html

https://newsletter.semianalysis.com/p/co-packaged-optics-cpo-book-scaling

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗官方确认:翼龙-2首次参战即被击落,海湾国家反应强烈

伊朗官方确认:翼龙-2首次参战即被击落,海湾国家反应强烈

最新声音
2026-04-06 08:32:33
“一夜涨50万元,还谈个啥?”上海二手房市场现卖家大幅跳价,买家不干了

“一夜涨50万元,还谈个啥?”上海二手房市场现卖家大幅跳价,买家不干了

上观新闻
2026-04-06 22:10:08
伊朗发动第98波行动,袭击美“的黎波里”号军舰!以空袭伊最大石化设施,打死“圣城旅”特种部队指挥官!美媒:停火“依然渺茫”

伊朗发动第98波行动,袭击美“的黎波里”号军舰!以空袭伊最大石化设施,打死“圣城旅”特种部队指挥官!美媒:停火“依然渺茫”

每日经济新闻
2026-04-06 21:04:04
警方通报:安徽6岁失联女童已确认遇害 嫌犯被抓获归案

警方通报:安徽6岁失联女童已确认遇害 嫌犯被抓获归案

闪电新闻
2026-04-06 22:54:22
争议!18岁日本新星拒绝与王楚钦握手+全程黑脸 合影时远离王楚钦

争议!18岁日本新星拒绝与王楚钦握手+全程黑脸 合影时远离王楚钦

念洲
2026-04-06 06:14:24
被薅头发是因辱骂浙江外援家人?22岁国脚:我连英语都说不明白

被薅头发是因辱骂浙江外援家人?22岁国脚:我连英语都说不明白

念洲
2026-04-06 17:30:32
上海三甲医院专家凌晨发文:1小时来了6个心梗,这一波很密集!42岁男子打球时突然胸痛,还好队友反应快

上海三甲医院专家凌晨发文:1小时来了6个心梗,这一波很密集!42岁男子打球时突然胸痛,还好队友反应快

新民晚报
2026-04-06 15:15:31
美国坠毁的运输机,到底是伊朗打下来的,还是美国人自己炸毁的?

美国坠毁的运输机,到底是伊朗打下来的,还是美国人自己炸毁的?

小萝卜丝
2026-04-06 17:14:42
蔡英文:我是台湾人并没有错,我是中国人,我受的是中国式教育

蔡英文:我是台湾人并没有错,我是中国人,我受的是中国式教育

南权先生
2026-04-06 15:19:57
无罪!无罪!无罪!这才是老百姓要的正义!

无罪!无罪!无罪!这才是老百姓要的正义!

胖胖说他不胖
2026-04-06 09:00:47
卫星图披露美军营救飞行员行动细节:行动区域布满弹坑

卫星图披露美军营救飞行员行动细节:行动区域布满弹坑

环球网资讯
2026-04-06 17:54:07
人类首次拍到月球东方海!隐藏背面38亿年,宇航员:完全超乎想象

人类首次拍到月球东方海!隐藏背面38亿年,宇航员:完全超乎想象

基斯默默
2026-04-06 21:08:53
郭艾伦直播讲述被骗千万细节:熟人以项目投资为由,诱导信任诈骗

郭艾伦直播讲述被骗千万细节:熟人以项目投资为由,诱导信任诈骗

观鱼听雨
2026-04-06 19:04:20
消息一出,学界的群聊炸开了:北大数学学院通告

消息一出,学界的群聊炸开了:北大数学学院通告

岁月有情1314
2026-04-05 22:19:00
安徽6岁失联女童确认遇害,对幼童下毒手者必须处于极刑

安徽6岁失联女童确认遇害,对幼童下毒手者必须处于极刑

胡言炫语
2026-04-06 23:49:34
伊朗称正审阅最新停火提案!外媒:美副总统万斯和伊朗外长等彻夜交流,停火协议或将立即生效,霍尔木兹海峡重新开放

伊朗称正审阅最新停火提案!外媒:美副总统万斯和伊朗外长等彻夜交流,停火协议或将立即生效,霍尔木兹海峡重新开放

每日经济新闻
2026-04-06 15:51:15
连续下跌5年还在跌,有的已跌96%,近五年跌得最惨的12只股票!

连续下跌5年还在跌,有的已跌96%,近五年跌得最惨的12只股票!

丁丁鲤史纪
2026-04-06 14:27:01
4月6日俄乌最新:拉夫罗夫猛烈抨击川普

4月6日俄乌最新:拉夫罗夫猛烈抨击川普

西楼饮月
2026-04-06 20:27:08
全是细节!多纳鲁马点球被球童偷走纸条:上面预测准确率惊人

全是细节!多纳鲁马点球被球童偷走纸条:上面预测准确率惊人

邱泽云
2026-04-06 18:28:26
研究表明:性生活越频繁,射精和勃起问题越少!

研究表明:性生活越频繁,射精和勃起问题越少!

黯泉
2026-04-05 20:40:12
2026-04-07 01:12:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16545文章数 514845关注度
往期回顾 全部

科技要闻

折叠屏iPhone要来了,富士康已在试产!

头条要闻

外媒:美国副总统万斯和伊朗外长等人彻夜交流

头条要闻

外媒:美国副总统万斯和伊朗外长等人彻夜交流

体育要闻

官方:中国女足球员邵子钦加盟本菲卡

娱乐要闻

唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜

财经要闻

史诗级暴跌"一周年" A股接下来如何走?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

手机
家居
本地
房产
公开课

手机要闻

OPPO Find X9s Pro真机现身,还有银色哈苏专业增距镜

家居要闻

温馨多元 爱的具象化

本地新闻

跟着歌声游安徽,听古村回响

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版