网易首页 > 网易号 > 正文 申请入驻

铜缆见顶,英伟达全面拥抱光模块

0
分享至



GPU巨头转向光互联扩容,已是必然选择。

如果你觉得英伟达GB200机架系统已经足够庞大,那CEO黄仁勋的布局才刚刚开始。在上个月的GTC大会上,这家全球市值最高的芯片企业公布了一项重磅计划:到2028年,将利用光子互联技术,把超过1000颗GPU集成到一套超大规模系统中。

英伟达也没有坐等供应链成熟。过去一个月里,这家GPU巨头已向Marvell、Coherent、Lumentum等专注于光通信与互联技术的企业投入数十亿美元,为这类系统的大规模部署做好准备。

“对于我们生态中的所有伙伴来说,我们需要更多的算力容量,”黄仁勋在GTC主题演讲中表示,“我们需要更多铜互联容量,需要更多光互联容量,需要更多共封装光学(CPO)容量。这也是我们与各方合作,为这一量级的增长打下基础的原因。”

然而,英伟达走到这一步的历程,其实早在更早之前就已开启。事实上,当OpenAI在2022年底向世界推出ChatGPT时,英伟达就已经意识到自己面临一个难题。

当时,英伟达性能最强的系统仅支持8颗GPU,而推动AI爆发的大模型,却需要数千颗GPU才能完成训练。英伟达需要更大的系统,或者至少是更快的网络,能够高效地将任务分发到数十颗芯片上。

我们最早在2023年英伟达的Grace Hopper超级芯片上看到了这一方向的尝试,但直到2024年初,完整的布局才浮出水面。同年GTC上发布的Grace Blackwell NVL72是一台功耗高达120千瓦的巨型机器,它通过搭载长达数米线缆的铜质背板,让36个节点、72颗GPU协同工作,如同一台巨型AI加速器。

英伟达网络高级副总裁吉拉德·谢纳表示,铜材是当时最顺理成章的选择。

“如果能用,铜就是最好的连接方式,”他说,“成本极低、几乎不耗电、可靠性极高,也没有有源器件。”

但铜互联并非完美。在1.8TB/s的速率下,线缆只能延伸数英尺,信号就会因GPU之间的通信而衰减。如果你曾好奇NVL72的NVSwitch为何都放在机架中央,原因就是线缆长度限制极短。铜材有限的传输距离,也迫使英伟达必须在单个机架内塞进尽可能多的GPU。

两年后的今天,英伟达正快速逼近铜互联的物理极限。如果想要搭建规模更大的GPU系统,就必须转向光互联。

可插拔光模块的难题

当黄仁勋首次展示代号Oberon的NVL72机架时,业界唯一商用可行的GPU光互联方案,只有可插拔光模块。

这类模块大小接近一包口香糖,集成了激光器、重定时器、数字信号处理单元,负责将电信号转为光信号,再转回电信号。

可插拔模块在数据中心网络中早已普及,但将其用于NVLink这类大规模计算架构,却存在一系列问题。

要达到1.8TB/s带宽,每颗Blackwell GPU需要18个800Gbps可插拔模块:加速器端9个,交换机端9个。单个模块功耗仅10–15瓦,但72颗GPU规模下,总功耗会迅速飙升。

正如黄仁勋在2024年GTC主题演讲中指出,光互联方案会额外增加约2万瓦功耗。

但自Oberon机架发布以来,行业发生了巨大变化。共封装光学(CPO) 技术取得突破,它将光引擎直接与交换ASIC集成,显著降低了功耗。

2025年,英伟达成为首批拥抱CPO的AI基础设施厂商之一,将其直接整合进Spectrum以太网与Quantum InfiniBand交换机(基于博通方案的Micas Networks也采取了类似路线)。

这大幅减少了搭建AI训练集群所需的可插拔模块数量。不过,直到近期,英伟达才开始公开讨论在NVSwitch架构中使用光互联与CPO。

NVLink走向光互联

两年前还认为光互联功耗过高的黄仁勋,在今年春季GTC上重新提及这一话题,并发布了Vera Rubin NVL576与Rosa Feynman NVL1152两款多机架系统,它们将通过光子技术,将计算域规模扩大8倍。

NVL576这个名字听起来并不陌生。事实上,在初代NVL72机架发布时,英伟达就曾预告过这一GPU数量的配置,只是据我们所知,该系统从未实际部署。英伟达也曾短暂以NVL576命名Vera Rubin Ultra Kyber机架,后来才决定不再将每一颗独立GPU裸片算作单独加速器。

除非英伟达的市场策略或路线图再次调整,真正的Vera Rubin NVL576将采用铜互联+光互联混合方案。“外界一直在讨论‘英伟达会走铜互联扩容还是光互联扩容?’——我们两者都会做。”黄仁勋在本届GTC上表示。

据英伟达超算与高性能计算副总裁伊恩·巴克介绍,网络第一层将在机架内使用铜互联,GPU无需改动;第二层骨干网络则采用可插拔模块。

目前尚不清楚英伟达具体采用何种拓扑结构,但两层胖树架构非常契合,且仅需一个机架的交换机(共72颗ASIC)作为骨干层。在光模块方案上,可插拔模块是最简单的选择,但英伟达也可能采用近封装光学(NPO),就像Lightmatter上月展示的技术。

对于Vera Rubin,英伟达仅明确在Oberon NVL72机架上支持光扩容,而非NVL144 Kyber系统。

我们尚无法确定英伟达做出这一选择的具体原因,但值得注意的是:一旦支持光扩容,就不必把所有硬件塞进单一机架。从散热与功耗角度看,支持8个机架之间的光互联扩容,显然更为合理。

Feynman世代全面走向共封装光学

真正令人期待的是英伟达Feynman世代产品,预计2028年中后期开始出货。据悉,这些系统将同时支持铜互联或共封装光NVLink互联。

英伟达对具体实现细节仍相对保密,但大致有两条技术路径。

最简单的方案是:将CPO集成到NVLink交换ASIC中,机架内部继续使用铜互联。这需要两层NVSwitch架构,以及两到三款不同ASIC:半光、全光,以及不含CPO的型号。这种方式可以让英伟达通过更换NVLink交换机托盘或增加骨干机架,灵活支持多种配置。

更具颠覆性的可能是:将CPO同时集成到交换机与GPU封装中。这几乎必然会推出多款Feynman GPU型号(带光口与不带光口),但可以将整个架构压缩为单层。谢纳在上月GTC期间接受采访时,拒绝对具体路线置评,但强调了单层计算架构的优势。

“如果可以避免,扩容架构最好不要设计多层,因为要尽可能降低计算引擎之间的延迟。”他说。

尽管将CPO集成进GPU在技术上可行,但单层NVL1152系统需要极高端口数的大型交换机。考虑到Feynman要到2028年中后期才会出货,这一目标并非不可能实现。

锁定供应链产能

无论采用哪种方案,都需要充足的激光模块供应。虽然CPO将大量光学与信号处理功能集成到封装中,但激光器通常仍独立设计,以方便维护。

这也解释了为何英伟达在上个月向两家激光巨头Coherent、Lumentum分别注资20亿美元,合计40亿美元。如果要大规模落地CPO,供应链必须提前做好准备。另一项显示英伟达正推进加速器端CPO的证据,是本周宣布对Marvell投资20亿美元。

根据合作内容,英伟达将与Marvell合作,把高速互联技术授权版NVLink Fusion集成到定制XPU中,用于英伟达Vera CPU。双方还将合作开发光I/O技术,具体细节未披露。

这家初创公司的光子互联技术,可用于搭建跨机架的一致性内存网络,对英伟达的吸引力,不亚于对Marvell大客户(包括AWS)的吸引力。众所周知,AWS是NVLink Fusion的重要客户,计划在下一代Trainium4计算集群中采用该技术。

无论如何,英伟达已经看清光互联扩容的大势。可以预见,CPO将在其未来系统设计中扮演越来越核心的角色。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山西农妇惨死田间,邻居不吃不喝躲藏6天,被抓后笑谈行凶过程

山西农妇惨死田间,邻居不吃不喝躲藏6天,被抓后笑谈行凶过程

莫地方
2026-04-28 01:10:03
【欧冠】哲凯赖什+小蜘蛛点射,马竞主场1比1阿森纳

【欧冠】哲凯赖什+小蜘蛛点射,马竞主场1比1阿森纳

体坛周报
2026-04-30 07:49:20
王近山不经请示干掉日本战地观战团,毛主席:早就听说有个王疯子

王近山不经请示干掉日本战地观战团,毛主席:早就听说有个王疯子

鹤羽说个事
2026-04-20 22:56:36
二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

云霄纪史观
2026-03-25 12:16:14
鲁超夏雨荷,被群嘲了

鲁超夏雨荷,被群嘲了

大张的自留地
2026-04-29 10:17:47
澳门的赌台,大面积关停!不是没人去,而是被“算法”割废的?

澳门的赌台,大面积关停!不是没人去,而是被“算法”割废的?

来科点谱
2026-03-01 09:37:46
十四届全国人大常委会举行第六十六次委员长会议,听取有关草案和议案审议情况汇报

十四届全国人大常委会举行第六十六次委员长会议,听取有关草案和议案审议情况汇报

澎湃新闻
2026-04-29 14:09:03
孙杨前女友郭珺上热搜!曾被称为武大女神,颜值高身材好

孙杨前女友郭珺上热搜!曾被称为武大女神,颜值高身材好

仙味少女心
2026-04-30 00:42:44
性学专家李银河说:“男人追女人,就是为了睡她”

性学专家李银河说:“男人追女人,就是为了睡她”

大秦共和国
2026-04-27 11:17:47
无限期休战!季后赛次轮报销!湖人遭遇沉重打击

无限期休战!季后赛次轮报销!湖人遭遇沉重打击

篮球教学论坛
2026-04-29 18:11:02
后续!岳阳高三水杯投毒案:施害者停课,受害者却可能无缘高考

后续!岳阳高三水杯投毒案:施害者停课,受害者却可能无缘高考

许三岁
2026-04-29 07:39:34
上海地铁冲突打架后续:老人倚老卖老,正脸被曝光,原因令人愤怒

上海地铁冲突打架后续:老人倚老卖老,正脸被曝光,原因令人愤怒

小虎新车推荐员
2026-04-30 07:11:13
突发!闻泰科技 ST !

突发!闻泰科技 ST !

EETOP半导体社区
2026-04-30 11:56:07
四强出炉 斯诺克世锦赛30日凌晨战报 13-8 13-10 中国新星+4冠王晋级

四强出炉 斯诺克世锦赛30日凌晨战报 13-8 13-10 中国新星+4冠王晋级

等等talk
2026-04-30 06:59:18
中央5台直播乒乓时间表:4月30日CCTV5+转播国乒!今日中国德比战

中央5台直播乒乓时间表:4月30日CCTV5+转播国乒!今日中国德比战

伴史缘
2026-04-30 12:13:42
网红白冰成名史:曾是发廊小哥,一条广告66万,奢侈到无法想象

网红白冰成名史:曾是发廊小哥,一条广告66万,奢侈到无法想象

叶公子
2026-04-29 14:19:53
郑裕玲:分手时把吕方赶出豪宅,如今的她,印证了周润发的那句话

郑裕玲:分手时把吕方赶出豪宅,如今的她,印证了周润发的那句话

眼底星碎
2026-03-28 10:50:42
51岁的周迅选择不修边幅不化妆,顶着一头白发

51岁的周迅选择不修边幅不化妆,顶着一头白发

小邵说剧
2026-04-28 12:14:40
14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

大鱼简科
2026-02-07 09:52:29
广东队球迷给陈海涛提建议!

广东队球迷给陈海涛提建议!

体育哲人
2026-04-29 21:31:15
2026-04-30 15:31:00
半导体产业纵横 incentive-icons
半导体产业纵横
探索IC产业无限可能。
2730文章数 1323关注度
往期回顾 全部

科技要闻

四巨头财报齐发:AI已经不只是风口

头条要闻

"上海最通透爸爸"去世 女儿:他退休20多年这辈子不亏

头条要闻

"上海最通透爸爸"去世 女儿:他退休20多年这辈子不亏

体育要闻

骑士天王山:哈登、莫布里和……施罗德?

娱乐要闻

孙杨妈妈被曝!过往言行被扒大开眼界

财经要闻

医美偷税手法曝光 借免税优惠来避税被封堵

汽车要闻

上汽一季报出炉 在低增长周期里守住基本盘

态度原创

教育
家居
亲子
时尚
军事航空

教育要闻

成都盐外发出倡议:每个家庭设立“家庭情绪日”

家居要闻

灵动实用 生活艺术场

亲子要闻

助孕人群高龄化趋势日益突出!建设生育友好型社会,妇产科专家这样说……

春季穿衣千万别太暗沉!试试蓝白配色、选基础款裤子,大方得体

军事要闻

意大利议会批准:捐赠航母给印度尼西亚

无障碍浏览 进入关怀版