网易首页 > 网易号 > 正文 申请入驻

3D封装发热、互联再次失控,英伟达又要延迟发货B200

0
分享至

路透社发文称,据《Information》周一报道,第一批搭载 Blackwell 芯片的机架已经过热,并且芯片之间的连接方式出现了故障。由于过热问题,英伟达 (NVDA.O) 的顶级客户推迟了这家人工智能芯片领导者最新“Blackwell”机架的订单。

据报道,主要客户微软 (MSFT.O)、亚马逊 (AMZN.O) 云部门、Alphabet 旗下谷歌 (GOOGL.O) 和 Meta Platforms (META.O) 已经削减了 Nvidia Blackwell GB200 机架的部分订单,这些客户每家都下了价值 100 亿美元或更多的 Blackwell 机架订单。此前英伟达首席执行官黄仁勋曾表示,该公司有望在第四财季通过 Blackwell芯片增加数十亿美元的收入。

由于互联失效原因,英伟达再次延迟了其数据中心AI芯片GB200的交付时间,导致主要合作伙伴 OpenAI 要求英伟达交付微软较早一代的 Nvidia 的“Hopper”芯片。微软最初计划在其凤凰城的一处设施中安装至少装有 5万 个 Blackwell 芯片的 GB200 机架。

此次延迟的主要原因还是在于装有最新Blackwell芯片的机架出现了过热问题,并且芯片之间的互联也存在故障。Blackwell芯片作为英伟达在AI领域的重要布局,一直备受业界关注。然而,新技术的引入往往伴随着一系列的技术挑战和测试难题。据The Information透露,英伟达在测试过程中发现,装有Blackwell芯片的机架在运行时出现了过热现象,这不仅可能影响芯片的性能表现,还可能对机架的其他部件造成损害。

此外,芯片之间的互联故障也是导致交付延迟的另一个重要原因。在高性能计算领域,芯片之间的高效互联是确保系统整体性能的关键。一旦互联出现问题,将严重影响数据的传输速度和系统的稳定性。

根据资料介绍,一个GB200包含一颗Grace 72核的ARM CPU和2颗Blackwell GPU,对应的功耗为 2700W。芯片之间采用台积电的CoSoW 3D堆叠封装封装技术,先把2颗Blackwell GPU通过RDL再布线层缝合在一起,然后再与Grace 72核的ARM CPU和其它元器件封装在整个硅晶圆上。

此前GB200就曾出现过互联失效现象,据英伟达自己的解释,是因为再布线层的各个引组间的电阻不相同,在高速数据传输与校验时,芯片出现互联信号失真现象,导致GB200不能正常工作。当时英伟达与台积电都表示,会通过修改RDL的再布线层与周边元器件的设计,来完善两颗芯片间的数据联接,让整个系统可以高效运行。英伟达黄仁勋先生此前否认了是因为芯片过热导致互联失效。

不过显然英伟达到台积电并没有通过重新设计,完全解决整个系统互联失效难题,但具体是什么原因导致了更新后的GB200芯片系统还会出现互联失效,可能要等英伟达和台积电的工程师继续测试分析,才能得到真正的结果。

上一次GB200失效,让行业对以玻璃基板来替代现在的RDL再布线层抱有了极大的期望,认为这样可以解决热管理失效导致的互联失效难题问题,台积电与英伟达也公开表示未来会支持玻璃基板封装技术。此次英伟达与台积电要是再解决不了现有工艺的GB200热管理失效与互联失效难题,后续会不会转为尝试采用玻璃基板来解决,也还有待观察。

一个完整的GB200系统拥有 36 个 GB200 Superchip,其中包括 72 个 Blackwell GPU 和 36 个 Grace CPU,它们通过第五代 NVLink 互连。单个rack内部包括18个Compute tray(上10下8)和9个Switch tray,机柜内Computetray和Switch tray之间通过Copper Cable Cartridge相连。据悉单颗GB200售价约7万美元,一台42U服务器将高达300万美元,约合2166万人民币。

英伟达此前在GTC大会上也晒出了关于GB200的样机,采用的液冷散热架构,现场看到英伟达GB200的液冷机架方案是由鴻海(Foxconn)的子公司鸿佰提供。另外联想、华硕也推出了相关的液冷机架解决方案。

据旭日大数据了解,英伟达的AI芯片在3D堆叠封装中有下面这些难点:一是RDL再布线层与各个主控芯片间的联连可靠性、电性能平衡处理、信号互联处理等难题,二是TSV硅穿孔联接的高速HMB内存模块与硅基板之间的混和键合稳定性难题,三星主控芯片与硅基板之间的金属层键合难题。

由于主控芯片与硅基板之间的金属层键合工艺,从材料到工艺参数全部只有台积电掌握,同时台积电还有专有的CoSoW 3D堆叠封装工艺,所以英伟达的AI芯片每一代都是由台积电代工。

由于上面这些工艺在上几代的AI芯片中得到了验证,因此出现问题的机率较小。所以目前英伟达、台积电,以及关心英伟达AI芯片发展的业内人士,都把目光放到了GB200首次采用的,利用RDL中间层来把两颗Blackwell GPU缝合在一起的工艺上。

不过事实上也不排除用RDL中间层来把两颗Blackwell GPU缝合在一起的工艺引入,造成了整个3D堆叠互连技术的工艺差异性被放大,从而让里面的各个小CHIP芯片之间的信号传输数据,得不到有效的验证与放行,从而出现整个GB200系统互联失效。

据行业人士传回的消息显示,GB200两次跳票,确实让一些行业客户对这颗芯片的接受程度有所降低,一些行业大客户隐约的对外界表示,可以会期待英伟达在解决好GB200的工艺稳定性之后,直接下单工艺成熟后的英伟达下一代GB300的芯片,GB300芯片据英伟达自己声称可以大幅度降低AI的单位运算成本,并将于今年底上市。

事件回顾:

日期:2025年1月14日

新闻:据多家外媒报道,GPU制造商英伟达再次推迟其数据中心AI芯片GB200的交付时间。

延迟原因:

过热问题:装有最新Blackwell芯片的机架在运行时出现过热现象,影响了芯片性能和机架其他部件。

芯片互联故障:Blackwell芯片之间的互联出现了问题,这在高性能计算中是系统整体性能的关键点。

Blackwell芯片背景:

重要性:作为英伟达在AI领域的战略产品,Blackwell芯片一直备受关注,但其新技术也带来了诸多挑战。

技术挑战:英伟达在测试中发现了上述问题,对芯片的性能和稳定性产生了影响。

GB200技术细节:

配置:每个GB200包含一颗72核的Grace ARM CPU和两颗Blackwell GPU,功耗为2700W。

封装技术:采用台积电的CoSoW 3D堆叠封装技术,通过RDL再布线层将两颗Blackwell GPU缝合在一起,然后与Grace CPU和其他元件共封装在硅晶圆上。

历史问题:之前GB200也曾因再布线层引组间电阻不均导致过热和互联信号失真,英伟达和台积电曾尝试通过设计调整来解决,但显然问题并未完全解决。

目前挑战:

未解决问题:此次重新设计后,GB200系统仍面临过热和互联失效的问题,需要进一步的测试分析来确定原因。

未来展望:有观点认为可以采用玻璃基板来替代RDL再布线层解决热失效问题,英伟达和台积电也表示将支持这一技术。

系统规格:

完整系统:一个GB200系统包含36个GB200 Superchip(共72个Blackwell GPU和36个Grace CPU),通过第五代NVLink互连。

机架设计:单个机架内有18个计算托盘和9个交换托盘,通过铜缆连接。

价格:单颗GB200售价约7万美元,一台42U服务器价格高达300万美元,约合人民币2166万元。

英伟达的应对:

液冷方案:在GTC大会上,英伟达展示了GB200的液冷散热样机,由鸿海子公司鸿佰提供。

市场影响:尽管技术问题频出,英伟达在AI芯片市场依然占据近90%的份额,客户仍在争抢GB200系统的市场先机。

尽管面临技术问题,但NVIDIA的AI芯片需求依然强劲,全球近90%的市场仍由其控制。NVIDIA表示:目前客户正在抢占GB200系统的市场先机,依然对未来的市场表现持乐观态度。随着技术问题的逐步解决,英伟达有望继续巩固其在AI芯片市场的领先地位。

免责声明:图文源自互联网或AI,仅为分享行业发展动态,不作任何商业用途,如有侵权,请联系删除。内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

声明:取材网络,谨慎辨别

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
奥巴马8年构陷特朗普“通俄叛国”,5月8日被美情报部门实锤叛国

奥巴马8年构陷特朗普“通俄叛国”,5月8日被美情报部门实锤叛国

阿七说史
2026-05-11 15:25:42
梁靖崑:幸福喽!明星老婆特意去伦敦见证夺冠,离婚复婚后超宠妻

梁靖崑:幸福喽!明星老婆特意去伦敦见证夺冠,离婚复婚后超宠妻

阿雹娱乐
2026-05-12 13:23:45
拼尽全力为日本出战反被骂?日本舆论连夜反转,张本智和沦为笑话

拼尽全力为日本出战反被骂?日本舆论连夜反转,张本智和沦为笑话

阿绐聊社会
2026-05-12 14:18:14
梁靖崑发文总结世乒赛,王皓暖心喊“梁教授”,梁靖崑现为北京电影学院体育教研室副教授

梁靖崑发文总结世乒赛,王皓暖心喊“梁教授”,梁靖崑现为北京电影学院体育教研室副教授

大象新闻
2026-05-12 14:46:31
青海17岁女学生溺亡!主动去的桥边,知情人曝猛料,恐不止是意外

青海17岁女学生溺亡!主动去的桥边,知情人曝猛料,恐不止是意外

今日搞笑分享
2026-05-12 11:34:56
暴涨超5000%!存储巨头闪迪,泡沫已至

暴涨超5000%!存储巨头闪迪,泡沫已至

侃见财经
2026-05-12 09:03:09
北京天坛公园通告:5月13日至14日暂停开放

北京天坛公园通告:5月13日至14日暂停开放

鲁中晨报
2026-05-12 09:58:04
瞒天过海,乌军奇袭俄军指挥部,克宫宣布亚美尼亚背叛组织

瞒天过海,乌军奇袭俄军指挥部,克宫宣布亚美尼亚背叛组织

史政先锋
2026-05-11 20:21:08
比亚迪新车,5月18日正式上市!

比亚迪新车,5月18日正式上市!

新浪财经
2026-05-11 07:52:04
女孩因为有痔疮,迟迟不敢跟男朋友结婚,痔疮味道真的很大?

女孩因为有痔疮,迟迟不敢跟男朋友结婚,痔疮味道真的很大?

夜深爱杂谈
2026-04-25 21:43:02
河南一幼儿园用依云矿泉水蒸饭引争议

河南一幼儿园用依云矿泉水蒸饭引争议

黄河新闻网吕梁
2026-05-11 15:23:41
史无前例!日本拟正式定调:中国是“威胁”,安保政策彻底变天!

史无前例!日本拟正式定调:中国是“威胁”,安保政策彻底变天!

阿离家居
2026-05-12 13:40:36
退休后和老伴在深圳住了30天,我发现:深圳人,和我们真的不一样

退休后和老伴在深圳住了30天,我发现:深圳人,和我们真的不一样

原广工业
2026-05-12 12:34:35
生死战前广东连放3颗炸弹:G3裁判部调整,国青双核出战,徐昕签下大合同

生死战前广东连放3颗炸弹:G3裁判部调整,国青双核出战,徐昕签下大合同

星Xin辰大海
2026-05-12 08:52:03
小玥儿开社交账号关注徐家人,点赞大S具俊晔旧照,汪小菲尴尬了

小玥儿开社交账号关注徐家人,点赞大S具俊晔旧照,汪小菲尴尬了

金风说
2026-05-12 15:00:48
央视首次披露,歼10CE干掉阵风当天,中方团队其实就在现场!

央视首次披露,歼10CE干掉阵风当天,中方团队其实就在现场!

锅锅爱历史
2026-05-12 00:30:50
全城75万人围观!巴萨夺冠巡游:5小时狂欢 疯狂嘲讽皇马

全城75万人围观!巴萨夺冠巡游:5小时狂欢 疯狂嘲讽皇马

叶青足球世界
2026-05-12 08:37:17
这一次,被韩媒愤怒批评的张本智和,终究是为父母的荒唐买了单

这一次,被韩媒愤怒批评的张本智和,终究是为父母的荒唐买了单

圆梦的小老头
2026-04-23 12:00:21
刘嘉玲默许梁朝伟在岛国养私生子 !?

刘嘉玲默许梁朝伟在岛国养私生子 !?

八卦疯叔
2026-05-12 10:10:13
梦鸽李天一赴美不归?看到85岁李双江“现状”,原来杨洪基没说谎

梦鸽李天一赴美不归?看到85岁李双江“现状”,原来杨洪基没说谎

阿纂看事
2024-11-05 11:54:58
2026-05-12 16:16:49
一米光学
一米光学
更快,更好,更专业的分享光学资讯。
2039文章数 94关注度
往期回顾 全部

科技要闻

宇树发布载人变形机甲,定价390万元起

头条要闻

女子立遗嘱遗产归弟弟 其女起诉两人返还857万及房产

头条要闻

女子立遗嘱遗产归弟弟 其女起诉两人返还857万及房产

体育要闻

总是掉链子的“倒霉蛋”,闯进了欧战决赛

娱乐要闻

刘涛晒妈祖诞辰活动照 评论区变许愿池

财经要闻

黄仁勋真是被白宫彻底封杀了

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

数码
手机
本地
公开课
军事航空

数码要闻

雷军晒小米电竞鼠标2拆解图:是不是很高级

手机要闻

消息称三星计划推出军用“Galaxy S26战术版”手机

本地新闻

用苏绣的方式,打开江西婺源

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

知情人士披露:美国或考虑恢复对伊朗军事行动

无障碍浏览 进入关怀版