网易首页 > 网易号 > 正文 申请入驻

3D封装发热、互联再次失控,英伟达又要延迟发货B200

0
分享至

路透社发文称,据《Information》周一报道,第一批搭载 Blackwell 芯片的机架已经过热,并且芯片之间的连接方式出现了故障。由于过热问题,英伟达 (NVDA.O) 的顶级客户推迟了这家人工智能芯片领导者最新“Blackwell”机架的订单。

据报道,主要客户微软 (MSFT.O)、亚马逊 (AMZN.O) 云部门、Alphabet 旗下谷歌 (GOOGL.O) 和 Meta Platforms (META.O) 已经削减了 Nvidia Blackwell GB200 机架的部分订单,这些客户每家都下了价值 100 亿美元或更多的 Blackwell 机架订单。此前英伟达首席执行官黄仁勋曾表示,该公司有望在第四财季通过 Blackwell芯片增加数十亿美元的收入。

由于互联失效原因,英伟达再次延迟了其数据中心AI芯片GB200的交付时间,导致主要合作伙伴 OpenAI 要求英伟达交付微软较早一代的 Nvidia 的“Hopper”芯片。微软最初计划在其凤凰城的一处设施中安装至少装有 5万 个 Blackwell 芯片的 GB200 机架。

此次延迟的主要原因还是在于装有最新Blackwell芯片的机架出现了过热问题,并且芯片之间的互联也存在故障。Blackwell芯片作为英伟达在AI领域的重要布局,一直备受业界关注。然而,新技术的引入往往伴随着一系列的技术挑战和测试难题。据The Information透露,英伟达在测试过程中发现,装有Blackwell芯片的机架在运行时出现了过热现象,这不仅可能影响芯片的性能表现,还可能对机架的其他部件造成损害。

此外,芯片之间的互联故障也是导致交付延迟的另一个重要原因。在高性能计算领域,芯片之间的高效互联是确保系统整体性能的关键。一旦互联出现问题,将严重影响数据的传输速度和系统的稳定性。

根据资料介绍,一个GB200包含一颗Grace 72核的ARM CPU和2颗Blackwell GPU,对应的功耗为 2700W。芯片之间采用台积电的CoSoW 3D堆叠封装封装技术,先把2颗Blackwell GPU通过RDL再布线层缝合在一起,然后再与Grace 72核的ARM CPU和其它元器件封装在整个硅晶圆上。

此前GB200就曾出现过互联失效现象,据英伟达自己的解释,是因为再布线层的各个引组间的电阻不相同,在高速数据传输与校验时,芯片出现互联信号失真现象,导致GB200不能正常工作。当时英伟达与台积电都表示,会通过修改RDL的再布线层与周边元器件的设计,来完善两颗芯片间的数据联接,让整个系统可以高效运行。英伟达黄仁勋先生此前否认了是因为芯片过热导致互联失效。

不过显然英伟达到台积电并没有通过重新设计,完全解决整个系统互联失效难题,但具体是什么原因导致了更新后的GB200芯片系统还会出现互联失效,可能要等英伟达和台积电的工程师继续测试分析,才能得到真正的结果。

上一次GB200失效,让行业对以玻璃基板来替代现在的RDL再布线层抱有了极大的期望,认为这样可以解决热管理失效导致的互联失效难题问题,台积电与英伟达也公开表示未来会支持玻璃基板封装技术。此次英伟达与台积电要是再解决不了现有工艺的GB200热管理失效与互联失效难题,后续会不会转为尝试采用玻璃基板来解决,也还有待观察。

一个完整的GB200系统拥有 36 个 GB200 Superchip,其中包括 72 个 Blackwell GPU 和 36 个 Grace CPU,它们通过第五代 NVLink 互连。单个rack内部包括18个Compute tray(上10下8)和9个Switch tray,机柜内Computetray和Switch tray之间通过Copper Cable Cartridge相连。据悉单颗GB200售价约7万美元,一台42U服务器将高达300万美元,约合2166万人民币。

英伟达此前在GTC大会上也晒出了关于GB200的样机,采用的液冷散热架构,现场看到英伟达GB200的液冷机架方案是由鴻海(Foxconn)的子公司鸿佰提供。另外联想、华硕也推出了相关的液冷机架解决方案。

据旭日大数据了解,英伟达的AI芯片在3D堆叠封装中有下面这些难点:一是RDL再布线层与各个主控芯片间的联连可靠性、电性能平衡处理、信号互联处理等难题,二是TSV硅穿孔联接的高速HMB内存模块与硅基板之间的混和键合稳定性难题,三星主控芯片与硅基板之间的金属层键合难题。

由于主控芯片与硅基板之间的金属层键合工艺,从材料到工艺参数全部只有台积电掌握,同时台积电还有专有的CoSoW 3D堆叠封装工艺,所以英伟达的AI芯片每一代都是由台积电代工。

由于上面这些工艺在上几代的AI芯片中得到了验证,因此出现问题的机率较小。所以目前英伟达、台积电,以及关心英伟达AI芯片发展的业内人士,都把目光放到了GB200首次采用的,利用RDL中间层来把两颗Blackwell GPU缝合在一起的工艺上。

不过事实上也不排除用RDL中间层来把两颗Blackwell GPU缝合在一起的工艺引入,造成了整个3D堆叠互连技术的工艺差异性被放大,从而让里面的各个小CHIP芯片之间的信号传输数据,得不到有效的验证与放行,从而出现整个GB200系统互联失效。

据行业人士传回的消息显示,GB200两次跳票,确实让一些行业客户对这颗芯片的接受程度有所降低,一些行业大客户隐约的对外界表示,可以会期待英伟达在解决好GB200的工艺稳定性之后,直接下单工艺成熟后的英伟达下一代GB300的芯片,GB300芯片据英伟达自己声称可以大幅度降低AI的单位运算成本,并将于今年底上市。

事件回顾:

日期:2025年1月14日

新闻:据多家外媒报道,GPU制造商英伟达再次推迟其数据中心AI芯片GB200的交付时间。

延迟原因:

过热问题:装有最新Blackwell芯片的机架在运行时出现过热现象,影响了芯片性能和机架其他部件。

芯片互联故障:Blackwell芯片之间的互联出现了问题,这在高性能计算中是系统整体性能的关键点。

Blackwell芯片背景:

重要性:作为英伟达在AI领域的战略产品,Blackwell芯片一直备受关注,但其新技术也带来了诸多挑战。

技术挑战:英伟达在测试中发现了上述问题,对芯片的性能和稳定性产生了影响。

GB200技术细节:

配置:每个GB200包含一颗72核的Grace ARM CPU和两颗Blackwell GPU,功耗为2700W。

封装技术:采用台积电的CoSoW 3D堆叠封装技术,通过RDL再布线层将两颗Blackwell GPU缝合在一起,然后与Grace CPU和其他元件共封装在硅晶圆上。

历史问题:之前GB200也曾因再布线层引组间电阻不均导致过热和互联信号失真,英伟达和台积电曾尝试通过设计调整来解决,但显然问题并未完全解决。

目前挑战:

未解决问题:此次重新设计后,GB200系统仍面临过热和互联失效的问题,需要进一步的测试分析来确定原因。

未来展望:有观点认为可以采用玻璃基板来替代RDL再布线层解决热失效问题,英伟达和台积电也表示将支持这一技术。

系统规格:

完整系统:一个GB200系统包含36个GB200 Superchip(共72个Blackwell GPU和36个Grace CPU),通过第五代NVLink互连。

机架设计:单个机架内有18个计算托盘和9个交换托盘,通过铜缆连接。

价格:单颗GB200售价约7万美元,一台42U服务器价格高达300万美元,约合人民币2166万元。

英伟达的应对:

液冷方案:在GTC大会上,英伟达展示了GB200的液冷散热样机,由鸿海子公司鸿佰提供。

市场影响:尽管技术问题频出,英伟达在AI芯片市场依然占据近90%的份额,客户仍在争抢GB200系统的市场先机。

尽管面临技术问题,但NVIDIA的AI芯片需求依然强劲,全球近90%的市场仍由其控制。NVIDIA表示:目前客户正在抢占GB200系统的市场先机,依然对未来的市场表现持乐观态度。随着技术问题的逐步解决,英伟达有望继续巩固其在AI芯片市场的领先地位。

免责声明:图文源自互联网或AI,仅为分享行业发展动态,不作任何商业用途,如有侵权,请联系删除。内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

声明:取材网络,谨慎辨别

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
凌晨2点45!意大利决战波黑,赢球=时隔12年出线,世界杯分组确定

凌晨2点45!意大利决战波黑,赢球=时隔12年出线,世界杯分组确定

球场没跑道
2026-03-31 10:45:59
多少小学生因不准玩手机,把视频打印下来自制了一本抖音?

多少小学生因不准玩手机,把视频打印下来自制了一本抖音?

BB姬
2026-03-30 22:23:02
接连两天 两个大三甲医院党委书记猝死

接连两天 两个大三甲医院党委书记猝死

医脉圈
2026-03-27 20:36:17
山西大同一30米围墙突然倒塌!现场6辆汽车被砸,砖块埋压车身,原因正在调查

山西大同一30米围墙突然倒塌!现场6辆汽车被砸,砖块埋压车身,原因正在调查

台州交通广播
2026-03-30 22:30:15
4月见!华为多款新品爆料,真的猛啊!

4月见!华为多款新品爆料,真的猛啊!

科技堡垒
2026-03-29 11:35:26
中国一架都没有!全球都放弃的A380,为何阿联酋却死守不放?

中国一架都没有!全球都放弃的A380,为何阿联酋却死守不放?

丁丁鲤史纪
2026-03-30 17:39:24
只有医生才敢说的,糖尿病4大谣言,很多人被坑了,快看你...

只有医生才敢说的,糖尿病4大谣言,很多人被坑了,快看你...

袁医生课堂
2026-03-30 20:04:14
一路走好!仅1天又传出3位名人去世,有2位不到50岁,令人唏嘘

一路走好!仅1天又传出3位名人去世,有2位不到50岁,令人唏嘘

秋姐居
2026-03-30 14:42:06
一百二十年没人敢动它,中国这次不喊冤了,直接甩出一沓证据

一百二十年没人敢动它,中国这次不喊冤了,直接甩出一沓证据

潋滟晴方DAY
2026-03-30 08:06:51
这是巩俐吗?这身材这状态,真的无法让人想象!

这是巩俐吗?这身材这状态,真的无法让人想象!

情感大头说说
2026-03-31 12:04:06
《危险关系》今晚首播!孙俪领衔,3大卫视力推,有爆款潜质

《危险关系》今晚首播!孙俪领衔,3大卫视力推,有爆款潜质

阿尢说历史
2026-03-31 11:38:04
澳门世界杯:公园大妈打法,64岁选手吓袁嘉楠一跳,球拍异形

澳门世界杯:公园大妈打法,64岁选手吓袁嘉楠一跳,球拍异形

真理是我亲戚
2026-03-30 21:16:21
特朗普威胁:若谈不成,就炸毁并彻底抹平伊朗所有发电站、油井及哈尔克岛!美军集结超5万,共和党议员:地面行动须经国会批准

特朗普威胁:若谈不成,就炸毁并彻底抹平伊朗所有发电站、油井及哈尔克岛!美军集结超5万,共和党议员:地面行动须经国会批准

每日经济新闻
2026-03-30 21:21:10
抵达浙江!体育局官宣,陈梦正式上任,亮相新岗位,与张继科竞争

抵达浙江!体育局官宣,陈梦正式上任,亮相新岗位,与张继科竞争

越岭寻踪
2026-03-31 01:51:17
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
抱孙子仅1个月,张兰再迎噩耗,扣押2亿资产不算啥,汪小菲被牵连

抱孙子仅1个月,张兰再迎噩耗,扣押2亿资产不算啥,汪小菲被牵连

阿纂看事
2026-03-31 12:16:55
头七承诺:账号留到张姩菡长大,公司等她成年接手

头七承诺:账号留到张姩菡长大,公司等她成年接手

花小猫的美食日常
2026-03-31 11:12:57
几乎全是假货!利润高达2400%,为何有些消费者前赴后继争相购买

几乎全是假货!利润高达2400%,为何有些消费者前赴后继争相购买

米果说识
2026-03-30 14:32:41
国足VS喀麦隆前瞻:实力悬殊差距大,避免大比分失利是底线!

国足VS喀麦隆前瞻:实力悬殊差距大,避免大比分失利是底线!

田先生篮球
2026-03-30 22:25:34
错用中国照片,苏格兰撤除宣传材料

错用中国照片,苏格兰撤除宣传材料

观察者网
2026-03-31 13:06:13
2026-03-31 14:11:00
一米光学
一米光学
更快,更好,更专业的分享光学资讯。
1989文章数 94关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

从俄乌冲突到伊朗战争:4年间AI从"打辅助"到"做决策"

头条要闻

从俄乌冲突到伊朗战争:4年间AI从"打辅助"到"做决策"

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

丝芭传媒举报鞠婧祎:瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

汽车要闻

16万级最强2.0T 全新一代瑞虎9来了

态度原创

本地
旅游
艺术
游戏
公开课

本地新闻

用Color Walk的方式解锁城市春日

旅游要闻

春假趣玩合肥!20+A级景区集结,承包你的春日欢乐时光

艺术要闻

石涛『野色册』

PS5多款即将上线重点游戏!含科乐美IGN高分新作

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版