网易首页 > 网易号 > 正文 申请入驻

英伟达Blackwell芯片部署挑战,何解

0
分享至

公众号记得加星标⭐️,第一时间看推送不会错过。


一年前,英伟达首席执行官黄仁勋告诉分析师,由于新一代 Blackwell AI 芯片的复杂性显著增加,其客户从上一代 AI 服务器芯片过渡到这款芯片将“充满挑战”。他表示,为了提高芯片性能,“包括服务器机箱、系统架构、硬件配置和电源系统在内的所有方面都必须进行调整”。

事实上,对于英伟达的许多核心客户而言,推广Blackwell服务器的部署和大规模运维曾经是一个棘手的问题。据两位服务于OpenAI和其他主要客户的英伟达员工,以及一位参与解决相关问题的Meta员工透露,去年大部分时间里,OpenAI、Meta Platforms及其合作伙伴云服务提供商都在努力稳定地构建和使用此类系统。他们指出,相比之下,客户在收到上一代英伟达AI芯片后,几周内即可完成部署并投入使用。

英伟达核心客户在使用其Blackwell系列芯片(尤其是Grace Blackwell型号)时遇到的各种困难似乎并未对这家芯片巨头的业务造成严重影响。英伟达依然是全球市值最高的公司,市值高达4.24万亿美元,并且目前已基本解决了许多阻碍主要客户快速大规模部署该系列芯片的技术难题。

然而,如果英伟达未来的新芯片继续面临类似的部署难题,谷歌等竞争对手或许会从中看到突破的机会——前提是这些竞争对手能够帮助客户更快地大规模部署芯片,从而支持尖端人工智能技术的发展。此类问题也可能导致无法实现大规模芯片部署的云服务提供商利润下滑,同时减缓依赖这些芯片开发更先进人工智能模型的人工智能公司的研发进度。

本文基于对英伟达、Meta 的员工、使用英伟达芯片的云服务提供商的员工以及为数据中心提供英伟达芯片安装服务的合作伙伴的采访。

对于像 OpenAI 和 Meta 这样的客户而言,无法按预期规模构建芯片集群限制了他们训练更大规模 AI 模型的能力。据一位英伟达员工透露,虽然英伟达的客户尚未公开抱怨这些问题,但部分客户已私下向英伟达相关人员表达了不满。

据一位云服务高管和一位参与相关谈判的英伟达员工透露,为了弥补不满的客户所遭受的损失,英伟达去年针对与 Grace Blackwell 芯片相关的问题提供了一些退款和折扣。

英伟达和云服务高管均表示,主要问题出在连接72颗Grace Blackwell芯片的服务器上——这种设计旨在显著提升芯片间的通信速度,并在单个系统内实现协同运行。这些服务器可以与其他服务器互连,形成超大型集群,为高强度AI模型训练提供所需的计算能力。

英伟达发言人表示,该公司已于 2024 年解决了 Grace Blackwell 系统部署缓慢的问题,并当时告诉《信息》杂志,这些系统是“有史以来最先进的计算机”,需要“与客户进行联合工程开发”才能部署。

声明还提到:“英伟达正与领先的云服务提供商进行深入合作,他们的团队已成为我们工程开发体系和流程中不可或缺的一部分。这种工程迭代是正常的行业现象,也是我们流程中必然会出现的情况。”

OpenAI 基础设施负责人 Sachin Katti 在一份声明中表示,该公司与英伟达的合作“完全按计划进行,为我们的研发路线图提供计算能力。我们正在利用所有可用的英伟达芯片进行模型训练和推理,这加速了研发迭代和产品发布——我们最近发布的几个模型就证明了这一点。”

Meta公司的一位发言人拒绝置评。

成长的烦恼

种种迹象表明,英伟达已从此次部署挑战中吸取了教训。该公司不仅优化了现有的Grace Blackwell系统,还改进了基于即将于今年晚些时候发布的下一代Vera Rubin芯片的服务器。

据两位参与芯片设计的人士透露,英伟达去年推出了性能更强大的Grace Blackwell芯片升级版,以确保其稳定性超越第一代产品。他们表示,这款名为GB300的升级版芯片在散热、核心材料和连接器质量方面均有所改进。

一位熟悉情况的Meta员工表示,Meta工程师之前在使用第一代Grace Blackwell系统时遇到过技术故障,他们发现新芯片显著降低了集群组装的难度。另一位为OpenAI服务的Nvidia员工透露,包括OpenAI在内的一些客户已经调整了尚未到货的Grace Blackwell芯片订单,转而订购了升级后的产品。

去年秋天,英伟达告诉投资者,其 Blackwell 系列芯片的大部分收入现在来自优化的 Grace Blackwell 服务器,并且该公司计划今年大量交付这些服务器。

xAI是埃隆·马斯克旗下的一家公司,该公司严重依赖英伟达芯片,似乎在部署Grace Blackwell服务器方面处于领先地位。去年10月,该公司在其位于孟菲斯的数据中心部署并投入使用了约10万颗此类芯片,但目前尚不清楚这一策略是否取得了更好的效果。

先构建,后测试

英伟达开发 Blackwell 芯片的目标很明确:帮助客户以远超以往 AI 芯片的规模和成本效益训练 AI 模型。

英伟达上一代服务器最多只能连接八颗芯片,芯片间的通信速度也比较慢。Blackwell 系列的核心设计是将 72 颗 Grace Blackwell 芯片集成到一台服务器中,减少了不同服务器之间的数据传输,从而释放了数据中心的网络资源,并支持更大规模 AI 模型的训练和运行。

一位参与芯片集群组装的甲骨文员工表示,以这种方式构建大规模芯片集群还可以提高基于这些集群训练的人工智能模型的质量。该系统旨在减少模型训练过程中常见的硬件故障。

然而,英伟达的这项新设计也存在缺陷。高度集成大量芯片意味着单个芯片的故障可能引发连锁反应,导致由数千个芯片组成的整个集群崩溃或停滞。据三位经历过此类故障的用户称,从最近的已保存节点重新启动中断的训练可能需要花费数千至数百万美元。

英伟达Grace Blackwell系统的推出从一开始就困难重重。2024年夏季,芯片设计缺陷导致量产延迟,并引发了各种问题。一年前,在首批Blackwell芯片交付给客户后,服务器机架频繁出现过热和连接故障,迫使微软、亚马逊网络服务、谷歌和Meta等核心客户减少订单,转而选择上一代芯片。

几家订购了 Grace Blackwell 芯片的云服务提供商的员工表示,他们认为英伟达在相关硬件和软件尚未完全调整和准备就绪之前就向客户交付了芯片。

然而,一位前英伟达高管为这一策略辩护,称72芯片的Grace Blackwell服务器所经历的成长阵痛表明,黄仁勋愿意突破技术界限,而不是采取保守的管理方式。英伟达现任和前任员工都认为,指望英伟达能够精确预测OpenAI和Meta等客户大规模部署场景下的芯片性能是不现实的。

还有迹象表明,OpenAI 已经实现了对英伟达 72 芯片服务器的大规模应用。周四,OpenAI 宣布其最新的 AI 代码模型 GPT-5.3-Codex 是“与这套专用系统联合开发的,该系统提供训练能力并支持部署”。

收入实现方面的挑战

据两家云服务提供商的高管透露,去年芯片部署的延迟导致OpenAI的部分云服务合作伙伴遭受损失——他们曾斥巨资购买Grace Blackwell芯片,希望这些芯片能够快速上线并收回成本。云服务提供商只有在客户开始使用芯片后才能获得收入。

据参与谈判的一位云服务高管透露,为了缓解资金压力,一些云服务提供商去年与英伟达达成了折扣协议,允许他们根据实际使用量以较低的价格购买芯片。

此外,据英伟达一名员工和英伟达一家制造合作伙伴的一名工作人员透露,英伟达还向一些退回服务器的客户退还了款项。

在推出新技术时,云服务提供商通常需要预先承担成本,只有在客户开始使用硬件后才能获得收入,因此这一阶段的利润率通常很低。一份文件显示,在截至去年8月的三个月里,Oracle在出租Blackwell系列芯片方面亏损了近1亿美元,主要原因是Oracle调试服务器并将其交付给客户所需的时间远远落后于OpenAI等客户开始使用服务器并支付租金的时间。

为 Oracle 云业务高管准备的一份内部演示文稿指出,租用 Grace Blackwell 芯片的毛利率为负,主要是由于 OpenAI 位于德克萨斯州阿比林的数据中心的芯片部署问题以及客户验收周期滞后。

Oracle 后来告诉投资者,其 AI 云业务最终将实现 30% 至 40% 的毛利率,这一预测包括数据中心上线之前的投资期。

https://www.bitget.com/amp/news/detail/12560605187852

(来源:编译自bitget,谢谢)

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4312期内容,欢迎关注。

加星标⭐️第一时间看推送

求推荐

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
暴跌50%,少卖21万辆!比亚迪意外被老对手反超,行业大洗牌已至

暴跌50%,少卖21万辆!比亚迪意外被老对手反超,行业大洗牌已至

财经八卦
2026-02-07 19:53:47
首次宣判!尹锡悦因妨害公务执行等罪名被判处有期徒刑5年

首次宣判!尹锡悦因妨害公务执行等罪名被判处有期徒刑5年

每日经济新闻
2026-01-16 19:25:13
绿皮火车回来了。这次不是怀旧,是因为大家兜里的钱真的不够用了

绿皮火车回来了。这次不是怀旧,是因为大家兜里的钱真的不够用了

娱乐的硬糖吖
2026-02-08 01:30:20
31年前,娶了德国女明星的北京出租车司机王宏业,如今怎么样了?

31年前,娶了德国女明星的北京出租车司机王宏业,如今怎么样了?

东方不败然多多
2026-02-07 11:27:04
美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

青烟小先生
2026-01-31 19:10:22
三名院士代表突然罢免,国防科工系统出大事了?究竟发生了什么?

三名院士代表突然罢免,国防科工系统出大事了?究竟发生了什么?

纪中百大事
2026-02-07 19:48:52
善恶终有报:疫情时对中国一毛不拔,却大方捐美国6亿,如今咋样

善恶终有报:疫情时对中国一毛不拔,却大方捐美国6亿,如今咋样

暮雨咋歇着
2026-02-06 00:45:48
休媒称火箭找到赢球方向!当下未来都靠年轻核心 KD只需锦上添花

休媒称火箭找到赢球方向!当下未来都靠年轻核心 KD只需锦上添花

颜小白的篮球梦
2026-02-08 13:55:57
140亿卖身美国!中国养大的AI白眼狼,被商务部一招摁死!

140亿卖身美国!中国养大的AI白眼狼,被商务部一招摁死!

快乐彼岸
2026-01-24 17:57:59
外卖“碰一下开门”服务已覆盖全国200多城 免登记为城市骑士单均节省1分钟

外卖“碰一下开门”服务已覆盖全国200多城 免登记为城市骑士单均节省1分钟

封面新闻
2026-02-07 16:43:03
刚挂断中方电话,特朗普就旗帜鲜明支持高市,石破茂最后时刻变脸

刚挂断中方电话,特朗普就旗帜鲜明支持高市,石破茂最后时刻变脸

小影的娱乐
2026-02-08 15:14:13
汽车之家开年大裁员震动行业, 昔日风光无限,如今难逃“优化”

汽车之家开年大裁员震动行业, 昔日风光无限,如今难逃“优化”

沙雕小琳琳
2026-02-08 03:22:45
黎春秋任湖南省发改委党组书记

黎春秋任湖南省发改委党组书记

中国经济网
2026-02-08 14:32:20
70岁后想多活30年,记住这5句话,活好余生每一日

70岁后想多活30年,记住这5句话,活好余生每一日

青苹果sht
2026-01-31 05:27:33
上港2月8日做出重要决定,王燊超都为此乐开花,让球迷欣喜

上港2月8日做出重要决定,王燊超都为此乐开花,让球迷欣喜

张丽说足球
2026-02-08 09:53:30
死亡率和肺癌并驾齐驱,患病后不可逆转,加重就可能短期威胁生命

死亡率和肺癌并驾齐驱,患病后不可逆转,加重就可能短期威胁生命

呼吸科大夫胡洋
2026-02-08 16:24:19
伺候瘫痪岳母17年,她刚走,老婆提离婚,我同意,出民政局她傻了

伺候瘫痪岳母17年,她刚走,老婆提离婚,我同意,出民政局她傻了

唠叨说历史
2025-07-14 16:49:37
2月7日俄乌:美施压乌尽快公投并大选,特朗普时间不多了

2月7日俄乌:美施压乌尽快公投并大选,特朗普时间不多了

山河路口
2026-02-07 18:05:12
2-2后完美执行战术!王曼昱4-2张本美和晋级决赛再战孙颖莎!

2-2后完美执行战术!王曼昱4-2张本美和晋级决赛再战孙颖莎!

篮球资讯达人
2026-02-08 14:04:51
上海四大火车站今日起进入“通宵模式”,候车室24小时开放

上海四大火车站今日起进入“通宵模式”,候车室24小时开放

澎湃新闻
2026-02-08 14:21:06
2026-02-08 16:48:49
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
12885文章数 34788关注度
往期回顾 全部

科技要闻

欧盟认定存在"上瘾"设计 TikTok:结论错误

头条要闻

金手镯断裂掉出2颗钢珠少0.3克 同批产品查验结果意外

头条要闻

金手镯断裂掉出2颗钢珠少0.3克 同批产品查验结果意外

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

曝带女星回老家小区,罗云熙紧急回应

财经要闻

宽基ETF开年大赎回,什么信号?

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

亲子
游戏
健康
旅游
公开课

亲子要闻

台上是生旦组合,台下是双胞胎姐妹,上过众多电视台节目

Bin大秀腹肌照,两天连上数次热搜,著名LPL解说:Bin大哥没架子

转头就晕的耳石症,能开车上班吗?

旅游要闻

六九风渐暖,普陀寻水趣!这条水主题打卡线路别错过

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版