算力泡沫，xAI 55万张GPU加速卡利用率仅11%|速度|低效|gpu|xai|新模型

算力泡沫，xAI 55万张GPU加速卡利用率仅11%

2026-05-05 17:09:55　来源: 新浪财经

北京举报

分享至

来源：市场资讯

（来源：电子技术应用ChinaAET）

全球AI竞赛的早已从“谁能抢到更多GPU”悄然转向“谁能把GPU真正用起来”。然而，坐拥约55万块英伟达GPU，实际利用率仅有11%，这一“打脸”般的数字，正将埃隆·马斯克（Elon Musk）旗下的人工智能公司xAI推上风口浪尖。

据外媒《The Information》获取的xAI内部备忘录显示，xAI公司总裁迈克尔·尼科尔斯（Michael Nicolls）向团队坦承，公司目前的模型浮点运算利用率（MFU）约为11%。这个数字意味着，理论上能输出100份训练算力的硬件，实际仅产出了11份。

xAI目前拥有约55万颗NVIDIA GPU，其中包括H100和H200系列。尽管这些GPU比最新的Blackwell产品落后了一个世代，但xAI部署的GPU规模之大令市场印象深刻。

对于这一现状，Michael Nicolls在内部备忘录中给出了直白的评价：低得尴尬。

他已为团队设定了在未来几个月内将利用率拉升至50% 的目标。

“11%”这个数字，并非指89%的GPU在完全闲置，而是衡量有效训练吞吐占硬件理论峰值算力比例的严苛指标。

从行业基准来看，生产级大模型训练的MFU通常落在35%至45%之间。Meta和谷歌凭借深厚的软件堆栈积累，其GPU利用率分别可达约43%和46%。即便以“低效”著称的GPT-3训练时期，MFU也在21%-26%之间。相比之下，xAI的11%不仅远低于当前主流水平，甚至低于AI算力发展史上的“古早”尴尬时期。

低利用率的症结所在

坐拥算力“金山”却难有用武之地，症结出在哪里？答案指向软件堆栈与并行策略的滞后。

xAI在业内以“完全按照英伟达推荐方式部署GPU”的模范生做法著称。模范生却跑出低分，说明问题不在标准的硬件或网络拓扑层面。根源在于，训练栈、并行策略和模型工程等软件优化速度，远跟不上其激进的硬件扩张步伐。

业界广泛讨论的“存储墙”现象成为主要瓶颈——HBM显存读取速度远慢于计算芯片，导致芯片大量时间空转等待数据；网络拓扑中的任何一处瓶颈，在数万张卡的同步要求下，都会被急剧放大。此外，Lambda等机构的分析指出，显存压力、过度的激活重计算和张量并行带来的跨GPU通信开销等，都是拖累MFU的系统性因素。

xAI的算力基础设施建设速度本身就是一个“神话”：其孟菲斯Colossus超算集群从动工到投入运营仅用了122天，从10万张GPU扩展到20万张仅用了92天。黄仁勋曾评价此类工程“通常需要四年”。

△xAI孟菲斯Colossus超算集群

然而，惊人的速度似乎也让xAI“欠下”了技术债。扩张越快，支撑大规模并行训练的软件系统复杂度就越大。当企业试图将GPU规模从数千张推向数十万张时，通信、调度、容错和并行策略的挑战会呈指数级增长。xAI的11%的算力利用率，正是这一矛盾的集中体现。

行业性的效率困局

把问题完全归咎于xAI一家也并不公平。《The Information》的报道援引一位匿名研究员的话称：跑过40%对xAI的大多数竞争对手来说也很难。

这表明，超大规模集群下的低效问题，是笼罩整个AI行业的阴影。

报道还揭示了一个行业内部的扭曲现象：由于担心GPU被调走或承受压力，一些研究员甚至通过反复重跑训练来人为“美化”自家MFU数据。囤而不用的算力浪费，成为行业心照不宣的秘密。

xAI的应对方向

面对效率困局，xAI正多措并举。一方面，公司计划通过基础设施和软件栈优化来解决利用率问题。另一方面，据媒体报道，xAI已开始将部分闲置算力对外出租，AI编程创业公司Cursor已计划使用其“数万张GPU”来训练新模型。

AI算力之争已过“装备竞赛”阶段，正式进入“效率竞赛”的深水区。11%的低利用率如同一面镜子，照出AI行业下半场的核心命题：如何将“买得到”的硬件，转化为真正“用得好”的竞争壁垒。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.