来源:市场资讯
(来源:电子技术应用ChinaAET)
全球AI竞赛的早已从“谁能抢到更多GPU”悄然转向“谁能把GPU真正用起来”。然而,坐拥约55万块英伟达GPU,实际利用率仅有11%,这一“打脸”般的数字,正将埃隆·马斯克(Elon Musk)旗下的人工智能公司xAI推上风口浪尖。
据外媒《The Information》获取的xAI内部备忘录显示,xAI公司总裁迈克尔·尼科尔斯(Michael Nicolls)向团队坦承,公司目前的模型浮点运算利用率(MFU)约为11%。这个数字意味着,理论上能输出100份训练算力的硬件,实际仅产出了11份。
xAI目前拥有约55万颗NVIDIA GPU,其中包括H100和H200系列。尽管这些GPU比最新的Blackwell产品落后了一个世代,但xAI部署的GPU规模之大令市场印象深刻。
对于这一现状,Michael Nicolls在内部备忘录中给出了直白的评价:低得尴尬。
他已为团队设定了在未来几个月内将利用率拉升至50% 的目标。
“11%”这个数字,并非指89%的GPU在完全闲置,而是衡量有效训练吞吐占硬件理论峰值算力比例的严苛指标。
从行业基准来看,生产级大模型训练的MFU通常落在35%至45%之间。Meta和谷歌凭借深厚的软件堆栈积累,其GPU利用率分别可达约43%和46%。即便以“低效”著称的GPT-3训练时期,MFU也在21%-26%之间。相比之下,xAI的11%不仅远低于当前主流水平,甚至低于AI算力发展史上的“古早”尴尬时期。
01
低利用率的症结所在
坐拥算力“金山”却难有用武之地,症结出在哪里?答案指向软件堆栈与并行策略的滞后。
xAI在业内以“完全按照英伟达推荐方式部署GPU”的模范生做法著称。模范生却跑出低分,说明问题不在标准的硬件或网络拓扑层面。根源在于,训练栈、并行策略和模型工程等软件优化速度,远跟不上其激进的硬件扩张步伐。
业界广泛讨论的“存储墙”现象成为主要瓶颈——HBM显存读取速度远慢于计算芯片,导致芯片大量时间空转等待数据;网络拓扑中的任何一处瓶颈,在数万张卡的同步要求下,都会被急剧放大。此外,Lambda等机构的分析指出,显存压力、过度的激活重计算和张量并行带来的跨GPU通信开销等,都是拖累MFU的系统性因素。
xAI的算力基础设施建设速度本身就是一个“神话”:其孟菲斯Colossus超算集群从动工到投入运营仅用了122天,从10万张GPU扩展到20万张仅用了92天。黄仁勋曾评价此类工程“通常需要四年”。
![]()
△xAI孟菲斯Colossus超算集群
然而,惊人的速度似乎也让xAI“欠下”了技术债。扩张越快,支撑大规模并行训练的软件系统复杂度就越大。当企业试图将GPU规模从数千张推向数十万张时,通信、调度、容错和并行策略的挑战会呈指数级增长。xAI的11%的算力利用率,正是这一矛盾的集中体现。
02
行业性的效率困局
把问题完全归咎于xAI一家也并不公平。《The Information》的报道援引一位匿名研究员的话称:跑过40%对xAI的大多数竞争对手来说也很难。
这表明,超大规模集群下的低效问题,是笼罩整个AI行业的阴影。
报道还揭示了一个行业内部的扭曲现象:由于担心GPU被调走或承受压力,一些研究员甚至通过反复重跑训练来人为“美化”自家MFU数据。囤而不用的算力浪费,成为行业心照不宣的秘密。
03
xAI的应对方向
面对效率困局,xAI正多措并举。一方面,公司计划通过基础设施和软件栈优化来解决利用率问题。另一方面,据媒体报道,xAI已开始将部分闲置算力对外出租,AI编程创业公司Cursor已计划使用其“数万张GPU”来训练新模型。
AI算力之争已过“装备竞赛”阶段,正式进入“效率竞赛”的深水区。11%的低利用率如同一面镜子,照出AI行业下半场的核心命题:如何将“买得到”的硬件,转化为真正“用得好”的竞争壁垒。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.