英伟达的Blackwell芯片刚出来那会儿,真挺让人懵的。说是AI算力天花板,结果OpenAI、Meta这些大客户拿到手却装不上、跑不稳、一用就崩。不是芯片坏,是服务器机箱、电源、散热、连线路都得重来一遍。黄仁勋自己都承认,这代太“挑战性”了——不是吹牛,是真难搞。
![]()
72颗芯片塞进一台服务器,光是让它们互相说话都不容易。NVLink线路稍微抖一下,整台机器就卡住;供电一瞬不稳,训练直接中断;一停就是几百万美元打水漂。有人试过重启,结果整个集群集体黑屏,连日志都来不及写完。这不是软件bug,是铜线、焊点、液冷管、UPS电池一起在报警。
更麻烦的是,云厂商接单时答应得好好的,结果机房搭到一半发现电不够——单个Blackwell GPU功耗1000瓦,一个机柜要100多千瓦,加州两座数据中心直接晾着,连灯都不敢全开。甲骨文那边账面上亏了一个亿,不是卖不出去,是客户验收不过,钱收不回来。
OpenAI倒没喊难,悄悄把GPT-5.3-Codex全压在Blackwell上跑,但他们工程师天天蹲在服务器旁边调固件,不是写AI模型,是在救火。xAI更狠,在孟菲斯自己建液冷循环系统,10万颗芯片硬是撑下来了,代价是电费和运维人手翻三倍。
英伟达没光嘴上道歉,GB300芯片改了铜柱封装、统一液冷接口、加了智能功耗调度,BlueField DPU也减了30%功耗,把运维任务从CPU里拎出来。他们还把底层调度框架开源,让客户能自己做故障迁移——听起来像服务,其实是在把硬件责任往自己身上揽。
有意思的是,谷歌TPUv6没拼单机密度,改走分布式加网络优化,部署快了四倍;AMD则死磕HBM3良率,不碰72芯组联,成了中小AI公司的“稳字招牌”。大家慢慢看懂了:现在拼的不是谁芯片参数高,而是谁让客户少加班、少重启、少烧钱。
电力跟不上,散热顶不住,互联不稳,供电不灵——这些都不是小毛病,是实打实的物理门槛。Blackwell不是做不出来,是做出来之后才发现,光有芯片,真不够。
英伟达市值还是全球第一。
但客户现在要的,早就不只是芯片了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.