如果训练大模型是烧钱,那让模型每天回答上亿次问题,算不算"持续烧钱"?
谷歌云Next大会上,谷歌和英伟达甩出一套新硬件方案,目标很直接:把推理成本压到原来的十分之一。不是实验室数据,是准备进机房的真家伙。
![]()
01 | 新架构:把72块GPU焊成一个"超级节点"
这套方案的核心叫A5X裸金属实例,底层是英伟达的Vera Rubin NVL72整机架系统。
NVL72的意思很直白:72块GPU塞进一个机架,通过NVLink互联。谷歌和英伟达在这上面做了软硬件协同设计,最终交出的成绩单是——每token推理成本降到前代的十分之一,同时每兆瓦电力能处理的token吞吐量翻十倍。
两个"十倍"叠加,相当于用同样的电费和硬件预算,服务能力直接上一个数量级。
但72块GPU只是起点。真正让这套架构能"长大"的,是网络层。
A5X实例配了英伟达ConnectX-9 SuperNIC,跑在谷歌自研的Virgo网络技术之上。单站点能扩展到8万块Rubin GPU,跨站点部署上限是96万块。
96万块GPU并行计算,数据怎么路由、任务怎么同步、哪块芯片空闲了怎么立刻补上——这些调度复杂度是指数级增长的。谷歌云VP Mark Lohmeyer的原话是:"路由数据穿越近百万并行处理器,需要精确同步以避免计算资源空转。"
02 | 企业级顾虑:模型可以本地跑了
算力再便宜,金融和医疗行业也不敢把客户数据往公有云一丢了事。监管合规、数据主权、商业机密——这三座大山卡死了大量AI落地项目。
这次谷歌给了一个新选项:Gemini模型跑在英伟达Blackwell和Blackwell Ultra GPU上,以Google Distributed Cloud的形式进入预览阶段。
简单说,就是整套 frontier 模型可以部署在企业自己的数据中心里,和核心数据资产物理隔离。不是API调用,是把模型"搬回家"。
安全层面上了英伟达的机密计算(Confidential Computing)。硬件级加密,训练过程中的提示词和微调数据全程加密,连云服务商自己都无法查看或篡改。
公有云环境也有对应方案:配备英伟达RTX PRO 6000 Blackwell GPU的Confidential G4虚拟机进入预览。这是首个面向NVIDIA GPU的云上机密计算服务,让受监管行业能在共享基础设施上获得硬件级隔离。
03 | 成本曲线的拐点,可能比预期来得快
把推理成本砍90%,不只是账单数字好看。
它直接改写了AI应用的盈亏平衡点。以前需要月活千万才能摊薄成本的场景,现在百万级用户就能跑通;以前不敢做的实时交互、高频调用功能,现在可以放开手脚试错。
更隐蔽的影响在竞争格局。当头部云厂商能把推理成本压到对手难以跟进的水平,中小玩家的定价空间会被急剧压缩。这不是技术迭代,是商业规则的重新制定。
Mark Lohmeyer的判断是:"下一个十年的AI将由客户运行最苛刻工作负载的能力所塑造。"翻译一下:谁能把基础设施成本打下来、同时保证合规弹性,谁就能锁定下一代企业客户。
谷歌和英伟达这次联手,押注的是一个明确的趋势——AI竞赛的下半场,胜负手从"谁能训练最大的模型"转向"谁能最便宜、最安全地让模型跑起来"。
但这里有一个悬而未决的问题:当推理成本趋近于零,应用的差异化究竟会体现在模型能力上,还是会体现在数据闭环和场景理解上?基础设施的民主化,最终是放大头部效应,还是催生新一轮创新浪潮?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.