作者:毛烁
先进封装、更多的HBM堆叠,以及单卡峰值算力的持续提升,曾经构成过去几年评估AI算力的核心框架。但进入2026年,这套方法已经明显失效。对于超大规模训练与推理集群而言,系统瓶颈正在快速从芯片内部转移到芯片之外。
供电能力是否充足、散热是否可持续、网络拓扑是否高效、数据中心的建设周期是否可控,乃至与公共电网之间的协同能力,开始共同决定整个系统的上限。
也正是在这一背景下,本次GTC期间,老黄释放了一个极具指向性的信号——数据中心的度量标准正在发生根本变化,“每瓦Token产出效率(Token per Watt)”正取代传统的峰值算力与单卡性能,成为新的核心KPI。
这一指标的变化,意味着评价对象已经从“芯片”转向“系统”。
当衡量标准从器件级跃迁到系统级,单点的优化便不再成立了,行业也就必然需要一套覆盖“设计—建设—运行”的整体方法论。
在这一前提下,NVIDIA在GTC 2026上给出的答案是一整套系统化框架:包括Vera Rubin DSX AI Factory参考设计、Omniverse DSX数字孪生蓝图,以及配套的DSX软件栈,用以打通从芯片到基础设施、从仿真到运营、从机房到电网的完整链路。
从产业意义上看,这套体系的分量,在于它正在把AI数据中心从“高密度服务器集群”,重定义为一个“可设计、可仿真、可调度、可并网”的工业化生产系统。
这种转变,将直接重塑未来AI基础设施的采购逻辑、建设流程与竞争门槛。
01 AI工厂的“度量衡”:从FLOPS、PUE 到“tokens per watt”
以往,数据中心的核心指标通常是FLOPS、PUE、机柜功率密度和设备利用率。那时,工作负载类型足够分散,计算、网络和设施层之间还可以保持相对松散的耦合关系。
在生成式AI成为主要负载后,情况发生了根本变化。训练与推理任务的持续高负载运行,使计算平台的商业价值不再只取决于芯片峰值性能,还取决于整个设施在固定能源预算下,究竟能够持续产出多少token,以及系统能否在长时间运行中保持稳定的整体有效吞吐率(overall goodput)。
也正是在这一逻辑之下,NVIDIA更新了Vera Rubin DSX AI Factory 参考设计(后文简称Vera Rubin DSX),就是用于构建“协同设计AI基础设施(codesigned AI infrastructure)”的参考架构,其核心目标是实现“每瓦最大Token产出(maximum tokens per watt)”以及更快的部署速度。
这一理念背后,包含两层关键变化。
其一,AI基础设施的价值评估,进一步从“硬件性能指标”迁移到“系统级生产效率指标”。当token成为核心产出单位时,供电、冷却、网络、调度乃至建筑交付周期,都会被纳入同一个经济模型进行统一优化。
其二,“参考设计”的内涵也在发生扩展。其不再只是传统意义上的硬件BOM(物料清单),而是一个跨层协同的系统框架。事实上,Vera Rubin DSX不仅覆盖计算、Spectrum-X Ethernet网络与存储,还配套开放、模块化、可组合的软件栈,用于将集群硬件与供电、冷却系统联动起来,从而在整体层面获取到更高的token per watt。
也就是说,NVIDIA正在把AI基础设施的竞争维度,从“谁的芯片更强”,推进到“谁能在相同电力约束下,组织起更高效的系统”。
理解Vera Rubin DSX配套的软件栈可以描述为三个关键词——“open, modular and composable”(开放、模块化、可组合)。
其核心目的,是将计算硬件集群与供电、冷却等基础设施系统连接起来,从而提升单位能源所能转化的AI产出(即token per watt)。这说明Vera Rubin DSX的边界已经越过传统意义上的 IT 软件栈,把原本属于设施运维范畴的变量,纳入了计算系统的统一优化对象。
02 Vera Rubin DSX软件栈:把电力、冷却、计算拉进调度闭环
围绕这一目标,Vera Rubin DSX提供一系列软件库,包括DSX Max-Q、DSX Flex、DSX Exchange,以及DSX Sim / DSX SimReady。分别对应——在固定功率约束下的性能优化、电网协同与负载弹性、IT与OT信号互通,以及基于数字孪生(Digital Twin)的系统级仿真与验证。
DSX Max-Q是最直接作用于“token per watt”的一层能力。“Max-Q”这一概念本身并不陌生,其最早用于描述功耗与性能之间的最优平衡点(power-performance sweet spot)。但在Vera Rubin DSX体系中,这一方法被提升到了AI工厂级别。
1、DSX Max-Q可以理解为系统级的电源与热管理调度中间件,能在严格限定的功耗包络(Power Envelope)内,动态分配GPU集群的计算负载,将有限电力转化为尽可能多的有效Token输出。
其核心机制,是通过更细粒度的功率调度,在不同计算与互连组件之间动态分配电力资源,使系统尽可能长期运行在更优的性能功耗比区间。这种调度不仅发生在GPU之间,还会扩展到CPU以及高速互连单元(如NVLink交换模块)之间。
在这种调度机制下,电力成了可以在系统内部流动的变量。由此带来的直接结果,是在不增加电力输入的前提下,数据中心可以承载更大规模的计算负载。本质上,是把原本浪费在冗余设计和保守运行区间中的功率预算,重新分配回有效计算。
这也意味着,AI工厂之间的竞争,正在从传统的“芯片性能与互连带宽”,扩展到“功率编排精度、热管理协同能力与负载调度策略”的系统级能力。
2、DSX Flex把 AI工厂纳入电网协同。如果把 DSX Max-Q 理解为“在固定功率天花板内实现更多产出”,那么 DSX Flex 对应的就是更外层的问题——AI 工厂如何在更大范围的能源网络中,成为可接受、可调度、可协同的负载。
DSX Flex用于将 AI工厂连接到power-grid services(电网配套服务),使其能够动态调整功耗,并协调现场混合发电资源,在降低能源成本的同时维持电网稳定。
在 2026 年 3 月的 Vera Rubin 平台官方稿件中,NVIDIA 又给出了更强的定性与定量描述:DSX Flex 让 AI factories 成为 grid-flexible assets,并可释放 100 gigawatts 的 stranded grid power。
无论最终行业是否完全按照这一理想路径落地,这一表述本身已经足够说明 NVIDIA 的战略意图:它不再把电网视为单向供电来源,而是把 AI 工厂视为可以参与调节的电力节点。
这件事之所以重要,在于它改变了AI基建项目的谈判逻辑。
未来大型 AI 工厂要争取的,已经不只是土地、机房与设备,还包括“被电网接受为柔性高价值负载”的资格。
对于电力运营者来说,最难处理的负载从来不是功率大,而是功率大且刚性强。DSX Flex 试图提供的,就是一种把 AI 负载做成软件定义柔性负载的方式。NVIDIA 开发者博客也给出了技术层面的辅助说明:DSX Flex 负责把 utility signals 转译为 cluster-level power events,而相关 DSX 能力则用于满足 ramp-rate compliance,并在整个工厂范围内动态编排工作负载功率预算。
从产业角度看,这一步会把 AI 基础设施的竞争边界直接推到公用事业侧。
3、DSX Exchange是让 IT与OT从“并行系统”变成“联动系统”。DSX Exchange的作用,是让计算系统真正“接入并调用”电力与冷却系统。从定位上看,DSX Exchange更接近基础设施层的“数据与控制总线”,用于在计算、网络、供电与冷却设备之间建立统一的通信与控制路径,从而打通IT系统(信息技术)与OT系统(运营技术)。
这一软件的关键,在于消除了数据中心内部长期存在的系统割裂。
其实,在传统架构中,GPU温度、网络拥塞、配电状态、冷却设备参数与设施控制策略,往往分属不同系统管理。它们虽然同时运行,但彼此之间缺乏低时延、可编排的联动机制。
DSX Exchange解决的正是这种“并行而不协同”的状态。让电力与冷却不再只是计算平台的外围条件,而成为调度系统可以实时感知、调用并反馈的资源。
从应用看,当“AI工厂”的规模进入百兆瓦级别后,这种跨域协同会变得愈发关键。任何局部的热瓶颈、瞬时功率波动或设施侧降额,都会被分布式训练与推理任务放大,最终转化为整集群吞吐率(goodput)的下降。DSX Exchange的意义,就在于为这种跨层联动提供基础接口,使“电力—冷却—计算”真正进入同一个调度闭环。
4、DSX Sim/SimReady把设备模型推进为可运行、可验证的数字资产。DSX Sim和DSX SimReady其实共同服务于一个目标。就是把AI 工厂从“边建边调”推进到“先仿真、再落地”。
DSX Sim用于验证AI工厂高保真数字孪生的能力,可借助 DSX Air,对GPU、网络、存储,以及合作伙伴基础设施进行建模与预验证。
从实际价值看,DSX Sim 最有说服力的地方,在于它踩中了 AI基础设施建设里最昂贵的环节。训练和推理集群一旦进入大规模部署,网络拓扑、算力编排、自动化脚本和安全策略都很难靠后期慢慢修补。所以DSX Sim 的思路,就是把这些变量提前搬进仿真环境,用数字孪生先跑一遍。
SimReady则补上了另一块关键拼图。SimReady是建立在OpenUSD之上的 simulation-ready,面向具备真实属性、行为和数据绑定的3D 资产与数字孪生。
换句话说,仿真场景里的对象不能只“看起来像”,还要“行为上可用”。SimReady承担的就是工业仿真和物理 AI训练所需的数据结构基础。
因此,如果用一句话概括这套组合,DSX Sim解决的是仿真引擎与验证能力,DSX SimReady 是仿真资产标准。前者负责让 AI工厂在软件里先跑通,后者负责让进入仿真的设备、流程和设施足够真实。
![]()
截取自NVIDIA 官网
03 Omniverse DSX Blueprint:让AI工厂在开建前“上线”一次
如果说 Vera Rubin DSX解决的是“AI 工厂应该怎么建”,那么Omniverse DSX Blueprint 处理的,就是“在真正动工之前,怎样把方案想清楚”。
其实,NVIDIA在2025年10月首次推出 Omniverse DSX Blueprint时,将其定义为面向千兆瓦级AI 工厂的开放蓝图。 GTC 2026期间,NVIDIA进一步宣布,这套Blueprint已全面可用,并且与Vera Rubin DSX 参考设计完全兼容。
Omniverse DSX Blueprint是Vera Rubin DSX的数字孪生实现,用来对AI工厂设施进行设计仿真。
这套 Blueprint 对应是可交互、实时运行的应用框架。开发者可以基于它构建面向用户的应用,让用户直接调整AI 工厂设计参数,并在新的配置下实时查看仿真结果,包括在交互式视口中观察功率分布和热力变化。
官方对其定位的解释也很明确,这是一套“高物理保真的AI工厂数字孪生”蓝图,它的重点不在于把工厂“画出来”,而在于把电力、冷却、网络和运营纳入同一个物理一致的仿真环境中,用于支持大规模 AI 工厂的设计、建设和运行,最终得以缩短 AI 工厂投产周期,并提升整体运行效率。
这套蓝图主要包括几部分:
第一,是覆盖整个Vera Rubin DSX的数字孪生几何体集合。它以三维结构的形式,对数据中心的机架布局、空间结构以及关键基础设施进行建模,构成后续仿真的基础载体。
第二,是基于NVIDIA Omniverse相关库开发的前端Web应用。该应用提供可视化交互界面,用于与数字孪生模型进行操作,包括查看仿真结果、调整配置参数,以及创建和保存不同的数据中心建设方案。
第三,是可直接用于仿真的预构建资产,用于加速数字孪生的搭建过程。这些资产既包括计算流体力学(CFD, Computational Fluid Dynamics)相关的热通道模型,用于模拟散热与气流分布;也包括典型的DSX计算配置示例(如GB200、GB300 NVL72等方案),以及用于测试不同负载条件下功率变化的电气负载仿真模型。
![]()
截取自:GitHub
04 从工业软件到电网协同,NVIDIA拉起一张生态网
围绕这一框架,一个跨越能源、工业软件到基础设施的合作生态正在形成。
Dassault Systèmes正将Omniverse DSX Blueprint集成到其基于模型的系统工程平台中,并通过 CATIA 构建 AI 工厂的虚拟孪生,加速早期部署并提升系统可靠性;Schneider Electric 则引入 ETAP,用于配电系统的建模与优化。
在仿真与设计侧(EDA),Cadence将面向NVIDIA Grace Blackwell Ultra 机架系统的SimReady 模型整合进其数据中心数字孪生平台,用于热与流体行为仿真;Siemens则在探索一套框架,以平衡高密度算力与供电、散热及自动化系统之间的关系。
在工程建设与运维产业链上,Jacobs基于其构建数据中心数字孪生方案,覆盖从规划、设计到交付与运营的全过程;PTC 将其集成进 Windchill,把产品设计数据与实时仿真打通;Procore则将Omniverse与DSX Blueprint融入其平台,贯穿施工全生命周期,形成持续更新的数据闭环。
在实际部署层面,部分运营商已经开始基于这一框架构建AI工厂。Switch 利用Omniverse DSX Blueprint打造其EVO AI 工厂与操作系统,实现遥测数据驱动的实时优化;CoreWeave则通过 NVIDIA DSX Air 在云端预演 AI 工厂运行,大幅缩短交付前的验证周期。
与此同时,围绕“可仿真硬件”的生态也在快速完善。包括 Eaton、Vertiv、Trane Technologies 等厂商,正在提供发电、电气与冷却系统的SimReady资产,使整套 AI 工厂能够在建设前完成端到端验证。例如,Vertiv基于该蓝图推出预制化基础设施方案,而Trane 则利用其优化超大规模AI工厂的散热效率,从而降低能耗。
更值得注意的是,这一体系正在向“电网级协同”延伸。
当前,能源已经成为AI基础设施扩张的最大瓶颈,大量项目仍在等待并网。在此背景下,Emerald AI、GE Vernova、Hitachi 与 Siemens Energy等企业,正基于Vera Rubin DSX,将数字孪生能力从数据中心内部扩展至电网侧:一方面实现负载的动态调度与灵活控制,另一方面通过统一功耗与计算建模,提高电网接入效率与基础设施部署的可预测性。
05 写在最后
把Vera Rubin DSX、Omniverse DSX Blueprint,以及相关生态放在一起看,就能发现,NVIDIA所处的位置,已经不再只是芯片供应链中的上游环节。其正在向更高层的系统定义延展,覆盖产业基建(比如电网)AI工厂的设计范式、验证方法、生态接口,以及整体运营的框架。
在NVIDIA开发者博客上,我看到一句颇为凝练的概括,这是一套面向“chip to grid”的AI factory platform,意思是从芯片到电网全链路的AI工厂平台。
这背后的逻辑是什么?
第一,未来AI基建的采购模式,正在从过去的分项采购,逐步转向围绕参考设计展开的整体集成。客户获得的将是一整套高度协同的生产架构。
第二,数字孪生与仿真的环节明显前移,成为建设流程中的核心步骤,工程验证更多在虚拟环境中完成,而不是在系统上线之后以真实设备和时间成本来反复试错。
第三,即便是具备强大器件性能的单一芯片厂商,如果缺乏系统层的整合能力,也会越来越难适配这种“从芯片延展到电网”的一体化体系,因为客户的实际采购,已经转向整体交付能力、能效组织能力以及规模扩展效率。
这也正是Vera Rubin DSX和Omniverse DSX Blueprint更值得行业关注的地方——对AI基础设施生产方式的系统性重构。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.