NVIDIA : 当"每瓦 Token"成为KPI,"AI工厂"开始比拼"系统力"|gpu|英伟达|高精度|flex|token|nvidia

分享至

作者：毛烁

先进封装、更多的HBM堆叠，以及单卡峰值算力的持续提升，曾经构成过去几年评估AI算力的核心框架。但进入2026年，这套方法已经明显失效。对于超大规模训练与推理集群而言，系统瓶颈正在快速从芯片内部转移到芯片之外。

供电能力是否充足、散热是否可持续、网络拓扑是否高效、数据中心的建设周期是否可控，乃至与公共电网之间的协同能力，开始共同决定整个系统的上限。

也正是在这一背景下，本次GTC期间，老黄释放了一个极具指向性的信号——数据中心的度量标准正在发生根本变化，“每瓦Token产出效率（Token per Watt）”正取代传统的峰值算力与单卡性能，成为新的核心KPI。

这一指标的变化，意味着评价对象已经从“芯片”转向“系统”。

当衡量标准从器件级跃迁到系统级，单点的优化便不再成立了，行业也就必然需要一套覆盖“设计—建设—运行”的整体方法论。

在这一前提下，NVIDIA在GTC 2026上给出的答案是一整套系统化框架：包括Vera Rubin DSX AI Factory参考设计、Omniverse DSX数字孪生蓝图，以及配套的DSX软件栈，用以打通从芯片到基础设施、从仿真到运营、从机房到电网的完整链路。

从产业意义上看，这套体系的分量，在于它正在把AI数据中心从“高密度服务器集群”，重定义为一个“可设计、可仿真、可调度、可并网”的工业化生产系统。

这种转变，将直接重塑未来AI基础设施的采购逻辑、建设流程与竞争门槛。

01 AI工厂的“度量衡”：从FLOPS、PUE 到“tokens per watt”

以往，数据中心的核心指标通常是FLOPS、PUE、机柜功率密度和设备利用率。那时，工作负载类型足够分散，计算、网络和设施层之间还可以保持相对松散的耦合关系。

在生成式AI成为主要负载后，情况发生了根本变化。训练与推理任务的持续高负载运行，使计算平台的商业价值不再只取决于芯片峰值性能，还取决于整个设施在固定能源预算下，究竟能够持续产出多少token，以及系统能否在长时间运行中保持稳定的整体有效吞吐率（overall goodput）。

也正是在这一逻辑之下，NVIDIA更新了Vera Rubin DSX AI Factory 参考设计（后文简称Vera Rubin DSX），就是用于构建“协同设计AI基础设施（codesigned AI infrastructure）”的参考架构，其核心目标是实现“每瓦最大Token产出（maximum tokens per watt）”以及更快的部署速度。

这一理念背后，包含两层关键变化。

其一，AI基础设施的价值评估，进一步从“硬件性能指标”迁移到“系统级生产效率指标”。当token成为核心产出单位时，供电、冷却、网络、调度乃至建筑交付周期，都会被纳入同一个经济模型进行统一优化。

其二，“参考设计”的内涵也在发生扩展。其不再只是传统意义上的硬件BOM（物料清单），而是一个跨层协同的系统框架。事实上，Vera Rubin DSX不仅覆盖计算、Spectrum-X Ethernet网络与存储，还配套开放、模块化、可组合的软件栈，用于将集群硬件与供电、冷却系统联动起来，从而在整体层面获取到更高的token per watt。

也就是说，NVIDIA正在把AI基础设施的竞争维度，从“谁的芯片更强”，推进到“谁能在相同电力约束下，组织起更高效的系统”。

理解Vera Rubin DSX配套的软件栈可以描述为三个关键词——“open, modular and composable”（开放、模块化、可组合）。

其核心目的，是将计算硬件集群与供电、冷却等基础设施系统连接起来，从而提升单位能源所能转化的AI产出（即token per watt）。这说明Vera Rubin DSX的边界已经越过传统意义上的 IT 软件栈，把原本属于设施运维范畴的变量，纳入了计算系统的统一优化对象。

02 Vera Rubin DSX软件栈：把电力、冷却、计算拉进调度闭环

围绕这一目标，Vera Rubin DSX提供一系列软件库，包括DSX Max-Q、DSX Flex、DSX Exchange，以及DSX Sim / DSX SimReady。分别对应——在固定功率约束下的性能优化、电网协同与负载弹性、IT与OT信号互通，以及基于数字孪生（Digital Twin）的系统级仿真与验证。

DSX Max-Q是最直接作用于“token per watt”的一层能力。“Max-Q”这一概念本身并不陌生，其最早用于描述功耗与性能之间的最优平衡点（power-performance sweet spot）。但在Vera Rubin DSX体系中，这一方法被提升到了AI工厂级别。

1、DSX Max-Q可以理解为系统级的电源与热管理调度中间件，能在严格限定的功耗包络（Power Envelope）内，动态分配GPU集群的计算负载，将有限电力转化为尽可能多的有效Token输出。

其核心机制，是通过更细粒度的功率调度，在不同计算与互连组件之间动态分配电力资源，使系统尽可能长期运行在更优的性能功耗比区间。这种调度不仅发生在GPU之间，还会扩展到CPU以及高速互连单元（如NVLink交换模块）之间。

在这种调度机制下，电力成了可以在系统内部流动的变量。由此带来的直接结果，是在不增加电力输入的前提下，数据中心可以承载更大规模的计算负载。本质上，是把原本浪费在冗余设计和保守运行区间中的功率预算，重新分配回有效计算。

这也意味着，AI工厂之间的竞争，正在从传统的“芯片性能与互连带宽”，扩展到“功率编排精度、热管理协同能力与负载调度策略”的系统级能力。

2、DSX Flex把 AI工厂纳入电网协同。如果把 DSX Max-Q 理解为“在固定功率天花板内实现更多产出”，那么 DSX Flex 对应的就是更外层的问题——AI 工厂如何在更大范围的能源网络中，成为可接受、可调度、可协同的负载。

DSX Flex用于将 AI工厂连接到power-grid services（电网配套服务），使其能够动态调整功耗，并协调现场混合发电资源，在降低能源成本的同时维持电网稳定。

在 2026 年 3 月的 Vera Rubin 平台官方稿件中，NVIDIA 又给出了更强的定性与定量描述：DSX Flex 让 AI factories 成为 grid-flexible assets，并可释放 100 gigawatts 的 stranded grid power。

无论最终行业是否完全按照这一理想路径落地，这一表述本身已经足够说明 NVIDIA 的战略意图：它不再把电网视为单向供电来源，而是把 AI 工厂视为可以参与调节的电力节点。

这件事之所以重要，在于它改变了AI基建项目的谈判逻辑。

未来大型 AI 工厂要争取的，已经不只是土地、机房与设备，还包括“被电网接受为柔性高价值负载”的资格。

对于电力运营者来说，最难处理的负载从来不是功率大，而是功率大且刚性强。DSX Flex 试图提供的，就是一种把 AI 负载做成软件定义柔性负载的方式。NVIDIA 开发者博客也给出了技术层面的辅助说明：DSX Flex 负责把 utility signals 转译为 cluster-level power events，而相关 DSX 能力则用于满足 ramp-rate compliance，并在整个工厂范围内动态编排工作负载功率预算。

从产业角度看，这一步会把 AI 基础设施的竞争边界直接推到公用事业侧。

3、DSX Exchange是让 IT与OT从“并行系统”变成“联动系统”。DSX Exchange的作用，是让计算系统真正“接入并调用”电力与冷却系统。从定位上看，DSX Exchange更接近基础设施层的“数据与控制总线”，用于在计算、网络、供电与冷却设备之间建立统一的通信与控制路径，从而打通IT系统（信息技术）与OT系统（运营技术）。

这一软件的关键，在于消除了数据中心内部长期存在的系统割裂。

其实，在传统架构中，GPU温度、网络拥塞、配电状态、冷却设备参数与设施控制策略，往往分属不同系统管理。它们虽然同时运行，但彼此之间缺乏低时延、可编排的联动机制。

DSX Exchange解决的正是这种“并行而不协同”的状态。让电力与冷却不再只是计算平台的外围条件，而成为调度系统可以实时感知、调用并反馈的资源。

从应用看，当“AI工厂”的规模进入百兆瓦级别后，这种跨域协同会变得愈发关键。任何局部的热瓶颈、瞬时功率波动或设施侧降额，都会被分布式训练与推理任务放大，最终转化为整集群吞吐率（goodput）的下降。DSX Exchange的意义，就在于为这种跨层联动提供基础接口，使“电力—冷却—计算”真正进入同一个调度闭环。

4、DSX Sim/SimReady把设备模型推进为可运行、可验证的数字资产。DSX Sim和DSX SimReady其实共同服务于一个目标。就是把AI 工厂从“边建边调”推进到“先仿真、再落地”。

DSX Sim用于验证AI工厂高保真数字孪生的能力，可借助 DSX Air，对GPU、网络、存储，以及合作伙伴基础设施进行建模与预验证。

从实际价值看，DSX Sim 最有说服力的地方，在于它踩中了 AI基础设施建设里最昂贵的环节。训练和推理集群一旦进入大规模部署，网络拓扑、算力编排、自动化脚本和安全策略都很难靠后期慢慢修补。所以DSX Sim 的思路，就是把这些变量提前搬进仿真环境，用数字孪生先跑一遍。

SimReady则补上了另一块关键拼图。SimReady是建立在OpenUSD之上的 simulation-ready，面向具备真实属性、行为和数据绑定的3D 资产与数字孪生。

换句话说，仿真场景里的对象不能只“看起来像”，还要“行为上可用”。SimReady承担的就是工业仿真和物理 AI训练所需的数据结构基础。

因此，如果用一句话概括这套组合，DSX Sim解决的是仿真引擎与验证能力，DSX SimReady 是仿真资产标准。前者负责让 AI工厂在软件里先跑通，后者负责让进入仿真的设备、流程和设施足够真实。

截取自NVIDIA 官网

03 Omniverse DSX Blueprint：让AI工厂在开建前“上线”一次

如果说 Vera Rubin DSX解决的是“AI 工厂应该怎么建”，那么Omniverse DSX Blueprint 处理的，就是“在真正动工之前，怎样把方案想清楚”。

其实，NVIDIA在2025年10月首次推出 Omniverse DSX Blueprint时，将其定义为面向千兆瓦级AI 工厂的开放蓝图。 GTC 2026期间，NVIDIA进一步宣布，这套Blueprint已全面可用，并且与Vera Rubin DSX 参考设计完全兼容。

Omniverse DSX Blueprint是Vera Rubin DSX的数字孪生实现，用来对AI工厂设施进行设计仿真。

这套 Blueprint 对应是可交互、实时运行的应用框架。开发者可以基于它构建面向用户的应用，让用户直接调整AI 工厂设计参数，并在新的配置下实时查看仿真结果，包括在交互式视口中观察功率分布和热力变化。

官方对其定位的解释也很明确，这是一套“高物理保真的AI工厂数字孪生”蓝图，它的重点不在于把工厂“画出来”，而在于把电力、冷却、网络和运营纳入同一个物理一致的仿真环境中，用于支持大规模 AI 工厂的设计、建设和运行，最终得以缩短 AI 工厂投产周期，并提升整体运行效率。

这套蓝图主要包括几部分：

第一，是覆盖整个Vera Rubin DSX的数字孪生几何体集合。它以三维结构的形式，对数据中心的机架布局、空间结构以及关键基础设施进行建模，构成后续仿真的基础载体。

第二，是基于NVIDIA Omniverse相关库开发的前端Web应用。该应用提供可视化交互界面，用于与数字孪生模型进行操作，包括查看仿真结果、调整配置参数，以及创建和保存不同的数据中心建设方案。

第三，是可直接用于仿真的预构建资产，用于加速数字孪生的搭建过程。这些资产既包括计算流体力学（CFD, Computational Fluid Dynamics）相关的热通道模型，用于模拟散热与气流分布；也包括典型的DSX计算配置示例（如GB200、GB300 NVL72等方案），以及用于测试不同负载条件下功率变化的电气负载仿真模型。

截取自：GitHub

04 从工业软件到电网协同，NVIDIA拉起一张生态网

围绕这一框架，一个跨越能源、工业软件到基础设施的合作生态正在形成。

Dassault Systèmes正将Omniverse DSX Blueprint集成到其基于模型的系统工程平台中，并通过 CATIA 构建 AI 工厂的虚拟孪生，加速早期部署并提升系统可靠性；Schneider Electric 则引入 ETAP，用于配电系统的建模与优化。

在仿真与设计侧(EDA)，Cadence将面向NVIDIA Grace Blackwell Ultra 机架系统的SimReady 模型整合进其数据中心数字孪生平台，用于热与流体行为仿真；Siemens则在探索一套框架，以平衡高密度算力与供电、散热及自动化系统之间的关系。

在工程建设与运维产业链上，Jacobs基于其构建数据中心数字孪生方案，覆盖从规划、设计到交付与运营的全过程；PTC 将其集成进 Windchill，把产品设计数据与实时仿真打通；Procore则将Omniverse与DSX Blueprint融入其平台，贯穿施工全生命周期，形成持续更新的数据闭环。

在实际部署层面，部分运营商已经开始基于这一框架构建AI工厂。Switch 利用Omniverse DSX Blueprint打造其EVO AI 工厂与操作系统，实现遥测数据驱动的实时优化；CoreWeave则通过 NVIDIA DSX Air 在云端预演 AI 工厂运行，大幅缩短交付前的验证周期。

与此同时，围绕“可仿真硬件”的生态也在快速完善。包括 Eaton、Vertiv、Trane Technologies 等厂商，正在提供发电、电气与冷却系统的SimReady资产，使整套 AI 工厂能够在建设前完成端到端验证。例如，Vertiv基于该蓝图推出预制化基础设施方案，而Trane 则利用其优化超大规模AI工厂的散热效率，从而降低能耗。

更值得注意的是，这一体系正在向“电网级协同”延伸。

当前，能源已经成为AI基础设施扩张的最大瓶颈，大量项目仍在等待并网。在此背景下，Emerald AI、GE Vernova、Hitachi 与 Siemens Energy等企业，正基于Vera Rubin DSX，将数字孪生能力从数据中心内部扩展至电网侧:一方面实现负载的动态调度与灵活控制，另一方面通过统一功耗与计算建模，提高电网接入效率与基础设施部署的可预测性。

05 写在最后

把Vera Rubin DSX、Omniverse DSX Blueprint，以及相关生态放在一起看，就能发现，NVIDIA所处的位置，已经不再只是芯片供应链中的上游环节。其正在向更高层的系统定义延展，覆盖产业基建（比如电网）AI工厂的设计范式、验证方法、生态接口，以及整体运营的框架。

在NVIDIA开发者博客上，我看到一句颇为凝练的概括，这是一套面向“chip to grid”的AI factory platform，意思是从芯片到电网全链路的AI工厂平台。

这背后的逻辑是什么？

第一，未来AI基建的采购模式，正在从过去的分项采购，逐步转向围绕参考设计展开的整体集成。客户获得的将是一整套高度协同的生产架构。

第二，数字孪生与仿真的环节明显前移，成为建设流程中的核心步骤，工程验证更多在虚拟环境中完成，而不是在系统上线之后以真实设备和时间成本来反复试错。

第三，即便是具备强大器件性能的单一芯片厂商，如果缺乏系统层的整合能力，也会越来越难适配这种“从芯片延展到电网”的一体化体系，因为客户的实际采购，已经转向整体交付能力、能效组织能力以及规模扩展效率。

这也正是Vera Rubin DSX和Omniverse DSX Blueprint更值得行业关注的地方——对AI基础设施生产方式的系统性重构。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.