黄仁勋突袭英特尔AMD腹地，联手王兴兴，打平三大国产模型|英伟达|gpu|amd|cuda|高带宽内存|nvidia

分享至

智东西
作者 ZeR0
编辑漠影

英伟达憋了许久的芯片大招，终于来了。

智东西6月1日报道，今日，在GTC台北大会上，英伟达创始人兼CEO黄仁勋穿着闪亮的黑色皮衣发表主题演讲，发布2款芯片、1款桌面级AI超算、多款开源AI模型、框架、函数库，还与宇树科技联合发布了基于宇树H2 Plus机器人的全新人形机器人参考设计。

传闻已久的英伟达首款Arm架构PC芯片终于亮相，名为RTX Spark超级芯片。黄仁勋宣布与微软推出全新PC产品线，并称“这是40年来PC产品线首次全面革新”，同样的智能体处理模式还将延展到各种设备上。

他说，计算机的这次革命，重要程度不亚于普通手机演变为智能手机，英伟达已为此制定产品路线图，每一代架构（Grace Blackwell、Vera Rubin、Rosa Feynman）都将配备台式机、笔记本和工作站。

英伟达还发布了全球最强大的Windows平台桌面AI超级计算机DGX Station，以及英伟达豪赌2000亿美元市场的大招——专为智能体设计的Vera CPU。这正是英伟达为智能体运行开拓的两大全新市场。

Anthropic、OpenAI、SpaceX三家AI巨头均率先部署Vera CPU。

在Q1财报期间，英伟达曾透露全新Vera CPU将开启一个价值2000亿美元的市场，预计Vera芯片收入将在本财年末达到200亿美元，成为“第二大销售贡献者”。

今日，黄仁勋称Vera CPU具有革命性意义，其产能爬坡令他非常满意，“目前的订单量已注定它将成为我们公司历史上最快速、最成功的产品发布。”

“NVIDIA Vera是英特尔和AMD x86_64处理器有史以来最强大的竞争对手。”Phoronix CPU Benchmark Suite作者Michael Larabel评价说。

面向智能体部署，英伟达推出迄今最强模型Nemotron 3 Ultra、企业级智能体工具箱。其中，Nemotron 3 Ultra的智能体生产力测试分数超过或打平了三个领先的国产智能体模型智谱GLM 5.1、月之暗面Kimi K2.6、阿里Qwen3.5。

面向物理AI，英伟达开源世界基础模型Cosmos 3、自动驾驶推理模型Alpamayo 2 Super，并宣布成立Cosmos联盟。

面向AI工厂，英伟达宣布Vera Rubin全面投产，并掏出了帮AI工厂更稳定、节能的两大利器DSX OS和DSX MaxLPS。

黄仁勋也一如既往地晒了一下英伟达庞大的“朋友圈”，并继续巩固热爱美食的人设，特别感谢了在夜市的水果摊贩，还给了花娘小馆、富霸王猪脚餐厅等几家饭店名字的特写镜头。

在演讲中，黄仁勋继续飙新金句：

“实用AI时代已经到来。”

“AI现在是利润生成器、GDP生成器。”

“计算即收入。”

“买得越多，赚得越多。”

“Token已成为盈利的收入单位。”

“仅仅因为芯片更便宜就选择错误的架构，是没有意义的。”

黄仁勋认为，在AI工厂时代，每产生1个token就能盈利，每瓦性能、可靠性和系统寿命才是核心财务杠杆。

AI工厂每吉瓦成本是200亿~300亿美元起步，现已攀升至500亿~600亿美元，不久后将达到800亿~1000亿美元。这些投资必须确保一次成功。

在黄仁勋看来，AI会减少工作岗位的说法“完全是无稽之谈”，AI反而推动了软件工程师需求的增长。

作为GTC惯例，英伟达的机器人生态全家福再次展出。

最后，在演讲末尾，英伟达播放了由一群人形机器人、OpenClaw龙虾、黄仁勋数字人共同参演的音乐MV。

一、英伟达自研PC芯片登场：3nm制程，最高1P算力，能跑1200亿参数大模型

“时隔40年，微软与英伟达将重新发明PC（个人计算机）。”黄仁勋宣布，英伟达与微软面向个人智能体时代重新构想PC，推出为游戏和智能体而生的RTX Spark超级芯片。

RTX Spark超级芯片采用台积电3nm工艺，内置700亿颗晶体管，提供128GB LPDDR5X统一内存和1PetaFLOPSFP4 AI算力，号称是“史上能效最高的RTX芯片”。

其中，Blackwell RTX GPU有6144个CUDA核心和第五代Tensor Core，并通过NVLink C2C芯片间互连技术连接到与联发科合作开发的定制20核Grace CPU。

黄仁勋将RTX Spark称作“世界上制造过的最神奇的芯片”，“英伟达100%的软件栈都在其上运行”。

RTX Spark融合了英伟达33年的创新成果，为全球首款专为个人智能体打造的Windows PC提供动力。英伟达CUDA可在RTX Spark上原生运行。

搭载RTX Spark的PC，可以使用OptiX和DLSS渲染90GB超大型3D场景，使用英伟达Blackwell解码器编辑12K 4:2:2视频，运行具有100万个token上下文的1200亿参数大语言模型，以及使用光线追踪、DLSS和Reflex以1440p分辨率和每秒100帧以上的速度玩3A游戏。

以前使用PC，用户要启动应用程序，点击鼠标，输入文字。现在使用RTX Spark和微软Windows，用户只需提出请求，电脑就能完成工作。

此外，Adobe为RTX Spark重新设计了Adobe Photoshop和Premiere的架构，新版本在创意工作流程中，可将AI、编辑、调色和特效的处理速度最高提升至2倍。

微软与英伟达正在对整个PC进行全面重塑，发布了面向智能体的全新三大Windows产品线，涵盖笔记本电脑、台式机、桌面超算。

搭载RTX Spark的笔记本电脑和紧凑型台式机将于今年秋季推出。

笔记本电脑厚度仅为14mm，重量仅3磅，有14至16英寸多种尺寸选择，可以24小时不间断本地“养龙虾”。

二、全球最强桌面级AI超算：748GB内存，20P算力，能跑万亿参数模型

英伟达今日还推出了一款适用于Windows的桌面AI超级计算机DGX Station。

DGX Station for Windows由微软合作开发，基于英伟达DGX Station系统设计，搭载英伟达GB300 Grace Blackwell Ultra桌面级超级芯片，提供最高748GB统一内存、20PetaFLOPSFP4算力、800GbpsConnectX-8 SuperNIC网络，与所有Windows软件兼容，可运行万亿参数级AI模型，并可同时运行数百个智能体。

它支持额外配置一张RTX Pro 6000工作站级GPU，将前沿AI算力与光线追踪可视化相融合，用于跨创意设计和工程应用运行智能体。

DGX Station for Windows预计将于今年第四季度由主流系统集成商上市。

黄仁勋预言，未来有一天，每个家庭都会有一台AI超级计算机，运行着你所有的智能体和助手。

三、Vera CPU：88核、1.2TB/s内存带宽，专为智能体设计

传统CPU追求每颗插槽的核心数，切片、虚拟化、按小时出租。在智能体时代，CPU已成为GPU利用率的瓶颈，直接影响token吞吐量、时延与用户体验。

对此，英伟达推出其最先进的CPU——专为智能体而生的Vera CPU。

Vera CPU采用LPDDR5X内存（带宽1.2TB/s）、支持PCIe Gen6，内外带宽均达同类最高性能CPU的2至3倍，也是首款在纠正多位错误的同时不损失带宽的CPU。

它基于英伟达第二代可扩展一致性架构，将88个英伟达定制Arm核心Olympus统一在一个单片Mesh网络上，在智能体工作负载上实现了最高的单线程性能与最佳能效比。

其核心并未分散在多个Chiplet上，核心之间的通信速度比传统CPU快50%。Vera支持内存一致性，NVLink-C2C芯片间互联可将GPU直连到架构，还可以将Vera扩展到多个插槽，在CPU之间实现巨大频宽。

与Grace CPU相比，Vera的每个核心每时钟周期可多执行50%的指令。

与配备DDR5的x86 CPU相比，Vera每个核心的带宽多达3倍；与x86 CPU相比，峰值内存延迟降低了40%，在检索分析与沙箱执行中保持核心供给及时。

在Python代码分析、代码编译等常见智能体工具的行业标准基准测试中，Vera的智能体沙箱性能是与x86 CPU竞品性能的1.8倍。

该处理器有四大核心设计原则：领先的每时钟指令数（IPC）/ 单线程性能、每核心带宽、总带宽以及能效。

Vera每时钟可取指、解码并执行10条指令，IPC全球最高。

英伟达Olympus核心专为现代数据中心工作负载、分支密集型Python运行时、工具调用和沙箱代码执行而优化。

每颗核心均为吞吐量调优：神经分支预测器可在每个周期评估两个选定分支，10-Wide解码引擎可在每个周期代入更多工作负载，大型乱序执行引擎维持着指令的运作，新型图引擎的高阶预取器可预测下一个数据路径。

Vera片上高速互联总线带宽达3.4TB/s，无芯粒税（chiplet tax），无跨片边界损耗，所有核心可与其他任何核心及缓存无延迟通信，不存在调度冲突。

Vera CPU已进入全面量产，并将于今年秋季通过系统合作伙伴正式上市。

Anthropic、OpenAI、SpaceX均是Vera CPU的早期采用者。

在SQL 1TB基准测试中，Vera CPU的SQL运行速度达到竞品的3倍。

Vera CPU正在为纽约证券交易所（NYSE）运行实时流处理，实现了6倍的性能提升。

四、人形机器人参考设计：宇树机身+Sharpa灵巧手，开箱即用

NVIDIA Isaac GR00T参考人形机器人是首款基于英伟达Jetson Thor和Isaac GR00T平台构建的开放人形机器人参考设计。

这个参考设计集成了宇树H2 Plus人形机器人、Sharpa Wave五指灵巧手、英伟达Jetson Thor处理器以及Isaac GR00T软件和工作流程，并预装了英伟达GR00T 1.7人形机器人模型，开箱即用。

具体包括：

宇树H2人形机器人底盘：身高近6英尺，重150磅，全身有31个自由度，用于人体尺度测试。
双Sharpa Wave触觉五指灵巧手：可实现22个自由度的灵巧操作，使机器人在身体和手部达到75个自由度。
多视角传感器：包括一个头戴式立体摄像头（水平140度，垂直102度），用于近距离操作的腕部摄像头，以及一个用于运动跟踪的惯性测量单元。
全身控制：手臂扭矩高达120N·m，腿部扭矩达360N·m，手臂额定有效载荷为7公斤，峰值有效载荷为15公斤，举升和伸展能力更强。
英伟达Jetson AGX Thor T5000板载计算：配备NVIDIA Blackwell GPU，FP4 AI性能达2070TFLOPS，14核Arm CPU，128GB统一内存，以及可配置的40至130瓦功率范围，用于实时传感器处理和机器人推理。
支持以太网、Wi-Fi 6、蓝牙5.2、USB连接，并配备一系列麦克风和扬声器，用于语音交互。
电池容量为15Ah，0.972kWh，续航时间约为3小时，可延长运行时间。
远程紧急停止功能，可快速安全地脱离机器人。

宇树科技已在官方公布Isaac GR00T参考人形机器人的全身配置：

今年年底，NVIDIA Isaac GR00T参考人形机器人将由宇树科技提供。

NVIDIA Isaac GR00T开发者平台还将支持宇树G1人形机器人。针对宇树G1的参考工作流程预计很快将在GitHub和Hugging Face上提供给机器人开发人员。

为什么要做这件事？

黄仁勋说，研究实验室从人形机器人制造商那里获得的机器人，尚未达到量产就绪状态，因此，实验室将大量时间和精力花在使机器人的基本功能正常运作上。

而一个能够规模化开发、配备备用零件、开箱即用的平台，将计算、软件栈、手部和机身全部集成在一起，统一设计协同运行，并配备完整的仿真能力，使研究实验室能直接开箱使用，立即投入研究。

四、开源英伟达最强世界模型：5500亿参数，5倍速度、成本降低30%

英伟达致力于为全世界构建开源模型，让人人都能打造属于自己的智能体。

Nemotron 3 Ultra是英伟达迄今最强的新一代开源基础模型，也是面向自主智能体能力最强的模型，共有5500亿个参数。

这是全球首个基于SSM（状态空间模型）与专家混合（MoE）混合架构的模型。

它的速度是同级别领先模型的5倍，完成相同智能体任务所需的运行成本降低30%。

“无论是总浮点运算量还是总推理时间，均优于目前最具性价比的开源模型。”黄仁勋总结说。

目前英伟达正在研发Nemotron 4。

五、打造智能体工具包，智能体将芯片设计验证提速40多倍

黄仁勋说，下面这张图是本场演讲中最重要的一张幻灯片，也是最核心的结论：

这是未来十年的应用模式、计算模式，每家公司都会采用。

如何帮助企业安全地构建和运行智能体？为此，英伟达推出了企业级智能体工具包（NVIDIA Agent Toolkit for Enterprise AI）。

英伟达智能体工具包结合了大语言模型、智能体框架和企业级运行时，能为企业内部提供高度安全的环境。

所有智能体都可以使用基于NVIDIA CUDA-X库（包括 cuDF、cuOpt、AI-Q、NeMo、PhysicsNeMo和CUDA-Q）的智能体Skills。

这些经过验证的英伟达智能体Skills可在Claude Code插件市场和Hermes Skills Hub中找到。

NVIDIA OpenShell是这些自主智能体的安全运行时环境，为智能体操作提供独立的沙箱、集中式策略执行和治理管理网关，并可在Ubuntu、Windows、Red Hat OpenShift等主流企业平台上运行。

黄仁勋说，他最喜欢的智能体应用案例之一是芯片设计。

英伟达与Cadence合作，打造了一款芯片设计超级智能体。

通过协调寄存器传输级生成、测试平台创建、回归测试和调试，这个超级智能体可自动运行数百次模拟和形式化检查，可将原本耗时数周的工作压缩到几小时，验证周期快了40多倍。

“英伟达拥有数千名芯片设计师。我们将引入数十万名Cadence超级智能体与我们协同工作，加速公司发展。”黄仁勋说。

六、物理AI：全新世界模型、自动驾驶推理模型开源

物理AI最大的挑战是数据。对此，英伟达推出一款面向物理AI的开源世界基础模型Cosmos 3。

Cosmos 3基于混合Transformer架构，将视觉推理和跨文本、视频、图像、环境音效和动作的多模态生成功能整合到一个模型中，帮助开发者创建具有物理上下文的世界数据。

该模型是VANTAGE-Bench测试榜上排名第一的开放视觉语言模型。

开发者可针对不同形态和应用场景对Cosmos 3进行后训练（post-train），比如用于世界推理、合成数据、闭环仿真器或世界动作模型。

所有模型、代码和训练方案均已在Hugging Face和GitHub上开放。

同时，英伟达宣布成立Cosmos联盟（Cosmos Coalition），Agile Robots、Black Forest Labs、Runway、LightTricks、Skilled AI等部分顶尖AI实验室正与英伟达共同开发下一代Cosmos。

面向自动驾驶领域，英伟达也推出了全新物理AI模型、框架、函数库：

（1）Alpamayo 2 Super：一款拥有320亿参数的开放自动驾驶推理模型，专为推理、规划、标注和评估设计。

（2）AlpaGym：一款开源闭环强化学习框架，让开发者能够在仿真环境中训练自动驾驶策略，模型动作能够真实影响后续仿真结果。

（3）OmniDreams：一款基于Cosmos构建的专用角色模型，可大规模生成稀有、逼真的长尾驾驶场景。

（4）全新Omniverse NeRF函数库：能在单块GPU上以25ms以内的速度完成真实世界的重建与渲染，使开发者可实时评估模型的感知效果。

这些发布共同为自动驾驶开发者提供了一条更快速、更安全的L4自动驾驶实现路径。

七、Vera Rubin已全面投产

今年年初发布的Vera Rubin，现已全面投产。

黄仁勋说，Vera Rubin是英伟达史上最具雄心的项目，全公司40000名工程师都参与其中。

Vera Rubin专为运行智能体而生，是一套完整的分解式分布式智能体处理系统，包含Vera Rubin NVL72系统、液冷Vera CPU机架、Vera BlueField-4 STX存储和安全系统、Groq 3 LPX低延迟推理托架和Spectrum-X Ethernet Photonics网络。

该平台由中国台湾超过150家供应链生态合作伙伴参与，遍布数百个工厂。所有组件均通过极致协同设计（extreme co-design）打造。

英伟达为Vera Rubin打造的供应链，规模是Grace Blackwell的2倍。

以前组装一个 Grace Blackwell机架需要2小时，现在只需5分钟。产能更高，出货速度也大幅提升。

单个液冷Vera CPU机架容纳256颗CPU，负责模型编排、内存调度与工具调用。

在富士康与广达，Groq LPX逐步成形。256颗Groq LPU分布于16个托盘，片上静态随机存储器（SRAM）带宽高达40PB/s，实现超低时延。

Spectrum-X Ethernet Photonics是全球首款采用共封装光器件的200Gb/s SerDes以太网交换机，现已投入生产。

Vera BlueField-4 STX由BlueField-4加速，在芯片层面处理安全问题：DOCA Argus可将威胁检测时间从分钟缩短至毫秒；DOCA Vault可在机架规模上保护AI数据。

八、DSX：帮企业构建和管理AI工厂，相同功耗下多塞40%的GPU

英伟达曾经在计算机内部设计一颗芯片，然后在计算机内部仿真一个系统，如今终于可以在数字框架、数字仿真器、数字世界中构建这些庞大的系统，在破土动工、投入真金白银之前验证一切。

黄仁勋解释说，RTX对应GPU，DGX对应系统，而DSX对应基础设施。

世界正在竞相建设AI工厂芯片、机架、网络、电力、冷却、电网每一层都必须从头到尾协同设计，因为“计算即收入”。

NVIDIA DSX是以最高效率和盈利能力设计、建设与运营AI工厂的参考设计，致力于实现最低Token成本，并守护能源电网安全。

今日，英伟达推出适用于DSX平台的全新AI工厂操作系统DSX OS和DSX MaxLPS。

DSX OS是一款模块化、开源、可扩展的基础设施软件，专为AI工厂运营商设计，负责配置、运营、监控和修复基础设施，将已安装的系统转化为可信赖的多租户、高弹性、AI就绪的算力容量。

DSX OS开源组件的生态合作伙伴可接入自有软件，并通过ISV（独立软件供应商）生态加以扩展。

DSX MaxLPS是一套专门设计的技术组合，能与Vera Rubin硬件的动态功耗特性协同配合，统筹优化算力吞吐，帮助数据中心运营商在相同功耗、电力预算下可多提供40%的GPU，每年可新增数十亿美元的营收。

热液冷却技术在45℃下运行，耗水更少、能耗更低，将更多电力导向创收算力；动态电力调配技术将电力从机架到机架灵活调度，回收闲置功耗，将其输送至有工作负载的地方；机架内削峰平滑技术抑制电流尖峰和功率浪涌，稳定整个工厂的供电；智能体团队与DSX MaxLPS协作，持续协调冷却与电力，以满足工作负载需求。

结语：一切为了帮客户实现最高利润

2026年正成为AI发展史上极为重要的一年。智能体的拐点正在推动生产力大幅提升，创造巨大的商业机遇。

黄仁勋总结了英伟达构建AI基础设施的优势：

1、首个Token时延、首次推理启动时延、训练启动时延都更短。

2、每瓦吞吐量、每瓦Token数是世界顶级。仅仅因为芯片更便宜就选择错误的架构，这不划算。每瓦Token数才是关键，买得越多，赚得越多。

3、可靠性。英伟达已经在超大规模下运营很久，这些经验非常宝贵。

4、系统使用寿命。每隔几个月，软件行业就会涌现出新技术。英伟达的系统遍布全球，软件开发者从英伟达CUDA起步，因此生态系统和资产的有效使用寿命自然会更长。如果资产寿命长，则总拥有成本（TCO）低。

正如黄仁勋强调的，英伟达已经不仅仅是一家GPU公司和系统公司，而是一家基础设施公司，一切都是为了帮客户实现最大营收、最高利润，并尽快实现目标。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.