模型也是一种“CUDA”：英伟达为何要260亿美金砸向开源模型？|gpu|黄仁勋|cuda

分享至

作者｜高飞

英伟达的GTC2026开幕前几天，看到Wired 杂志报了一个猛料：英伟达计划在未来五年投入260亿美元去开发开源模型。所以，等GTC真开起来的时候，我在现场就额外关注这方面的消息。

开源模型也确实在本次大会上，占了很大的篇幅。

黄仁勋先是在主题演讲中用大量篇幅谈论这个话题，有六个模型家族的最新进展，有 Nemotron 联盟（稍后我们会细讲）的成立。之后，他又在GTC期间主持了一场Open Model圆桌。开源模型显然已经成为英伟达最高优先级的战略方向之一。

一家以芯片、加速计算闻名的公司，为什么要在模型上投入如此大的力量？

NVIDIA AI 软件副总裁 Kari Briski（右）、至顶科技CEO高飞（左）

在GTC 期间，我把这个问题抛给英伟达 AI 软件副总裁 Kari Briski ，她给了我一个类比作为回答：

“我们把模型当成一个库来对待。开发者以依赖它，我们有清晰的路线图，会持续迭代，会持续支持它。”

一个库。这个类比，只有理解 CUDA 的人才能完全体会。

CUDA对英伟达的重要性其实已经无需多言。它的全称是 Compute Unified Device Architecture（统一计算设备架构），2007 年发布，最初的目的是让开发者用 C 语言直接编写 GPU 程序，而不必懂图形渲染。

在那之前，GPU 只能跑游戏画面；CUDA 出现后，GPU 变成了一台通用并行计算机。此后近二十年，英伟达围绕 CUDA 构建了一个庞大的生态系统。这个生态系统的核心，就是 Briski 所说的“库”。通俗来说，CUDA 的库就是英伟达替开发者写好的现成工具包，开发者不需要从零开始，调用 CUDA 中对应的库就能完成特定任务。

最主流的 AI 框架，底层都对 CUDA 做了深度优化。这意味着全球绝大多数 AI 模型的训练和推理，实际上都在 CUDA 的轨道上运行。

这些库的关键特征是：英伟达承诺长期维护，每一代新硬件发布时同步更新，保证向后兼容。开发者可以放心地把整个技术栈建在上面。所以，当 Briski 用“库”来类比开放模型时，我们自然就很容易感受到开放模型在英伟达业务中的“权重”了。

那么具体来说，开放模型具体能在英伟达的体系里扮演什么角色，起何种作用呢？在后续的采访中，Briski 从训练、生态、工具链和 agent 等维度展开了解释。

极致协同设计：训练模型的两重目的

Briski 在采访中首先强调了一个词：extreme co-design（极致协同设计）。这个表述最近也频繁出现在黄仁勋的公开演讲中。它描述的不是某一个产品，而是一种设计哲学：GPU、CPU、网络交换芯片、存储处理器等不同组件，在设计阶段就深度耦合，而非各做各的。芯片的架构设计会考虑模型训练的需求，模型的训练方案也会专门利用芯片的新特性，连接它们的软件栈则在两端之间做桥梁。英伟达认为这种方式是它区别于纯芯片公司或纯模型公司的根本所在。

在这种哲学下，英伟达亲自训练模型自然就有了两重目的。

第一重，面向外部：训练出的模型本身成为生态系统的公共资源。“我们可以把模型开放出去，让整个生态系统去使用、在上面微调、构建自己的业务”，Briski 说。

第二重，面向内部：训练过程本身是对整套基础设施的极限压力测试。“我们需要通过训练模型来把基础设施逼到极限”，她说，“不只是算力，还包括存储和网络。”当数千块、数万块 GPU 协同训练一个模型时，系统中任何一个环节的瓶颈都会暴露出来。

她举了一个具体的技术细节来说明第二点：NVFP4。这是英伟达随 Blackwell GPU 架构推出的一种 4 位浮点精度格式。通俗来说，AI 模型训练中的每个数值通常需要 16 位（FP16）甚至 32 位（FP32）来存储，精度越高结果越准确，但计算量和内存占用也越大。英伟达的 NVFP4 把每个数值压缩到仅 4 位，并通过一种“双层缩放”机制（每 16 个数值共享一个高精度缩放因子）来弥补精度损失。根据英伟达的技术文档，NVFP4 相比 FP16 可以将模型内存占用缩减约 3.5 倍，相比 FP8 缩减约 1.8 倍，同时在关键语言建模任务上的精度损失控制在 1% 以内。Blackwell Ultra GPU 的 NVFP4 峰值算力达到 15 petaFLOPS，是 FP8 的 3 倍。

“任何人大概都能用 NVFP4 训练一个基础模型”，Briski 说，“但你能做到在如此低的精度下仍然达到业界最高的准确率吗？如果不能，没有人会用它。”这正是“极致协同设计”要解决的问题：4 位精度能不能用，不取决于格式本身的定义，而取决于从芯片的张量核心（Tensor Core）到训练框架（如 NeMo Megatron）再到模型架构的整条链路是否全部做了针对性优化。

所以，训练一个开放模型，对英伟达来说，还起到了系统性能试金石的作用。

六个模型家族和一个联盟

如果说 CUDA已有的 400 多个库覆盖了计算层面的各种需求，那英伟达现在正在用不同尺寸的模型覆盖不同层面的需求。

GTC 2026 上，英伟达讲了模型家族：Nemotron 负责语言理解与推理，是接近 ChatGPT 或 Claude 的通用模型；Cosmos 是“世界基础模型”，为机器人提供对物理世界的理解能力，包括重力、阻力和空间感知；Isaac GR00T 专为人形机器人设计，让它们能够同时移动和操作物体；Alpamayo 面向自动驾驶，帮助车辆在复杂路况中进行推理和决策（在GTC大会期间，我也体验了Alpamayo的45分钟自动驾驶，全程0接管，乘坐体验很丝滑）；BioNeMo 用于生命科学，支持蛋白质结构预测和药物发现；Earth-2 则专注气候与天气模拟。六条线从数字世界延伸到物理世界，覆盖了 AI 可能触达的几乎所有前沿领域。

Briski 还提到了一个容易被忽视的细节：这六个模型家族之间会共享数据。“比如 Cosmos 团队就在为 Nemotron 模型贡献视觉理解数据。我们内部合作非常紧密。”

围绕这些模型，英伟达确实构建了一种 CUDA 开发者非常熟悉的节奏：清晰的路线图和可预期的迭代。Briski 提到，英伟达在 2025 年 12 月就发布了 Nemotron 模型的路线图：Nano、Super、Ultra 三个规格，分别对应轻量级、中等规模和前沿级。

目前，Ultra 版本（约5000 亿参数）的基础训练已经完成，进入后训练阶段。同时，英伟达宣布成立 Nemotron Coalition（Nemotron 联盟）。这个联盟的成员包括法国的 Mistral AI（欧洲最具影响力的模型公司之一）、AI 搜索引擎 Perplexity、AI 代码编辑器 Cursor，以及 agent 开发框架 LangChain、前OpenAI CTO Mira Murati创立的Thinking Machines Lab、Black Forest Labs、Reflection AI、Sarvam等。它们将使用英伟达的 DGX Cloud 算力资源，分别参与下一代 Nemotron 4 的模型训练、数据贡献、评估框架和领域专长等工作。

“路线图越清晰、承诺越明确，大家就越会意识到：这是一个可以长期依赖的库。”Briski 总结。

比开放权重更开放：把工具链也给你

说到开放模型，我们还有必要先厘清两个容易混淆的概念：开放权重（open weight）和开源（open source）。

Open-weight model（开放权重模型）：只公开训练后的参数（权重），不公开训练代码、数据集和架构细节。Llama等都属于这类。

Open-source AI model（开源 AI 模型）：按照 OSI 2024 年的定义，需要同时公开 data information、code、parameters 三者。OLMo、BLOOM 属于这类。

行业里常把这两个词混着用，但它们指向不同层次的“开放”。

开放权重，是指把模型训练完成后的参数（即“权重”）公开发布，任何人可以下载、部署和微调。你拿到的是一道做好的菜，可以加盐加醋调味，但看不到完整的食谱。

开源则更进一步：除了模型权重，还公开训练代码、数据集构成、架构细节，甚至训练过程中的中间检查点。你拿到的是整套食谱，包括原料清单、烹饪步骤和厨房设备说明。

而英伟达的Nemotron的开源就非常彻底，其开放了后训练方案（recipes）、强化学习的环境和验证器（verifiers）。根据英伟达公开的技术文档，其开放的预训练数据集规模达到 10 万亿 token。

这里需要解释一下“后训练”和“强化学习环境”。AI 模型的训练通常分为两个阶段：预训练（pre-training）是让模型阅读海量文本，学会语言的基本规律；后训练（post-training）则是在预训练的基础上，通过人类反馈或强化学习来调教模型的行为，让它变得更有用、更安全。后训练阶段中，“训练环境”是指模型练习解题的场景集合（比如数学题库、代码测试用例），“验证器”则是判断模型回答是否正确的评分系统。

目前行业内大多数公司开放模型时只发布最终的权重，而后训练阶段使用的训练环境和验证器通常不会公开。

不过，英伟达的做法不同。“我们正在和数据供应商合作，共同构建新的环境和验证器，并把它们开放出去，让大家能够理解如何自己创建这些环境。”Briski 告诉我。

Briski 认为，开放这些资源的价值在于降低整个行业的重复劳动。“算力即智能。我们公开这些，是因为我们意识到这可以为大家节省计算资源。”企业不用自己从零搭建训练环境，可以直接在英伟达提供的工具链上开始工作，把精力集中在自己最擅长的垂直领域。

她举了两个企业强化学习的例子。SAP 是全球最大的企业软件公司之一，其 ERP 系统中有至少 2000 个工具接口，需要训练模型学会在复杂的企业环境中正确调用这些工具。另一个例子是 Edison Scientific，Briski 提到他们用自定义模型训练了一套针对科学工具的 agent。

据公开资料，Edison Scientific 运营着一个叫 Kosmos 的 AI 科学家平台。这些企业不可能依赖通用模型的开放权重完成工作，它们需要在自己的环境中做强化学习。模型的开放权重只是起点，完整的训练工具链才是让企业持续受益、持续投入的基础。

从 OpenClaw 到 NemoClaw：当 Agent 成为模型的主要用户

聊完模型的开放策略，我在采访中向 Briski 提出了一个观察：如今大量的模型调用已经不是来自人类对话，而是来自 agent。Agent 对模型的消耗量甚至已经超过了人类用户，这对模型的设计和训练意味着什么？

Briski 说趋势确实如此。现在，AI 算力需求的演进可以概括为四个阶段：预训练、后训练、推理时扩展（test-time compute），再加上 agent 之间的协作。前三种已经被行业广泛讨论，第四种是新的。“想想去年，人们还对‘一个推理模型生成 10000 个 token 才得出答案’感到惊讶。现在已经没人再质疑这个了。而 agent 之间的协作可能涉及数十万 token。”

而说到 agent，就不能不提 OpenClaw。就在这次采访的前一天，黄仁勋在 GTC 2026 主题演讲中花了大量篇幅谈论这只“龙虾”。他把 OpenClaw 比作 Linux的产业影响，称其为“个人 AI 的操作系统”，并当场发布了英伟达为它打造的企业级方案 NemoClaw。在会场，我恰好遇到了 OpenClaw 的创始人 Peter Steinberger。我也和Briski 特别聊到了安全相关话题。

因为OpenClaw 的爆发增长，让企业级安全需求提前浮出水面。显然，一个能访问邮箱、日历、消息平台的自主 agent，显然需要比传统软件更严格的权限管控和数据隔离。甚至，对于个人消费者也如此。现在很多安装龙虾的人，是没有技术背景的，一旦操作不当，很容易造成隐私泄漏等问题。

Briski说，英伟达的 NemoClaw 正是为此而来。

NemoClaw 是英伟达版的OpenClaw，包含两个核心组件：OpenShell 是一个安全运行时，负责沙箱隔离、策略设置、安全路由和权限管控，它采用了一种“隐私路由器”机制，在将数据发送到外部云端模型之前自动剥离个人身份信息；内置的 Nemotron 模型则提供本地推理能力，不需要联网也能运行。整个方案一条命令即可安装。

Briski 又做了一个类比：“就像我们对 TensorFlow、PyTorch、Kubernetes、OpenGL 所做的，我们维护支持这些开源平台的完整性，同时贡献力量，确保它们在英伟达的硬件和软件库上运行得最好。”

之前我看到OpenClaw创始人Peter也在X上说，感谢英伟达带着安全专家，为OpenClaw提供帮助。

不过，尽管有了这些保障措施。OpenClaw的企业级部署仍处于早期阶段。“企业需要自己定义策略，然后回答三个问题：它被允许做什么？代表谁来做？使用什么凭证？”

这三个问题简洁得像一道哲学题，却是整个 agent 经济能否落地的关键。技术不是瓶颈，信任才是。

采访最后，我问了一个跳出具体产品的问题。Briski 在企业IT这个领域很资深，亲历了云计算、ERP 等多次技术浪潮。所以，“相比那些周期，生成式 AI 处在什么位置？”

她给了我一个非常简洁但确定的描述：“它的增长曲线是竖直的。这是我们见过的增长速度最快的工作负载之一。”

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.