英伟达成开源新王？Nemotron 3全新混合专家架构，推理效率升4倍|工作流|智能体|上下文|正式版模型|nemotron

英伟达成开源新王？Nemotron 3全新混合专家架构，推理效率升4倍

2025-12-16 17:03:47　来源: 机器之心Pro

北京举报

分享至

机器之心编辑部

英伟达的自研大模型，刚刚有了大版本的更新。

北京时间今天凌晨，英伟达发布了 Nemotron 3 系列开放模型，共三种规模，分别为Nano、Super 和 Ultra

Nemotron 3 Nano：300 亿参数规模的小模型，每次最多激活约 30 亿参数，适用于高度定向、极致高效的任务。
Nemotron 3 Super：约 1000 亿参数的高精度推理模型，每个 token 最多激活 100 亿参数，面向多智能体应用。
Nemotron 3 Ultra：约 5000 亿参数的大型推理引擎，每个 token 最多激活 500 亿参数，适用于复杂 AI 应用场景。

其中 Nemotron 3 Nano 已在 Hugging Face 上线，是目前计算成本效率最高的模型，针对软件调试、内容摘要、AI 助手工作流和信息检索等任务进行了优化，可显著降低推理成本。该模型采用独特的混合 MoE 架构，在效率与可扩展性方面实现了显著提升。

Nemotron 3 Nano 的总参数规模为 316 亿，激活参数规模为 32 亿（包含嵌入层为 36 亿）。在每次前向推理过程中，其激活的参数数量不到上代 Nemotron 2 Nano 的一半，却实现了更高的准确率。

与 Nemotron 2 Nano 相比，Nemotron 3 Nano 实现了最高 4 倍的 Token 吞吐量提升，并将推理阶段生成的 Token 数量减少最高 60%，显著降低推理成本。同时，100 万 Token 的上下文窗口使 Nemotron 3 Nano 具备更强的长期记忆能力，在多步骤、长链路任务中表现更为准确。

对于另外两款模型，Nemotron 3 Super 擅长需要大量协作智能体、且对低延迟要求极高的复杂任务；Nemotron 3 Ultra 则作为高级推理引擎，适用于深度研究与战略规划等高复杂度 AI 工作流。

斯坦福大学计算机科学副教授 Percy Liang 表示，这不仅仅是一个强大的开源模型。Nemotron 发布了训练数据、强化学习环境和训练代码。这意义重大：几乎所有模型开发者都只是希望人们使用他们的模型；而英伟达则让用户能够创建自己的模型。

英伟达认为，随着企业从单一模型聊天机器人转向协同工作的多智能体 AI 系统，开发者正面临通信开销高、上下文漂移以及推理成本居高不下等挑战。同时，能够支撑复杂工作流自动化的模型，必须具备足够的透明性与可解释性，才能赢得开发者与企业的信任。

Nemotron 3 正是为应对这些问题而生，为构建专业级智能体 AI 提供所需的性能与开放性。

英伟达创始人兼首席执行官黄仁勋表示：「开放式创新是 AI 进步的基石。通过 Nemotron，我们正在将先进 AI 转变为一个开放平台，为开发者提供在规模化构建智能体系统时所需的透明性与效率。」

Nemotron 3 系列的首款模型 Nemotron 3 Nano（30B-3A）已于今日上线，Nemotron 3 Super 和 Ultra 预计将于 2026 年上半年正式推出。

技术介绍

Nemotron 3 系列模型的核心技术包括如下：

混合 MoE（Hybrid MoE）

Nemotron 3 系列模型采用 Mamba-Transformer 混合 MoE 架构。在实现业界领先吞吐率的同时，其准确率优于或不逊于传统 Transformer 模型。

具体来说，传统方法通常将 MoE 层与代价昂贵的自注意力层交替堆叠，而自注意力机制在生成过程中需要随着序列变长，不断扩展 KV Cache，其计算和存储成本线性增长。

而 Nemotron 3 模型的核心改进是：大量采用 MoE 层与成本更低的 Mamba-2 层交替堆叠。Mamba-2 在生成时只需存储固定大小的状态（constant state），无需维护不断扩张的 KV Cache。

因此，只有少量自注意力层会被保留用于特定功能。图 1 展示了 Nemotron 3 Nano 的层级结构模式。

LatentMoE

Transformer 模型在不同部署场景下会遇到不同的性能瓶颈：低时延场景主要受限于内存带宽，高吞吐场景则受限于 MoE 的 all-to-all 通信。为同时兼顾速度与模型质量，英伟达提出了 LatentMoE 架构。

LatentMoE 的核心做法是：先将 token 从原始隐藏维度投影到更小的潜在维度，在这个低维空间中进行专家路由和计算，再投影回原维度。这样不仅减少了专家权重加载和通信成本，还能利用节省下的带宽与参数，增加专家数量和每个 token 激活的专家数，提高模型表达能力。

多 Token 预测（Multi-Token Prediction, MTP）

MTP 已经成为一种显著提升大语言模型准确率和推理效率的有效技术。已有研究包括 DeepSeek V3 以及最早提出 MTP 的工作表明：让模型一次预测多个未来 token，不仅能够提供更丰富的训练信号，还能促使模型提前规划多个推理步骤。

在 Nemotron 3 中引入 MTP 后，模型在验证集损失以及多个下游任务中都获得了稳定提升，包括通识知识、代码生成、常识推理、阅读理解和数学。

从系统层面看，MTP 仅引入极少量额外 FLOPs，并能无缝集成到训练流程中，同时带来可观的 speculative decoding 加速收益，整体效率依然保持极高水平。

NVFP4 低精度训练格式

英伟达在 NVFP4 数值格式下，成功实现了在 Mamba–MoE 混合架构上对最高 25 万亿（25T）tokens 的稳定且高精度的预训练。模型的权重、激活值和梯度均被量化为 NVFP4，使得前向传播、反向传播中的梯度计算和权重更新都可以使用 NVFP4 GEMM 运算。在 GB300 芯片上，FP4 的峰值吞吐量是 FP8 的 3 倍。

超长上下文（Long Context）

Nemotron 3 系列模型被设计为支持最长 100 万（1M）token 的上下文长度，以满足大规模、多轮、具备 Agentic 推理的应用需求。

在传统 Transformer 中，旋转位置编码（RoPE）是扩展上下文长度的主要瓶颈，因为 RoPE 在超过训练长度时会出现明显的分布外退化问题。而 Nemotron 3 使用的 Mamba 层天然具备隐式位置信息，因此模型在注意力层中完全不使用 RoPE，从而避免了 RoPE 带来的上下文扩展限制。

除了上述关键技术之外，Nemotron 3 系列模型还引入了两项面向实用性的核心能力，进一步增强了模型在真实世界应用中的可靠性、灵活性与泛化表现。

多环境强化学习后训练（Multi-environment RL Post-training）：Nemotron 3 模型在后训练阶段使用多种强化学习环境进行训练，使模型在广泛任务范围内实现更高的准确性与泛化能力。

推理阶段精细化推理预算控制：Nemotron 3 模型在训练时即支持推理阶段的计算 / 推理预算精细控制，可在实际部署中根据任务复杂度灵活权衡推理深度、性能与成本。

更多技术细节请参阅技术报告：

论文地址：https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-White-Paper.pdf
论文标题：NVIDIA Nemotron 3: Efficient and Open Intelligence

有趣的是，Nemotron 3 贡献者名单长达 2 页多，参与人数之庞大在开源模型中也是少见，足见这一系列模型背后投入的研发规模与工程复杂度。

Nemotron 3 表现

如下图所示，在覆盖多个类别的主流基准测试中，Nemotron 3 Nano-30B-A3B 的准确率优于 GPT-OSS-20B 和 Qwen3-30B-A3B-Thinking-2507。

在单张 H200、8K 输入 / 16K 输出配置下，Nemotron 3 Nano 的推理吞吐量是 Qwen3-30B-A3B 的 3.3 倍，是 GPT-OSS-20B 的 2.2 倍。

支持最长达 100 万 Token 的上下文长度，并且在不同上下文长度下的 RULER 基准测试中，性能均优于 GPT-OSS-20B 和 Qwen3-30B-A3B-Instruct-2507。

另外，独立 AI 基准评测机构 Artificial Analysis 将 Nemotron 3 Nano 评为同规模模型中最开放、最高效的模型之一，并具备领先的准确率。

目前，Nemotron 3 Nano 的多种型号模型、数据、模型配方均已开源。

得益于采用了 NVIDIA Blackwell 架构上的超高效 4-bit NVFP4 训练格式，Nemotron 3 Super 和 Ultra 可以大幅降低内存需求并加快训练速度，使得在现有基础设施上训练更大规模模型成为可能，同时在准确性上不逊于更高精度格式。

通过 Nemotron 3 模型家族，开发者可以根据具体工作负载选择最合适的开放模型，在从数十到数百个智能体的规模下灵活扩展，同时获得更快、更精准的长程推理能力。

面向智能体定制的全新开放工具与数据

英伟达同步发布了一整套训练数据集与先进的强化学习库，面向所有构建专业化 AI 智能体的开发者开放。

其中，囊括 3 万亿 Token 的全新 Nemotron 预训练、后训练及强化学习数据集，涵盖丰富的推理、编程和多步骤工作流示例，可用于打造高度专业化的领域智能体。

Nemotron 智能体安全数据集（Agentic Safety Dataset）提供真实世界的遥测数据，帮助团队评估并强化复杂智能体系统的安全性。

更多数据集请参阅：https://huggingface.co/nvidia

为了加速开发，英伟达还开源了 NeMo Gym 与 NeMo RL 库，提供 Nemotron 模型所需的训练环境和后训练基础，并推出 NeMo Evaluator 用于验证模型的安全性与性能。所有工具和数据集现已在 GitHub 和 Hugging Face 上开放。

目前，Nemotron 3 已获得 LM Studio、llama.cpp、SGLang 和 vLLM 的支持。此外，Prime Intellect 与 Unsloth 正将 NeMo Gym 的即用型训练环境直接集成到其工作流中，使团队能够更便捷地开展强化学习训练。

https://nvidianews.nvidia.com/news/nvidia-debuts-nemotron-3-family-of-open-models

https://research.nvidia.com/labs/nemotron/Nemotron-3/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.