英伟达开源3款新推理模型，收购1家AI公司|智能体|工作流|预训练|大模型

分享至

智东西12月16日报道，今日，英伟达推出了NVIDIA Nemotron 3系列开放模型、数据和库，并公布Nemotron 3 Nano模型的技术报告。

Nemotron 3模型包括Nano、Super、Ultra三种规模，可帮助大规模开发并部署可靠的多智能体系统，实现快速、长上下文推理。

Nemotron 3 Nano：拥有300亿参数的小型模型，每次运行最多激活30亿参数，适用于针对性、高效的任务，主打高计算成本效益，展现了增强的智能体、推理和聊天能力，针对软件调试、内容摘要、AI助手工作流及信息检索等任务进行了优化。
Nemotron 3 Super：拥有约1000亿参数的高精度推理模型，每个token最多激活100亿参数，适用于多智能体应用，在需要多智能体协作完成低延迟复杂任务的应用中表现出色。
Nemotron 3 Ultra：拥有约5000亿参数的大型推理引擎，每个token最多激活500亿参数，适用于复杂的AI应用，可服务于需要深度研究和策略规划的AI工作流。

Nemotron 3系列模型引入了混合Mamba-Transformer MoE架构、跨交互式环境的强化学习、原生100万个token的上下文窗口，为多智能体应用实现高吞吐量、长时域推理。

该模型引入了多项创新，直接满足了智能体系统的需求：

采用混合Mamba-Transformer MoE主干网，实现卓越的测试时间效率和长距离推理能力。
围绕真实世界的智能体任务设计的多环境强化学习。
支持深度多文档推理和长时间运行的智能体记忆的100万个token上下文长度。
一个开放、透明的训练流程，包括数据、权重和配方。

根据技术报告，相比类似参数规模的开放模型（如GPT-OSS 20B和Qwen3-30B-A3B-Thinking-2507），Nemotron 3 Nano实现了多达3.3倍的推理吞吐量。

Nemotron 3 Nano已上线Hugging Face平台，并通过Baseten、Deepinfra、Fireworks、FriendliAI、OpenRouter、Together AI等推理服务商提供。

Hugging Face地址：huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8

Nemotron 3 Nano体验地址：build.nvidia.com/nvidia/nemotron-3-nano-30b-a3b

Nemotron 3 Super和Ultra预计将于2026年上半年推出。这两款模型采用了基于NVIDIA Blackwell架构的超高效4位NVFP4训练格式和创新的潜在MoE架构，可显著降低显存需求，加速训练进程，提高模型质量。

这两款更高性能模型，将是明年开源社区期待的重点产品。

除了整套前沿开放模型外，英伟达还发布了面向专业AI智能体开发者的训练数据集与前沿强化学习库集合，多方位助力构建高精度、高效的专业AI智能体。

值得关注的是，英伟达并不只是追求基准测试成绩，而是通过开源开放，将训练数据、强化学习环境、训练代码等倾囊放出，希望更多开发者得以利用更优质的数据构建更好的模型，大幅降低开发门槛。

Nemotron 3模型权重根据英伟达开放模型许可协议公开发布。英伟达的合成预训练语料库（近10万亿个token）可供查阅或重新利用。开发者还可以访问Nemotron GitHub代码库中的详细训练和训练后处理方案，从而实现完全的可复现性和自定义性。

此外，英伟达今日宣布收购AI开源工作负载管理系统提供商SchedMD。SchedMD由Slurm软件开发人员Morris “Moe” Jette和Danny Auble于2010年在美国加州利弗莫尔创立。其提供开源的Slurm技术，可帮助安排可能占用数据中心服务器容量很大一部分的大型计算作业。

英伟达称将继续以开源方式分发SchedMD的软件，英伟达与SchedMD联手正在加强开源软件生态系统，以促进各行各业、各个规模的高性能计算和AI创新。

一、多项基准测试分数超30B Qwen3和20B GPT-OSS

Nemotron 3系列的首款产品Nemotron 3 Nano，专为DGX Spark、H100和B200 GPU设计，实现了高吞吐量效率。

独立AI基准测试机构Artificial Analysis评定该模型为同等规模模型中兼具极高开放性和效率及高精度的模型。

根据Nemotron 3 Nano技术报告，相比相似规模的Qwen3-30B-A3B-Thinking-2507和GPT-OSS-20B模型，Nemotron 3 Nano在多个基准测试中实现了同等或更好的精度。

在大多数通用知识、代码、数学、常识理解，阅读理解，多语言和长上下文基准中，Nemotron 3 Nano均取得了高于Qwen3-30B-A3B-Base模型的分数。

在数学和科学推理、编程、智能体工具使用、指令遵循、长期上下文理解和多语言能力等综合性能评估中，Nemotron 3 Nano在所有类别均超过了GPT-OSS 20B和Qwen3-30B-A3B-Thinking-2507。

在推理基准上，Nemotron 3 Nano超过了Qwen3模型，并与之前在这些类别中最好的模型GPT-OSS比肩。在智能体、聊天和长上下文类别中，Nemotron 3 Nano显著优于其他两种模型。

Nemotron系列模型的早期用户包括埃森哲、Cadence、CrowdStrike、Cursor、德勤、安永、Oracle Cloud Infrastructure、Perplexity、ServiceNow、西门子、新思科技和Zoom。他们正将Nemotron系列模型集成到制造、网络安全、软件开发、媒体、通信等行业的AI工作流中。

该模型已上线多个企业级AI与数据基础设施平台，包括Couchbase、DataRobot、H2O.ai、JFrog、Lambda及UiPath。

此外，Nemotron 3 Nano将通过Amazon Bedrock（无服务器模式）在亚马逊云科技（AWS）平台上提供给使用公有云的客户，并且也即将支持Google Cloud、Coreweave、Crusoe、Microsoft Foundry、Nebius、Nscale及Yotta。

Nemotron 3 Nano同时以NVIDIA NIM形式提供，可在NVIDIA加速基础设施上进行安全、可扩展的部署，具有极高的隐私性与可控性。

二、混合Mamba-Transformer、多环境强化学习训练、4位NVFP4训练

英伟达意在打造出更实用的模型，这在其模型设计中可见一斑。

1、混合Mamba-Transformer

Nemotron 3将三种架构集成到一个单一的主干网中：

用于高效序列建模的Mamba层；
用于精确推理的Transformer层；
MoE路由实现可扩展的计算效率。

Mamba擅长以最小的内存开销跟踪长距离依赖关系，即使处理数十万个token也能保持持续的性能。Transformer层通过精细的注意力机制对此进行补充，这些机制可以捕获代码操作、数学推理或复杂规划等任务所需的结构和逻辑关系。

MoE组件在不增加密集计算成本的情况下，显著提升了有效参数数量。每个token仅激活一部分专家，从而降低延迟并提高吞吐量。这种架构尤其适用于智能体集群，因为在集群中，许多轻量级智能体需要并发运行——每个智能体生成计划、检查上下文或执行基于工具的工作流。

▲Nemotron 3混合架构。该模型将Mamba-2和MoE层与少量自注意力层交错排列，在保持最先进准确率的同时，极大限度地提高了推理吞吐量。

Nemotron 3 Nano使用25T个token进行训练，batch size为3072，并采用Warmup-Stable-Decay（WSD）学习率调度策略，其中包含8B个token的学习率预热阶段，峰值学习率为1e-3，最小学习率为1e-5。

模型共有52层，其中23层为MoE层，23层为Mamba-2层，其余6层使用分组查询注意力机制（GQA），分为2个组。每个MoE层包含128个专家和1个共享专家，每个token激活6个专家。

该模型共有35亿个活跃参数和300亿个总参数，支持英语、德语、西班牙语、法语、意大利语和日语，使用Qwen进行了改进。

这一设计使其token吞吐量较Nemotron 2 Nano最高提升4倍，并减少了多达60%的推理token生成量，大大降低了推理成本。

▲Nemotron 3 Nano架构

2、多环境强化学习训练

为了使Nemotron 3更贴近真实的智能体行为，英伟达使用一个用于构建和扩展强化学习环境的开源库NeMo Gym在多种环境中对模型进行后训练。这些环境评估模型执行一系列动作的能力。

这种基于轨迹的强化训练方法能够生成在多步骤工作流程中表现可靠的模型，减少推理漂移，并处理智能体管道中常见的各种结构化操作。

这些环境和强化学习数据集，连同NeMo Gym，都是开源的。开发者可在为特定领域任务定制模型时，重用、扩展甚至创建自己的环境。

3、100万token上下文长度

Nemotron 3的百万级上下文容量，具有更强的记忆能力，在处理长时间多步骤任务时能更精准地关联信息，支持对大型代码库、长文档、扩展对话和聚合检索内容进行持续推理。

智能体不再依赖碎片化的分块启发式方法，而是可以将完整的证据集、历史缓冲区和多阶段计划保存在单个上下文窗口中。

其混合Mamba-Transformer架构能够高效地处理超大型序列，实现长上下文窗口。MoE路由也降低了每个token的计算量，使得在推理时处理这些大型序列成为可能。

不过由于Hugging Face配置中VRAM要求较高，默认上下文大小为256k。

4、潜在MoE（latent MoE）

Nemotron 3 Super和Ultra引入了潜在MoE，其中专家在将输出投影回token空间之前，先对共享的潜在表示进行操作。

这种方法使得模型能够在相同的推理成本下调用4倍的专家，从而更好地针对微妙的语义结构、领域抽象或多跳推理模式进行专门化。

▲标准MoE与潜在MoE架构对比。在潜在MoE中，token被投影到更小的潜在维度进行专家路由和计算，从而降低通信成本，同时支持更多专家并提高每字节的准确率。

5、多token预测（MTP）

MTP使模型能够在一次前向传播中预测多个未来token，显著提高长推理序列和结构化输出的吞吐量。

对于规划、轨迹生成、扩展思维链或代码生成，MTP可降低延迟并提高智能体的响应速度。

▲多token预测，同时预测多个未来token，在训练期间将准确率提高约2.4%，同时在推理时实现推测性解码速度的提升。

6、NVFP4训练

Super和Ultra模型均采用NVFP4格式进行预训练。NVFP4是英伟达的4位浮点格式，可在训练和推理方面提供一流的成本精度比，可显著降低显存需求并加速训练进程。

英伟达为Nemotron 3设计了更新的NVFP4算法，以确保在其25T token预训练数据集上实现准确稳定的预训练。预训练期间的大部分浮点乘加运算均采用NVFP4格式。

这种效率使更大规模模型能在现有基础设施上进行训练，不会因更高精度格式而牺牲准确性。

三、推出全新开放工具与数据，用于AI智能体定制

NVIDIA还发布了面向专业AI智能体开发者的训练数据集与前沿强化学习库集合，以前所未有的透明度展现了高性能、可信赖的模型是如何构建的。

3万亿token规模的全新Nemotron预训练、后训练及强化学习数据集，为开发高性能特定领域智能体提供了丰富的推理、编码及多步骤工作流范例。

Nemotron Agentic Safety数据集则提供真实场景的遥测数据，帮助团队评估并提升复杂智能体系统的安全性。

新数据集亮点包括：

Nemotron预训练3万亿个token的数据集，对代码、数学和推理的覆盖范围更广，并通过合成增强和标注管道得到增强。
Nemotron后训练3.0：包含1300万个样本的语料库，用于监督微调和强化学习，为 Nemotron 3 Nano的对齐和推理提供支持。
Nemotron-RL数据集：精选的强化学习数据集和环境集合，用于工具使用、规划和多步骤推理。
Nemotron智能体安全数据集：包含近11000个AI智能体工作流程轨迹的集合，旨在帮助研究人员评估和减轻智能体系统中新出现的安全风险。

为加速开发进程，英伟达发布了NeMo Gym与NeMo RL开源库，为Nemotron模型提供训练环境及后训练基础，同时还推出用于验证模型安全性和性能的NeMo Evaluator。

结合英伟达NeMo Gym、RL、Data Designer和Evaluator等开源库，上述开源数据集使开发者能够训练、增强和评估他们自己的Nemotron模型。

这些工具及数据集已上线GitHub和Hugging Face平台。

Nemotron 3已获得LM Studio、llama.cpp、SGLang和vLLM支持。此外，Prime Intellect与Unsloth正将NeMo Gym的即用型训练环境直接集成至其工作流，使团队能够更加快速、便捷地获得强大的强化学习训练能力。

同时，英伟达维护着一个开源的Nemotron GitHub代码库，其中包括：

预训练方案（已提供）展示了Nemotron 3 Nano的训练方式；
用于多环境优化的强化学习对齐方法；
数据处理流程、分词器配置和长上下文设置；
未来的更新将包括更多训练后调整和微调的配方。

GitHub存储库提供了文档、配置和工具，可端到端地重现关键步骤。

使用英伟达的开放资源，用户可以运行模型、部署模型、检查模型的构建方式，以及训练自己的模型。

四、四个阶段训练方法公开

英伟达已披露NVIDIA-Nemotron-3-Nano-30B-A3B-BF16模型的训练方法。

该模型使用英语以及其他19种语言和43种编程语言进行训练。其数据源涵盖多种文档类型，如网页、对话、文章和其他书面材料，语料库涉及法律、数学、科学、金融等多个领域。

为了提高模型准确率，英伟达还加入了一小部分问答和对齐类型的数据。该模型使用约25万亿个token进行训练。

该模型的的后训练语料库包含高质量的精选数据和合成数据。后训练使用的主要语言包括英语、德语、西班牙语、法语、意大利语和日语。

第一阶段：预训练

NVIDIA-Nemotron-3-Nano-30B-A3B-Base-BF16模型使用爬取和合成的代码、数学、科学和通用知识数据进行预训练。所有数据集均在Hugging Face上披露。预训练语料库的大部分已发布在Nemotron-Pre-Training-Datasets数据集中。

预训练所用软件：Megatron-LM

第二阶段：监督式微调

该模型在合成代码、数学、科学、工具调用、指令执行、结构化输出和通用知识数据上进行了进一步的微调。所有数据集均已公开。微调语料库的主要部分已发布在Nemotron-Post-Training-v3数据集中。

用于监督式微调的软件：Megatron-LM

第三阶段：强化学习

该模型在数学、代码、科学、指令跟随、多步骤工具使用、多轮对话和结构化输出等多种环境下，采用同步GRPO（群体相对策略优化）进行多环境强化学习。对话质量通过使用生成式奖励模型的RLHF进一步提升。

所有数据集均在本文档的“训练、测试和评估数据集”部分中公开。强化学习环境和数据集已作为NeMo Gym的一部分发布。

用于强化学习的软件：NeMo RL、NeMo Gym

第四阶段：训练后量化

包含KV缓存的模型被量化为FP8。为了在提高效率的同时保持准确性，英伟达采用了选择性量化策略，将注意力层和输入到这些注意力层的Mamba层保留为BF16。

用于量化的软件：模型优化器

NVIDIA-Nemotron-3-Nano-30B-A3B-FP8模型是上述工作的成果。完整的端到端训练方案可在NVIDIA Nemotron开发者代码库中找到。评估结果可使用NeMo Evaluator SDK进行复现。

结语：瞄准多智能体系统，追求透明与高效

“开放创新是AI进步的基础。通过Nemotron，我们将先进AI转化成开放平台，为开发者提供构建大规模代理式系统所需的透明度与效率。”英伟达创始人兼CEO黄仁勋说。

随着企业从单模型对话机器人转向协作式多智能体AI系统，开发者面临通信开销、上下文漂移和高推理成本等挑战。此外，开发者需要模型具备透明度，才能信任其用于自动化复杂工作流。

Nemotron 3开放模型则直面这些挑战，提供开发专业化代理式AI所需的性能与开放性，使初创公司能够更快开发和迭代AI智能体，并加快从原型到企业级部署的创新进程。

单一工作流中，在前沿模型与Nemotron之间进行任务路由，不仅能提供更强大的智能体，还可以优化token经济效益。

英伟达不仅仅是把目光放在单个模型上，而是押注于更庞大的智能体系统。要能对这些系统委以信任，开放、透明、可检查的基础架构至关重要。

Mayfield管理合伙人Navin Chaddha认为，英伟达的开放模型堆栈与NVIDIA初创加速计划为初创公司提供了各类模型、工具及经济高效的基础设施，助力其开展试验、实现差异化发展并快速扩展规模。Nemotron 3可以让创始人在构建代理式AI应用和AI队友方面取得先机，并帮助他们利用NVIDIA庞大的用户基础。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.