网易首页 > 网易号 > 正文 申请入驻

英伟达成开源新王?Nemotron 3全新混合专家架构,推理效率升4倍

0
分享至



机器之心编辑部

英伟达的自研大模型,刚刚有了大版本的更新。

北京时间今天凌晨,英伟达发布了 Nemotron 3 系列开放模型,共三种规模,分别为Nano、Super 和 Ultra

  1. Nemotron 3 Nano:300 亿参数规模的小模型,每次最多激活约 30 亿参数,适用于高度定向、极致高效的任务。
  2. Nemotron 3 Super:约 1000 亿参数的高精度推理模型,每个 token 最多激活 100 亿参数,面向多智能体应用。
  3. Nemotron 3 Ultra:约 5000 亿参数的大型推理引擎,每个 token 最多激活 500 亿参数,适用于复杂 AI 应用场景。



其中 Nemotron 3 Nano 已在 Hugging Face 上线,是目前计算成本效率最高的模型,针对软件调试、内容摘要、AI 助手工作流和信息检索等任务进行了优化,可显著降低推理成本。该模型采用独特的混合 MoE 架构,在效率与可扩展性方面实现了显著提升。

Nemotron 3 Nano 的总参数规模为 316 亿,激活参数规模为 32 亿(包含嵌入层为 36 亿)。在每次前向推理过程中,其激活的参数数量不到上代 Nemotron 2 Nano 的一半,却实现了更高的准确率。

与 Nemotron 2 Nano 相比,Nemotron 3 Nano 实现了最高 4 倍的 Token 吞吐量提升,并将推理阶段生成的 Token 数量减少最高 60%,显著降低推理成本。同时,100 万 Token 的上下文窗口使 Nemotron 3 Nano 具备更强的长期记忆能力,在多步骤、长链路任务中表现更为准确。

对于另外两款模型,Nemotron 3 Super 擅长需要大量协作智能体、且对低延迟要求极高的复杂任务;Nemotron 3 Ultra 则作为高级推理引擎,适用于深度研究与战略规划等高复杂度 AI 工作流。

斯坦福大学计算机科学副教授 Percy Liang 表示,这不仅仅是一个强大的开源模型。Nemotron 发布了训练数据、强化学习环境和训练代码。这意义重大:几乎所有模型开发者都只是希望人们使用他们的模型;而英伟达则让用户能够创建自己的模型。



英伟达认为,随着企业从单一模型聊天机器人转向协同工作的多智能体 AI 系统,开发者正面临通信开销高、上下文漂移以及推理成本居高不下等挑战。同时,能够支撑复杂工作流自动化的模型,必须具备足够的透明性与可解释性,才能赢得开发者与企业的信任。

Nemotron 3 正是为应对这些问题而生,为构建专业级智能体 AI 提供所需的性能与开放性。

英伟达创始人兼首席执行官黄仁勋表示:「开放式创新是 AI 进步的基石。通过 Nemotron,我们正在将先进 AI 转变为一个开放平台,为开发者提供在规模化构建智能体系统时所需的透明性与效率。」

Nemotron 3 系列的首款模型 Nemotron 3 Nano(30B-3A)已于今日上线,Nemotron 3 Super 和 Ultra 预计将于 2026 年上半年正式推出。



技术介绍

Nemotron 3 系列模型的核心技术包括如下:

混合 MoE(Hybrid MoE)

Nemotron 3 系列模型采用 Mamba-Transformer 混合 MoE 架构。在实现业界领先吞吐率的同时,其准确率优于或不逊于传统 Transformer 模型。

具体来说,传统方法通常将 MoE 层与代价昂贵的自注意力层交替堆叠,而自注意力机制在生成过程中需要随着序列变长,不断扩展 KV Cache,其计算和存储成本线性增长。

而 Nemotron 3 模型的核心改进是:大量采用 MoE 层与成本更低的 Mamba-2 层交替堆叠。Mamba-2 在生成时只需存储固定大小的状态(constant state),无需维护不断扩张的 KV Cache。

因此,只有少量自注意力层会被保留用于特定功能。图 1 展示了 Nemotron 3 Nano 的层级结构模式。



LatentMoE

Transformer 模型在不同部署场景下会遇到不同的性能瓶颈:低时延场景主要受限于内存带宽,高吞吐场景则受限于 MoE 的 all-to-all 通信。为同时兼顾速度与模型质量,英伟达提出了 LatentMoE 架构。

LatentMoE 的核心做法是:先将 token 从原始隐藏维度投影到更小的潜在维度,在这个低维空间中进行专家路由和计算,再投影回原维度。这样不仅减少了专家权重加载和通信成本,还能利用节省下的带宽与参数,增加专家数量和每个 token 激活的专家数,提高模型表达能力。



多 Token 预测(Multi-Token Prediction, MTP)

MTP 已经成为一种显著提升大语言模型准确率和推理效率的有效技术。已有研究包括 DeepSeek V3 以及最早提出 MTP 的工作表明:让模型一次预测多个未来 token,不仅能够提供更丰富的训练信号,还能促使模型提前规划多个推理步骤。

在 Nemotron 3 中引入 MTP 后,模型在验证集损失以及多个下游任务中都获得了稳定提升,包括通识知识、代码生成、常识推理、阅读理解和数学。

从系统层面看,MTP 仅引入极少量额外 FLOPs,并能无缝集成到训练流程中,同时带来可观的 speculative decoding 加速收益,整体效率依然保持极高水平。

NVFP4 低精度训练格式

英伟达在 NVFP4 数值格式下,成功实现了在 Mamba–MoE 混合架构上对最高 25 万亿(25T)tokens 的稳定且高精度的预训练。模型的权重、激活值和梯度均被量化为 NVFP4,使得前向传播、反向传播中的梯度计算和权重更新都可以使用 NVFP4 GEMM 运算。在 GB300 芯片上,FP4 的峰值吞吐量是 FP8 的 3 倍。

超长上下文(Long Context)

Nemotron 3 系列模型被设计为支持最长 100 万(1M)token 的上下文长度,以满足大规模、多轮、具备 Agentic 推理的应用需求。

在传统 Transformer 中,旋转位置编码(RoPE) 是扩展上下文长度的主要瓶颈,因为 RoPE 在超过训练长度时会出现明显的分布外退化问题。而 Nemotron 3 使用的 Mamba 层天然具备隐式位置信息,因此模型在注意力层中完全不使用 RoPE,从而避免了 RoPE 带来的上下文扩展限制。

除了上述关键技术之外,Nemotron 3 系列模型还引入了两项面向实用性的核心能力,进一步增强了模型在真实世界应用中的可靠性、灵活性与泛化表现。

多环境强化学习后训练(Multi-environment RL Post-training):Nemotron 3 模型在后训练阶段使用多种强化学习环境进行训练,使模型在广泛任务范围内实现更高的准确性与泛化能力。

推理阶段精细化推理预算控制:Nemotron 3 模型在训练时即支持推理阶段的计算 / 推理预算精细控制,可在实际部署中根据任务复杂度灵活权衡推理深度、性能与成本。

更多技术细节请参阅技术报告:



  1. 论文地址:https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-White-Paper.pdf
  2. 论文标题:NVIDIA Nemotron 3: Efficient and Open Intelligence

有趣的是,Nemotron 3 贡献者名单长达 2 页多,参与人数之庞大在开源模型中也是少见,足见这一系列模型背后投入的研发规模与工程复杂度。

Nemotron 3 表现

如下图所示,在覆盖多个类别的主流基准测试中,Nemotron 3 Nano-30B-A3B 的准确率优于 GPT-OSS-20B 和 Qwen3-30B-A3B-Thinking-2507。

在单张 H200、8K 输入 / 16K 输出配置下,Nemotron 3 Nano 的推理吞吐量是 Qwen3-30B-A3B 的 3.3 倍,是 GPT-OSS-20B 的 2.2 倍。

支持最长达 100 万 Token 的上下文长度,并且在不同上下文长度下的 RULER 基准测试中,性能均优于 GPT-OSS-20B 和 Qwen3-30B-A3B-Instruct-2507。



另外,独立 AI 基准评测机构 Artificial Analysis 将 Nemotron 3 Nano 评为同规模模型中最开放、最高效的模型之一,并具备领先的准确率。



目前,Nemotron 3 Nano 的多种型号模型、数据、模型配方均已开源。



得益于采用了 NVIDIA Blackwell 架构上的超高效 4-bit NVFP4 训练格式,Nemotron 3 Super 和 Ultra 可以大幅降低内存需求并加快训练速度,使得在现有基础设施上训练更大规模模型成为可能,同时在准确性上不逊于更高精度格式。

通过 Nemotron 3 模型家族,开发者可以根据具体工作负载选择最合适的开放模型,在从数十到数百个智能体的规模下灵活扩展,同时获得更快、更精准的长程推理能力。

面向智能体定制的全新开放工具与数据

英伟达同步发布了一整套训练数据集与先进的强化学习库,面向所有构建专业化 AI 智能体的开发者开放。

其中,囊括 3 万亿 Token 的全新 Nemotron 预训练、后训练及强化学习数据集,涵盖丰富的推理、编程和多步骤工作流示例,可用于打造高度专业化的领域智能体。

Nemotron 智能体安全数据集(Agentic Safety Dataset) 提供真实世界的遥测数据,帮助团队评估并强化复杂智能体系统的安全性。



更多数据集请参阅:https://huggingface.co/nvidia

为了加速开发,英伟达还开源了 NeMo Gym 与 NeMo RL 库,提供 Nemotron 模型所需的训练环境和后训练基础,并推出 NeMo Evaluator 用于验证模型的安全性与性能。所有工具和数据集现已在 GitHub 和 Hugging Face 上开放。

目前,Nemotron 3 已获得 LM Studio、llama.cpp、SGLang 和 vLLM 的支持。此外,Prime Intellect 与 Unsloth 正将 NeMo Gym 的即用型训练环境直接集成到其工作流中,使团队能够更便捷地开展强化学习训练。

https://nvidianews.nvidia.com/news/nvidia-debuts-nemotron-3-family-of-open-models

https://research.nvidia.com/labs/nemotron/Nemotron-3/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
春晚同款机器人卖爆:订单暴增150%,多款上线几分钟被抢购一空!总导演回应“机器人浓度超高”!宇树机器人舞台上“摔倒”,王兴兴发声

春晚同款机器人卖爆:订单暴增150%,多款上线几分钟被抢购一空!总导演回应“机器人浓度超高”!宇树机器人舞台上“摔倒”,王兴兴发声

每日经济新闻
2026-02-17 12:00:27
江苏一老板给全村70岁以上老人发红包,派发红包的场面持续了近两个小时,总额达163500元;有老人已连续领14年红包:“比亲儿子还要亲”

江苏一老板给全村70岁以上老人发红包,派发红包的场面持续了近两个小时,总额达163500元;有老人已连续领14年红包:“比亲儿子还要亲”

大风新闻
2026-02-17 19:26:08
“户口本上就剩自己了”,刘维用AI视频和去世家人除夕团圆,网友泪崩:逝去的亲人会在天堂永远陪着你

“户口本上就剩自己了”,刘维用AI视频和去世家人除夕团圆,网友泪崩:逝去的亲人会在天堂永远陪着你

观威海
2026-02-17 16:14:06
女演员王楚然首登春晚,不到20秒绝美镜头涨粉超65万

女演员王楚然首登春晚,不到20秒绝美镜头涨粉超65万

大象新闻
2026-02-17 14:43:29
加州跳过美政府与英国签署清洁能源协议,特朗普怒喷加州州长:他的加州已经彻底完蛋,他的环保工作也是一场灾难;纽森连发多文回应抨击

加州跳过美政府与英国签署清洁能源协议,特朗普怒喷加州州长:他的加州已经彻底完蛋,他的环保工作也是一场灾难;纽森连发多文回应抨击

大风新闻
2026-02-17 15:47:06
陈伟霆一家北京过春节,何穗晒照别墅摆满各色蝴蝶兰,年味十足

陈伟霆一家北京过春节,何穗晒照别墅摆满各色蝴蝶兰,年味十足

南方城市网
2026-02-17 21:04:12
NFT大崩盘!贾斯汀・比伯130万美元买的 “无聊猿猴”,如今仅值1.2万美元

NFT大崩盘!贾斯汀・比伯130万美元买的 “无聊猿猴”,如今仅值1.2万美元

回旋镖
2026-02-17 15:49:15
春晚机器人传到国外,油管评论区炸锅,马斯克:低估了中国机器人

春晚机器人传到国外,油管评论区炸锅,马斯克:低估了中国机器人

离离言几许
2026-02-17 20:27:50
马年春晚与百姓冷暖渐行渐远,非于蕾一己之力,这是时代的尴尬

马年春晚与百姓冷暖渐行渐远,非于蕾一己之力,这是时代的尴尬

姜大叔侃球
2026-02-17 12:33:58
春晚AI机器人概念股全梳理,35家A股公司直接受益!

春晚AI机器人概念股全梳理,35家A股公司直接受益!

财经智多星
2026-02-17 17:10:54
马年春晚4大槽点:王一博衣服,王菲选歌,龙洋眼睛,撒贝宁眉毛

马年春晚4大槽点:王一博衣服,王菲选歌,龙洋眼睛,撒贝宁眉毛

天天热点见闻
2026-02-17 07:01:36
湖南95后女生上门做年夜饭月入4万多:春节前订单就满了,希望来年在长沙买房

湖南95后女生上门做年夜饭月入4万多:春节前订单就满了,希望来年在长沙买房

潇湘晨报
2026-02-17 13:27:13
英国男子大闹香港机场打砸机器被捕,背包里检获疑“伟哥”管制药品:案发前原本计划买机票离开香港

英国男子大闹香港机场打砸机器被捕,背包里检获疑“伟哥”管制药品:案发前原本计划买机票离开香港

大风新闻
2026-02-17 17:52:16
湖南一男子刚领到百万征收款,就被亲戚牌桌上5次设局诈骗175.12万元:招募多人组成“气氛组”,刺激其加大赌注

湖南一男子刚领到百万征收款,就被亲戚牌桌上5次设局诈骗175.12万元:招募多人组成“气氛组”,刺激其加大赌注

大风新闻
2026-02-17 19:37:03
马年春晚带火了机器人,机器人卖爆了,就连售价63万元的机器人也秒光

马年春晚带火了机器人,机器人卖爆了,就连售价63万元的机器人也秒光

极目新闻
2026-02-17 11:03:42
2月17日俄乌最新: 2.5 年来的最大战果

2月17日俄乌最新: 2.5 年来的最大战果

西楼饮月
2026-02-17 20:49:47
英法德等五国联合声明,俄方发声

英法德等五国联合声明,俄方发声

扬子晚报
2026-02-17 18:43:46
看着春晚,英媒想起马斯克这句:中国早就next level

看着春晚,英媒想起马斯克这句:中国早就next level

观察者网
2026-02-17 12:03:16
超级巨大失误!日本门将送礼,韦世豪铲射破门,破847天亚冠球荒

超级巨大失误!日本门将送礼,韦世豪铲射破门,破847天亚冠球荒

奥拜尔
2026-02-17 18:38:12
金正恩同志:奶粉和乳制品是给孩子喝的

金正恩同志:奶粉和乳制品是给孩子喝的

微微热评
2026-02-17 21:26:49
2026-02-18 00:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12314文章数 142567关注度
往期回顾 全部

科技要闻

春晚这些机器人是怎样做到的?

头条要闻

加州州长纽森炮轰特朗普:把美国未来卖给中国

头条要闻

加州州长纽森炮轰特朗普:把美国未来卖给中国

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

春节档电影首波口碑出炉!

财经要闻

大年初一,这三件事很不寻常

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

手机
旅游
亲子
数码
房产

手机要闻

苹果春季发布会?邀请函曝光,大量新品蓄势待发

旅游要闻

预计入境人数将达53.1万人!外国游客“扎堆”来北京过年!

亲子要闻

祝大家新年快乐……恭喜发财……财源滚滚……

数码要闻

消息称AMD首款机架级AI系统Helios大规模量产延至2027年

房产要闻

三亚新机场,又传出新消息!

无障碍浏览 进入关怀版