一款全新的开放 1,200 亿参数混合式 MoE (mixture‑of‑experts) 模型,专为 NVIDIA Blackwell 进行了优化,可解决拖慢自主智能体工作流的长时推理和上下文爆炸的成本难题。
NVIDIA Nemotron 3 Super 于近日发布,其为一款 1,200 亿参数开放模型,拥有 120 亿个活跃参数,旨在大规模运行复杂的代理式 AI 系统。
Nemotron 3 Super 树立了新标准,在 Artificial Analysis 的效率和开放性排名中位居榜首,并在同等规模的模型中展现出领先的准确性。
该模型还助力 NVIDIA AI-Q 研究智能体在 DeepResearch Bench 和 DeepResearch Bench II 排行榜上取得第一名。这些基准测试旨在衡量 AI 系统在海量文档中开展全面多步骤研究,并保持推理连贯性的能力。
![]()
- 混合架构:Nemotron 3 Super 采用了混合 MoE 架构,结合了三项主要创新,与之前的 Nemotron Super 模型相比,实现了高达 5 倍的吞吐量提升和高达 2 倍的准确率提升。
- 混合架构:Mamba 层实现 4 倍显存与计算效率提升,Transformer 层则提供高级推理能力。
- 混合专家 (MoE):在其 1,200 亿参数中,推理时仅激活 120 亿参数。
- 潜在混合专家架构:这是一种新的推理技术,它以单个专家的成本来激活四个专家,从而显著提升 token 生成的准确率。
- 多 token 预测:能够同时预测多个未来的词语,从而使推理速度提高 3 倍。
- 开放权重、数据和方案:NVIDIA 将 Nemotron 3 Super 的权重完全开放,并配以宽松许可协议。开发者可在工作站、数据中心或云端来进行部署和定制。
Nemotron 3 Super 基于前沿推理模型生成的合成数据训练而成。NVIDIA 将公布完整的训练方法,其中包括超过 10 万亿个 token 的预训练和后训练数据集,15 个用于强化学习的训练环境以及评估方案。研究人员还可借助 NVIDIA NeMo 平台对模型进行微调或构建专属模型。
- 在代理式系统中的应用:Nemotron 3 Super 旨在处理多智能体系统中的复杂子任务。
一个软件开发智能体可以一次性将整个代码库加载到上下文中,从而实现端到端的代码生成和调试,且无需进行文档分割。
在金融分析中,它能够将数千页的报告加载到显存中,避免在长对话中重复推理,从而提高效率。
以上为摘要内容,点击链接阅读完整内容:全新 NVIDIA Nemotron 3 Super 将代理式 AI 吞吐量提升 5 倍 | NVIDIA 英伟达博客
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.