NVIDIA Nemotron 3 Super发布，智能体AI吞吐量提升5倍|内存|戴尔|工作流|电子表格|知名企业|nvidia|nemotron

NVIDIA Nemotron 3 Super发布，智能体AI吞吐量提升5倍

2026-03-12 22:18:10　来源: 至顶科技

北京举报

分享至

今日发布的NVIDIA Nemotron 3 Super是一个拥有1200亿参数的开放模型，其中120亿参数在推理时处于活跃状态，专为大规模运行复杂的智能体AI系统而设计。

该模型现已上线，结合先进的推理能力，能够高效且高精度地为自主智能体完成任务。

AI原生公司应用

Perplexity为用户提供Nemotron 3 Super的搜索功能，并将其作为Computer中20个协调模型之一。CodeRabbit、Factory和Greptile等提供软件开发智能体的公司正在将该模型与专有模型集成到他们的AI智能体中，以更低的成本实现更高的准确性。Edison Scientific和Lila Sciences等生命科学和前沿AI组织将利用该模型为其智能体提供深度文献搜索、数据科学和分子理解能力。

企业软件平台部署

Amdocs、Palantir、Cadence、达索系统和西门子等行业领导者正在部署和定制该模型，以在电信、网络安全、半导体设计和制造领域实现工作流程自动化。

解决多智能体应用的两大瓶颈

当公司从聊天机器人转向多智能体应用时，会遇到两个制约因素。

首先是上下文爆炸。多智能体工作流生成的token数量比标准聊天多15倍，因为每次交互都需要重新发送完整的历史记录，包括工具输出和中间推理过程。在长任务过程中，这种上下文量会增加成本，并可能导致目标偏移，即智能体失去与原始目标的一致性。

其次是思考税。复杂的智能体必须在每一步都进行推理，但为每个子任务使用大型模型会使多智能体应用变得过于昂贵和缓慢，无法实际应用。

Nemotron 3 Super拥有100万token的上下文窗口，允许智能体在内存中保留完整的工作流状态，防止目标偏移。该模型在Artificial Analysis的效率和开放性排行榜中名列榜首，在同等规模模型中保持领先的准确性。

该模型还为NVIDIA AI-Q研究智能体提供支持，在DeepResearch Bench和DeepResearch Bench II排行榜上获得第一名。这些基准测试评估AI系统在大型文档集中进行全面、多步骤研究的能力，同时保持推理一致性。

技术架构突破

Nemotron 3 Super采用混合专家混合(MoE)架构，结合三大创新，相比前代Nemotron Super模型实现高达5倍的吞吐量提升和高达2倍的准确性改进。

混合架构：Mamba层提供4倍更高的内存和计算效率，而Transformer层驱动高级推理。

MoE技术：在其1200亿参数中，推理时只有120亿参数处于活跃状态。

潜在MoE：一种新技术，通过以一个专家的成本激活四个专家专家来提高准确性，以便在推理时生成下一个token。

多token预测：同时预测多个未来词汇，实现3倍更快的推理速度。

在NVIDIA Blackwell平台上，该模型以NVFP4精度运行，这减少了内存需求，使推理速度比NVIDIA Hopper上的FP8快4倍，且精度无损失。

开放获取与部署

NVIDIA在宽松许可下发布Nemotron 3 Super的开放权重。开发者可以在工作站、数据中心或云端部署和定制该模型。

该模型使用前沿推理模型生成的合成数据进行训练。NVIDIA公布了完整的方法论，包括超过10万亿token的预训练和后训练数据集、15个强化学习训练环境和评估方案。研究人员可以进一步使用NVIDIA NeMo平台来微调模型或构建自己的模型。

实际应用场景

Nemotron 3 Super专为处理多智能体系统内的复杂子任务而设计。

软件开发智能体可以一次将整个代码库加载到上下文中，实现端到端的代码生成和调试，无需文档分割。

在金融分析中，它可以将数千页报告加载到内存中，消除了在长时间对话中重新推理的需要，提高了效率。

Nemotron 3 Super具有高精度的工具调用功能，确保自主智能体可靠地导航大型函数库，防止在高风险环境（如网络安全中的自主安全编排）中出现执行错误。

获取途径与合作伙伴

作为Nemotron 3系列的一部分，NVIDIA Nemotron 3 Super可以通过build.nvidia.com、Perplexity、OpenRouter和Hugging Face访问。戴尔科技将该模型引入Hugging Face上的戴尔企业中心，针对戴尔AI工厂的本地部署进行了优化，推进多智能体AI工作流程。HPE也将NVIDIA Nemotron引入其智能体中心，帮助确保企业大规模采用智能体AI。

企业和开发者可以通过多个合作伙伴部署该模型：

云服务提供商：Google Cloud的Vertex AI和Oracle Cloud Infrastructure，即将通过Amazon Bedrock登陆Amazon Web Services以及Microsoft Azure。

NVIDIA云合作伙伴：Coreweave、Crusoe、Nebius和Together AI。

推理服务提供商：Baseten、CloudFlare、DeepInfra、Fireworks AI、Inference.net、Lightning AI、Modal和FriendliAI。

数据平台和服务：Distyl、Dataiku、DataRobot、德勤、安永和塔塔咨询服务。

该模型打包为NVIDIA NIM微服务，支持从本地系统到云端的部署。

Q&A

Q1：NVIDIA Nemotron 3 Super相比前代模型有什么改进？

A：NVIDIA Nemotron 3 Super采用混合专家混合架构，结合三大技术创新，相比前代Nemotron Super模型实现高达5倍的吞吐量提升和高达2倍的准确性改进。它拥有100万token的上下文窗口，能防止智能体在长任务中出现目标偏移。

Q2：多智能体应用面临哪些主要挑战？

A：主要面临两个制约因素：一是上下文爆炸，多智能体工作流生成的token数量比标准聊天多15倍；二是思考税，复杂智能体必须在每一步都进行推理，使用大型模型处理每个子任务会让应用变得过于昂贵和缓慢。

Q3：如何获取和部署NVIDIA Nemotron 3 Super？

A：该模型可通过build.nvidia.com、Perplexity、OpenRouter和Hugging Face等平台访问。支持通过Google Cloud、Oracle云、Amazon Bedrock等云服务商部署，也可通过NVIDIA NIM微服务在本地系统到云端之间灵活部署。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.