网易首页 > 网易号 > 正文 申请入驻

英伟达发力智能体!开源模型Nemotron 3 Super参数1200亿,吞吐量提升五倍

0
分享至

英伟达正在自主智能体基础设施竞争中发力,标志着这家芯片巨头在人工智能(AI)竞赛中从硬件供应商向模型层深度延伸的战略转变。

美东时间11日周三,英伟达宣布推出新一代开源大语言模型Nemotron 3 Super,专为企业级多智能体系统设计,凭借全新的混合专家(MoE)架构,将推理吞吐量提升至上一代模型的五倍以上。该模型的总参数量达1200亿,推理时仅激活120亿参数,原生支持100万token上下文窗口。

英伟达表示,Nemotron 3 Super在效率与开放性方面已登顶Artificial Analysis榜首,同等规模模型中准确率领先,并驱动英伟达AI-Q研究智能体在DeepResearch Bench及DeepResearch Bench II两大排行榜中位列第一。


英伟达披露了Nemotron 3 Super的首批合作伙伴。AI搜索公司Perplexity成为首家接入该模型执行智能体任务的合作方,为用户提供搜索及Computer产品中的多智能体编排服务。Palantir、西门子、Cadence、达索系统及Amdocs等企业软件巨头也已宣布将部署该模型,用于电信、网络安全、半导体设计及制造等领域的工作流自动化。

Nemotron 3 Super模型现已通过英伟达旗下build.nvidia.com、Hugging Face及OpenRouter等渠道向开发者开放。

两大瓶颈催生新架构

英伟达在博客中指出,企业从聊天机器人迈向多智能体应用时,面临两项核心约束。

其一为"上下文爆炸":多智能体工作流每次交互均需重新传输完整历史记录(含工具输出和中间推理步骤),生成的token数量最高可达标准对话的15倍。随着任务延伸,这一海量上下文不仅推高成本,还会导致"目标漂移"——智能体逐渐偏离原始目标。

其二为"思考税":复杂智能体须在每一步骤进行推理,若每个子任务均调用大型模型,多智能体应用将因成本高昂、响应迟缓而难以落地。

Nemotron 3 Super通过100万token原生上下文窗口直接回应上下文爆炸问题,确保智能体在超长任务中保持状态连贯,防止目标漂移。而混合架构设计则针对性化解思考税。

三重架构创新支撑五倍提速

英伟达博客披露,Nemotron 3 Super的性能跃升来自三项架构层面的核心创新。

  • 混合Mamba-Transformer骨干网络:模型交错部署Mamba-2层与Transformer注意力层。Mamba层处理大部分序列任务,以线性时间复杂度提供4倍内存与计算效率提升,使百万token上下文窗口具备实际可行性;Transformer层则在关键深度插入,保障精确的关联召回能力。
  • 潜在专家混合模型(latent MoE):在路由决策前,将token嵌入压缩至低秩潜空间,专家计算在该较小维度内完成后再投影回全维度。英伟达表示,这一设计使模型以相同推理成本激活4倍数量的专家,实现更细粒度的专业化路由——例如针对Python语法与SQL逻辑分别激活不同专家。
  • 多token预测(MTP):模型在单次前向传播中同步预测多个未来token,而非逐token生成。英伟达称,这一设计在训练阶段强化了模型对长程逻辑依赖的内化,在推理阶段则内置推测解码能力,对代码和工具调用等结构化生成任务实现最高3倍的速度提升,且无需额外草稿模型。

在英伟达Blackwell平台上,该模型以NVFP4精度运行,相比英伟达Hopper平台的FP8,推理速度最高提升至4倍,且据英伟达称精度无损失。

开放权重叠加多层生态布局

与当前主流前沿模型普遍采用API-only访问方式不同,英伟达选择以宽松许可协议开放Nemotron 3 Super的权重、数据集与训练方案,开发者可在工作站、数据中心或云端自由部署与定制。

英伟达同步公开了完整的训练与评估方案,涵盖预训练至对齐的全流程,并发布超过10万亿token的预训练及后训练数据集、21个强化学习训练环境以及评估方案。预训练阶段,模型在25万亿token上以NVFP4原生精度训练,从首次梯度更新起即在4位浮点运算约束下学习准确性,而非事后量化。

在生态层面,英伟达已与谷歌云Vertex AI、甲骨文云基础设施、戴尔技术、HPE等主流云服务商及硬件厂商达成合作,亚马逊AWS Bedrock及微软Azure的接入亦在筹备中。CodeRabbit、Factory、Greptile等软件开发智能体公司,以及生命科学机构Edison Scientific和Lila Sciences,也已宣布将该模型整合至其智能体工作流。

"Super+Nano"组合部署

英伟达在博客中还阐述了Nemotron 3系列的协同部署逻辑。去年12月推出的Nemotron 3模型Nano版本适合处理智能体工作流中针对性的单步任务,Nemotron 3 Super则专为需要深度规划与推理的复杂多步骤任务而设计。

以软件开发场景为例,英伟达建议:简单的合并请求可由Nano处理,涉及对代码库深度理解的复杂编码任务交由Super承担,而专家级任务则可进一步调用第三方专有模型。这一分层架构旨在帮助企业在成本与能力之间寻求最优平衡。

在具体应用场景上,英伟达博客举例称,软件开发智能体可将整个代码库一次性加载至上下文,实现端到端代码生成与调试;金融分析场景下可将数千页报告载入内存,省去跨长对话的重复推理;网络安全中的自主安全编排场景则可受益于高精度工具调用,避免在高风险环境中出现执行错误。

硬件护城河的模型层延伸

英伟达此次开放模型策略背后是一套清晰的商业逻辑。此前,英伟达主要通过向OpenAI、谷歌等模型提供商出售GPU积累AI领域主导地位。如今,若Nemotron成为企业智能体AI的主流基础模型,大规模运行该模型所需的GPU基础设施仍将倚重英伟达——在模型层推进开放的同时,巩固硬件层的需求锁定。

目前,Nemotron 3 Super已通过英伟达NIM微服务打包交付,支持从本地到云端的灵活部署。性能数据能否在生产级工作负载下得到验证,以及企业客户如何在开放灵活性与竞争对手专有模型能力之间做出取舍,将是检验这一战略成效的关键变量。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“五一”出游拍照别再比“剪刀手”了 小心指纹被隔空盗取

“五一”出游拍照别再比“剪刀手”了 小心指纹被隔空盗取

环球网资讯
2026-05-02 07:27:27
溺水获救女子开口第一句泪目!救人夫妻身份不简单,获全市表彰

溺水获救女子开口第一句泪目!救人夫妻身份不简单,获全市表彰

奇思妙想草叶君
2026-05-01 16:10:44
王健林时代落幕,输给了这个靠赵薇起家、截胡许家印的湖北富豪!

王健林时代落幕,输给了这个靠赵薇起家、截胡许家印的湖北富豪!

历史伟人录
2026-04-29 17:41:50
英超提前保级?利兹联3-1后领先热刺9分,伦敦2强和森林降级3选1

英超提前保级?利兹联3-1后领先热刺9分,伦敦2强和森林降级3选1

体育知多少
2026-05-02 06:59:51
孙杨报案,评论区笑死我了……

孙杨报案,评论区笑死我了……

麦杰逊
2026-05-01 20:17:51
高洁主任:半夜易醒,睡眠浅?每天拍打这处50次,让你一觉到天亮

高洁主任:半夜易醒,睡眠浅?每天拍打这处50次,让你一觉到天亮

大明爱养生
2026-04-28 14:17:50
电价改革要来了:国家为什么在这个时候“动”电价?

电价改革要来了:国家为什么在这个时候“动”电价?

趣文说娱
2026-04-28 22:06:04
辞职4个月,35岁的张水华终于喊出了这句话!361度放走一棵摇钱树

辞职4个月,35岁的张水华终于喊出了这句话!361度放走一棵摇钱树

风过乡
2026-05-02 07:42:45
宴会上,毛主席问溥仪:传国玉玺去哪了?溥仪的回答引起一片哗然

宴会上,毛主席问溥仪:传国玉玺去哪了?溥仪的回答引起一片哗然

浩渺青史
2026-05-01 01:14:21
全球卖疯的无人机,北京为何禁售?

全球卖疯的无人机,北京为何禁售?

碳基打工人
2026-05-01 02:41:19
“三哥,你尾款我不要了!”中国外贸人反杀印度老赖,招招绝了!

“三哥,你尾款我不要了!”中国外贸人反杀印度老赖,招招绝了!

坠入二次元的海洋
2026-05-01 15:25:23
广东男子中风瘫痪,妻女照顾两月不耐烦,故意外出8天将其饿死

广东男子中风瘫痪,妻女照顾两月不耐烦,故意外出8天将其饿死

小李子体育
2026-05-01 00:01:35
太讽刺!2026劳模名单争议大,被疑有“许家印”,评论区不留情面

太讽刺!2026劳模名单争议大,被疑有“许家印”,评论区不留情面

谭谈社会
2026-05-01 14:42:03
新华社消息|商务部:坚决反对美国联邦通信委员会审议通过检测认证和电信领域相关限制措施

新华社消息|商务部:坚决反对美国联邦通信委员会审议通过检测认证和电信领域相关限制措施

新华社
2026-05-01 14:48:10
打什么电话比12345更管用?这些电话比它管用100倍,建议收藏好

打什么电话比12345更管用?这些电话比它管用100倍,建议收藏好

细说职场
2026-04-28 10:39:02
掘金出局!约基奇无奈爆金句:这要在塞尔维亚,全队早被炒了

掘金出局!约基奇无奈爆金句:这要在塞尔维亚,全队早被炒了

仰卧撑FTUer
2026-05-01 14:26:15
站台抽烟铁路员工向沈女士道歉,女子全网社死不敢发声,官方回应

站台抽烟铁路员工向沈女士道歉,女子全网社死不敢发声,官方回应

小鋭有话说
2026-04-30 20:53:37
被压制!骑士落后10分陷被动:全队三分18中5,哈登8分4助苦撑

被压制!骑士落后10分陷被动:全队三分18中5,哈登8分4助苦撑

体坛小李
2026-05-02 08:54:01
伦敦世乒赛爆出大冷,孙颖莎闺蜜输球!世界冠军惨败,赛后哽咽

伦敦世乒赛爆出大冷,孙颖莎闺蜜输球!世界冠军惨败,赛后哽咽

老王大话体育
2026-05-02 02:08:17
火湖G6首发出炉:湖人变阵里夫斯顶替肯纳德首发 东契奇KD缺席

火湖G6首发出炉:湖人变阵里夫斯顶替肯纳德首发 东契奇KD缺席

醉卧浮生
2026-05-02 09:10:44
2026-05-02 10:16:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
145546文章数 2653433关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

男子买虚拟手机号领券骗取超市70多万 获刑十年十个月

头条要闻

男子买虚拟手机号领券骗取超市70多万 获刑十年十个月

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

本地
艺术
家居
游戏
教育

本地新闻

用青花瓷的方式,打开西溪湿地

艺术要闻

画画的你绝不能错过!色块与笔触的激情之旅!

家居要闻

灵动实用 生活艺术场

开放世界天花板!IGN:《GTA6》真该学学这款神作

教育要闻

从1078人到437人:湖南公费师范生招生大降,释放了什么信号?

无障碍浏览 进入关怀版