网易首页 > 网易号 > 正文 申请入驻

英伟达全新开源模型:三倍吞吐、单卡可跑,还拿下推理SOTA

0
分享至

  • henry 发自 凹非寺
    量子位 | 公众号 QbitAI

众所周知,老黄不仅卖铲子(GPU),还自己下场开矿(造模型)。

英伟达最新推出的Llama Nemotron Super v1.5开源模型就专为复杂推理和agnet任务量身打造。

模型在科学、数学、编程及agent任务中实现SOTA表现的同时,还将吞吐量提升至前代的3倍,且可在单卡高效运行,实现更准、更快、更轻的“既要又要还要”。

这是怎么做到的?

模型介绍

Llama Nemotron Super v1.5是Llama-3.3-Nemotron-Super-49B-V1.5的简称。它是Llama-3.3-Nemotron-Super-49B-V1的升级版本(该模型是Meta的Llama-3.3-70B-Instruct的衍生模型),专为复杂推理和智能体任务设计。

模型架构

Llama Nemotron Super v1.5采用神经架构搜索(Neural Architecture Search,NAS),使该模型在准确率和效率之间实现了良好的平衡,将吞吐量的提升有效转化为更低的运行成本。

(注:NAS的目标是通过搜索算法从大量的可能架构中找到最优的神经网络结构,利用自动化方法替代人工设计神经网络架构,从而提高模型的性能和效率。)

在Llama Nemotron Super v1.5中,NAS算法生成了非标准、非重复的网络模块(blocks)。相较于传统的Transformer,其包含以下两类变化:

  • 跳过注意力机制(Skip attention):在某些模块中,直接跳过了注意力层,或者只用一个线性层来代替。

  • 可变前馈网络(Variable FFN):在前馈网络(Feedforward Network)中,不同模块采用了不同的扩展/压缩比。

由此,模型通过跳过attention或改变FFN宽度以减少FLOPs,从而在资源受限时更高效地运行模型。

之后,研究团队还对原始的Llama模型(Llama 3.3 70B Instruct)进行了逐模块的蒸馏(block-wise distillation),通过对每个模块构造多个变体,并在所有模块结构中搜索组合,从而构建一个模型。

使它既能满足在单个H100 80GB显卡上的吞吐量和内存要求,又尽量减少性能损失。

训练与数据集

模型首先在FineWeb、Buzz-V1.2 和 Dolma三个数据集共400亿个token的训练数据上进行了知识蒸馏(knowledge distillation,KD),重点关注英语单轮和多轮聊天。

在后训练阶段,模型通过结合监督微调(SFT)和强化学习(RL)的方法,以进一步提升模型在代码、数学、推理和指令遵循等关键任务上的表现。

这些数据既包括来自公开语料库的题目,也包含人工合成的问答样本,其中部分题目配有开启和关闭推理的答案,旨在增强模型对推理模式的辨别能力。

英伟达表示数据集将在未来几周内发布。

总的来说,Llama Nemotron Super V1.5是一个通过NAS自动优化架构、精简计算图的 Llama 3.3 70B Instruct变体。它针对单卡运行场景做了结构简化、知识蒸馏训练与后训练,兼顾高准确性、高吞吐量与低资源占用,特别适合英语对话类任务及编程任务的部署。

此外,在部署方面,英伟达延续了其一贯的生态优势:

  • 我们的AI模型专为在 NVIDIA GPU 加速系统上运行而设计和/或优化。通过充分利用 NVIDIA 的硬件(如 GPU 核心)和软件框架(如 CUDA 库),相比仅依赖 CPU 的方案,模型在训练和推理阶段实现了显著的速度提升。

该模型现已开源。开发者可以在build.nvidia.com体验Llama Nemotron Super v1.5或直接从Hugging Face下载模型。

One more thing

作为英伟达最新发布的开源大语言模型,Llama Nemotron Super v1.5隶属于英伟达Nemotron生态,该生态集成了大语言模型、训练与推理框架、优化工具和企业级部署方案,旨在实现高性能、可控性强、易于扩展的生成式 AI 应用开发。

为满足不同场景需求与用户定位,英伟达在此生态的基础上推出了三个不同定位的大语言模型系列——Nano、Super和Ultra。

其中,Nano系列针对成本效益和边缘部署,适合部署在边缘设备(如移动端、机器人、IoT设备等)或成本敏感型场景(比如本地运行、离线场景、商业小模型推理)。

Super系列则针对单个GPU上平衡的精度和计算效率,它可以在一张高性能 GPU(如 H100) 上运行,不需要多卡或大型集群。它的精度比Nano高,但比Ultra小巧,适合企业开发者或中型部署。我们上面提到的Llama Nemotron Super v1.5就属于这一系列。

Ultra则致力于数据中心的最大精度,专为在数据中心、超算集群、多张 GPU上运行而设计,面向复杂推理、大规模生成、高保真对话等对精度要求极高的任务。

目前,Nemotron已获得SAP、ServiceNow、Microsoft、Accenture、CrowdStrike、Deloitte 等企业支持或集成使用,用于构建面向企业级流程自动化和复杂问题解决的AI智能体平台。

此外,在Amazon Bedrock Marketplace中也能通过NVIDIA NIM微服务调用Nemotron模型,简化部署流程,支持云端、混合架构等多种运营方案。


[1]https://www.marktechpost.com/2025/07/27/nvidia-ai-dev-team-releases-llama-nemotron-super-v1-5-setting-new-standards-in-reasoning-and-agentic-ai/
[2]https://developer.nvidia.com/blog/build-more-accurate-and-efficient-ai-agents-with-the-new-nvidia-llama-nemotron-super-v1-5/
[3]https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1_5
[4]https://www.nvidia.com/en-us/ai-data-science/foundation-models/nemotron/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
极速追捕48小时!刺杀俄中将凶手从迪拜押回莫斯科受审

极速追捕48小时!刺杀俄中将凶手从迪拜押回莫斯科受审

简观
2026-02-08 17:47:42
2015年饭局上,是谁举报了毕福剑?举报者和老毕的最终结局如何?

2015年饭局上,是谁举报了毕福剑?举报者和老毕的最终结局如何?

文史道
2026-02-03 06:45:08
无耻!亚洲杯决赛,王曼昱被干扰到发球下网,莎莎制止粉丝喊叫

无耻!亚洲杯决赛,王曼昱被干扰到发球下网,莎莎制止粉丝喊叫

大嘴说台球
2026-02-08 20:43:02
广东富到冒油县级市,面积比深圳、香港还要大,人民生活富裕

广东富到冒油县级市,面积比深圳、香港还要大,人民生活富裕

小鹿姐姐情感说
2026-02-07 14:41:57
孙颖莎:走下领奖台重新开始,争议球都是比赛的一部分

孙颖莎:走下领奖台重新开始,争议球都是比赛的一部分

懂球帝
2026-02-08 22:18:32
日本自民党已单独获得过半数议席,高市将继续执政

日本自民党已单独获得过半数议席,高市将继续执政

极目新闻
2026-02-08 21:25:52
轰出5杆破百!赵心童10-6赢下中国德比,加冕世界大奖赛冠军

轰出5杆破百!赵心童10-6赢下中国德比,加冕世界大奖赛冠军

全景体育V
2026-02-08 21:39:28
8年敛财1614万,“小官巨贪”的背后,折射权力的失控

8年敛财1614万,“小官巨贪”的背后,折射权力的失控

风向观察
2026-02-08 23:16:01
中方先发制人,通牒发往华盛顿,特朗普访华行程或泡汤?

中方先发制人,通牒发往华盛顿,特朗普访华行程或泡汤?

东极妙严
2026-02-08 17:12:43
网友称买到无座票被提醒不能在静音车厢停留,12306:高铁静音车厢不发售无座票

网友称买到无座票被提醒不能在静音车厢停留,12306:高铁静音车厢不发售无座票

极目新闻
2026-02-08 19:38:45
女单颁奖!中国包揽前3,3人笑嘻嘻,蒯曼主导合影,孙颖莎太可爱

女单颁奖!中国包揽前3,3人笑嘻嘻,蒯曼主导合影,孙颖莎太可爱

篮球资讯达人
2026-02-08 21:39:53
姚晨新造型翻车,穿的像体操运动员贼显壮,她和造型师有仇吗?

姚晨新造型翻车,穿的像体操运动员贼显壮,她和造型师有仇吗?

东方不败然多多
2026-02-08 09:33:57
悲催!美国41岁冬奥传奇沃恩带伤参赛重伤 被直升机救援带走

悲催!美国41岁冬奥传奇沃恩带伤参赛重伤 被直升机救援带走

醉卧浮生
2026-02-08 20:14:31
女子吐槽飞机餐仅一根青菜配米饭?评论区网友吵起来了

女子吐槽飞机餐仅一根青菜配米饭?评论区网友吵起来了

极目新闻
2026-02-08 17:42:21
随着赵心童10-6夺冠,世界排名超越墨菲!最新前16出炉丁俊晖第13

随着赵心童10-6夺冠,世界排名超越墨菲!最新前16出炉丁俊晖第13

球场没跑道
2026-02-08 21:53:54
比芯片断供还难受,美日垄断全世界90%市场,我们连高仿都造不出

比芯片断供还难受,美日垄断全世界90%市场,我们连高仿都造不出

搜史君
2026-02-07 13:35:11
张本美和言不由衷!“拿第4名挺满意”却不停流泪 张本宇场边黑脸

张本美和言不由衷!“拿第4名挺满意”却不停流泪 张本宇场边黑脸

颜小白的篮球梦
2026-02-08 21:29:04
这就是回家要脱裤子才能上床的原因!网友:看完天都塌了!

这就是回家要脱裤子才能上床的原因!网友:看完天都塌了!

夜深爱杂谈
2026-02-07 19:05:55
秘密照片曝光!美媒:爱泼斯坦曾与马斯克、扎克伯格等科技巨头“亲密”共进晚宴

秘密照片曝光!美媒:爱泼斯坦曾与马斯克、扎克伯格等科技巨头“亲密”共进晚宴

环球网资讯
2026-02-08 17:54:26
最强不交作业借口!加拿大花滑运动员:教授,我在参加冬奥会

最强不交作业借口!加拿大花滑运动员:教授,我在参加冬奥会

全景体育V
2026-02-08 07:31:17
2026-02-08 23:43:00
量子位 incentive-icons
量子位
追踪人工智能动态
12137文章数 176379关注度
往期回顾 全部

科技要闻

为实现雄心勃勃的计划,特斯拉开始招人

头条要闻

王楚钦战胜张本智和 成功卫冕乒乓球亚洲杯男单冠军

头条要闻

王楚钦战胜张本智和 成功卫冕乒乓球亚洲杯男单冠军

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

金晨被罚1500后首露面,表情沉重心事重重

财经要闻

宽基ETF开年大赎回,什么信号?

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

游戏
艺术
数码
教育
公开课

这款女主角恐怖游戏终于出Demo!且完全支持中文

艺术要闻

投资21.5亿!vivo全球AI总部,最后冲刺!

数码要闻

古尔曼:苹果M5 Pro/Max款MacBook Pro最早3月2日当周发布

教育要闻

西交大少年班初试结果出炉!玄外又是第一!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版