网易首页 > 网易号 > 正文 申请入驻

英伟达全新开源模型:三倍吞吐、单卡可跑,还拿下推理SOTA

0
分享至

  • henry 发自 凹非寺
    量子位 | 公众号 QbitAI

众所周知,老黄不仅卖铲子(GPU),还自己下场开矿(造模型)。

英伟达最新推出的Llama Nemotron Super v1.5开源模型就专为复杂推理和agnet任务量身打造。

模型在科学、数学、编程及agent任务中实现SOTA表现的同时,还将吞吐量提升至前代的3倍,且可在单卡高效运行,实现更准、更快、更轻的“既要又要还要”。



这是怎么做到的?

模型介绍

Llama Nemotron Super v1.5是Llama-3.3-Nemotron-Super-49B-V1.5的简称。它是Llama-3.3-Nemotron-Super-49B-V1的升级版本(该模型是Meta的Llama-3.3-70B-Instruct的衍生模型),专为复杂推理和智能体任务设计。

模型架构

Llama Nemotron Super v1.5采用神经架构搜索(Neural Architecture Search,NAS),使该模型在准确率和效率之间实现了良好的平衡,将吞吐量的提升有效转化为更低的运行成本。

(注:NAS的目标是通过搜索算法从大量的可能架构中找到最优的神经网络结构,利用自动化方法替代人工设计神经网络架构,从而提高模型的性能和效率。)



在Llama Nemotron Super v1.5中,NAS算法生成了非标准、非重复的网络模块(blocks)。相较于传统的Transformer,其包含以下两类变化:

  • 跳过注意力机制(Skip attention):在某些模块中,直接跳过了注意力层,或者只用一个线性层来代替。

  • 可变前馈网络(Variable FFN):在前馈网络(Feedforward Network)中,不同模块采用了不同的扩展/压缩比。

由此,模型通过跳过attention或改变FFN宽度以减少FLOPs,从而在资源受限时更高效地运行模型。

之后,研究团队还对原始的Llama模型(Llama 3.3 70B Instruct)进行了逐模块的蒸馏(block-wise distillation),通过对每个模块构造多个变体,并在所有模块结构中搜索组合,从而构建一个模型。

使它既能满足在单个H100 80GB显卡上的吞吐量和内存要求,又尽量减少性能损失。

训练与数据集

模型首先在FineWeb、Buzz-V1.2 和 Dolma三个数据集共400亿个token的训练数据上进行了知识蒸馏(knowledge distillation,KD),重点关注英语单轮和多轮聊天。

在后训练阶段,模型通过结合监督微调(SFT)和强化学习(RL)的方法,以进一步提升模型在代码、数学、推理和指令遵循等关键任务上的表现。

这些数据既包括来自公开语料库的题目,也包含人工合成的问答样本,其中部分题目配有开启和关闭推理的答案,旨在增强模型对推理模式的辨别能力。

英伟达表示数据集将在未来几周内发布。

总的来说,Llama Nemotron Super V1.5是一个通过NAS自动优化架构、精简计算图的 Llama 3.3 70B Instruct变体。它针对单卡运行场景做了结构简化、知识蒸馏训练与后训练,兼顾高准确性、高吞吐量与低资源占用,特别适合英语对话类任务及编程任务的部署。

此外,在部署方面,英伟达延续了其一贯的生态优势:

  • 我们的AI模型专为在 NVIDIA GPU 加速系统上运行而设计和/或优化。通过充分利用 NVIDIA 的硬件(如 GPU 核心)和软件框架(如 CUDA 库),相比仅依赖 CPU 的方案,模型在训练和推理阶段实现了显著的速度提升。

该模型现已开源。开发者可以在build.nvidia.com体验Llama Nemotron Super v1.5或直接从Hugging Face下载模型。

One more thing

作为英伟达最新发布的开源大语言模型,Llama Nemotron Super v1.5隶属于英伟达Nemotron生态,该生态集成了大语言模型、训练与推理框架、优化工具和企业级部署方案,旨在实现高性能、可控性强、易于扩展的生成式 AI 应用开发。



为满足不同场景需求与用户定位,英伟达在此生态的基础上推出了三个不同定位的大语言模型系列——Nano、Super和Ultra。



其中,Nano系列针对成本效益和边缘部署,适合部署在边缘设备(如移动端、机器人、IoT设备等)或成本敏感型场景(比如本地运行、离线场景、商业小模型推理)。

Super系列则针对单个GPU上平衡的精度和计算效率,它可以在一张高性能 GPU(如 H100) 上运行,不需要多卡或大型集群。它的精度比Nano高,但比Ultra小巧,适合企业开发者或中型部署。我们上面提到的Llama Nemotron Super v1.5就属于这一系列。

Ultra则致力于数据中心的最大精度,专为在数据中心、超算集群、多张 GPU上运行而设计,面向复杂推理、大规模生成、高保真对话等对精度要求极高的任务。

目前,Nemotron已获得SAP、ServiceNow、Microsoft、Accenture、CrowdStrike、Deloitte 等企业支持或集成使用,用于构建面向企业级流程自动化和复杂问题解决的AI智能体平台。

此外,在Amazon Bedrock Marketplace中也能通过NVIDIA NIM微服务调用Nemotron模型,简化部署流程,支持云端、混合架构等多种运营方案。


[1]https://www.marktechpost.com/2025/07/27/nvidia-ai-dev-team-releases-llama-nemotron-super-v1-5-setting-new-standards-in-reasoning-and-agentic-ai/
[2]https://developer.nvidia.com/blog/build-more-accurate-and-efficient-ai-agents-with-the-new-nvidia-llama-nemotron-super-v1-5/
[3]https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1_5
[4]https://www.nvidia.com/en-us/ai-data-science/foundation-models/nemotron/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
云南七旬老人带一岁孙子住院,多名爱心网友捐款,乡政府:正为其办低保并申请补贴

云南七旬老人带一岁孙子住院,多名爱心网友捐款,乡政府:正为其办低保并申请补贴

极目新闻
2025-11-06 22:38:10
唏嘘!两届全明星奥拉迪波征战发展联盟 季前赛曾为广州龙狮效力

唏嘘!两届全明星奥拉迪波征战发展联盟 季前赛曾为广州龙狮效力

罗说NBA
2025-11-08 08:01:56
一个血亏,一个赚翻:北京环球影城比上海迪士尼输在哪?

一个血亏,一个赚翻:北京环球影城比上海迪士尼输在哪?

城市研究室
2025-11-06 16:27:43
曾琦和院长的视频透露出重要信号,为何他们与毛奇佩霞事件不一样

曾琦和院长的视频透露出重要信号,为何他们与毛奇佩霞事件不一样

李昕言温度空间
2025-11-07 22:42:06
年轻人正在逃离上海!上海月薪8500房租3200,撤离上海的年轻人们,放弃万元月薪选择及时止损

年轻人正在逃离上海!上海月薪8500房租3200,撤离上海的年轻人们,放弃万元月薪选择及时止损

流年拾光
2025-10-23 20:33:16
老板开8500月薪在某平台招聘新人,竟被系统警告:建议降到8000以下

老板开8500月薪在某平台招聘新人,竟被系统警告:建议降到8000以下

风向观察
2025-11-07 20:04:38
“软的更软,硬的更硬”

“软的更软,硬的更硬”

环球网资讯
2025-11-07 19:53:14
67岁环卫工打扫时被撞身亡,用人单位诉请撤销工伤认定,称签劳务协议时超退休年龄 法院驳回

67岁环卫工打扫时被撞身亡,用人单位诉请撤销工伤认定,称签劳务协议时超退休年龄 法院驳回

红星新闻
2025-11-07 20:40:10
环球小姐爆炸现场!冠军带头罢走、佳丽集体退场,主办方全网道歉!

环球小姐爆炸现场!冠军带头罢走、佳丽集体退场,主办方全网道歉!

新欧洲
2025-11-06 21:37:11
关闭200多家门店!又一传统商超“胖改”失败?四年亏损上百亿

关闭200多家门店!又一传统商超“胖改”失败?四年亏损上百亿

品牌观察官
2025-11-07 23:28:57
郭美美,一个“自信而努力”的前科人员

郭美美,一个“自信而努力”的前科人员

关尔东
2025-11-07 16:28:15
打虎!西安市委书记方红卫任上落马,清华毕业、由企转政,7月刚表态韩松被查

打虎!西安市委书记方红卫任上落马,清华毕业、由企转政,7月刚表态韩松被查

鲁中晨报
2025-11-07 22:39:03
30万人岛国逼平日本!U17世界杯奇迹:伟大的0-0 疯狂庆祝如夺冠

30万人岛国逼平日本!U17世界杯奇迹:伟大的0-0 疯狂庆祝如夺冠

风过乡
2025-11-07 20:54:26
老人鞋足力健已是多次失信被执行人,张凯丽称代言5年前已结束

老人鞋足力健已是多次失信被执行人,张凯丽称代言5年前已结束

界面新闻
2025-11-07 11:35:46
从技术标杆到商业公司,双重上市如何重塑小马智行估值逻辑

从技术标杆到商业公司,双重上市如何重塑小马智行估值逻辑

赛博汽车
2025-11-06 15:48:41
评分最高的10部犯罪悬疑剧:《沉默的真相》第3,第1名霸榜10年

评分最高的10部犯罪悬疑剧:《沉默的真相》第3,第1名霸榜10年

电影聚焦
2025-11-07 09:56:59
多年的付出毁于一“蛋”,满屏都曾医生,网友透露更多细节

多年的付出毁于一“蛋”,满屏都曾医生,网友透露更多细节

魔都姐姐杂谈
2025-11-07 10:22:54
大米公司为什么被全网群嘲?这两点就够了!

大米公司为什么被全网群嘲?这两点就够了!

宏哥谈商道
2025-11-06 19:00:03
年轻人捡漏倒闭车企“烂尾车”!7万买一辆哪吒,“因为倒闭,才有好价”

年轻人捡漏倒闭车企“烂尾车”!7万买一辆哪吒,“因为倒闭,才有好价”

红星资本局
2025-11-07 10:59:10
婚车遭拦截被索要50条香烟,僵持1小时新人弃车,当地回应惹众怒

婚车遭拦截被索要50条香烟,僵持1小时新人弃车,当地回应惹众怒

以茶带书
2025-11-07 11:31:11
2025-11-08 08:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
11642文章数 176329关注度
往期回顾 全部

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

头条要闻

媒体:一份非官方的美国就业数据 把美国投资者吓坏了

头条要闻

媒体:一份非官方的美国就业数据 把美国投资者吓坏了

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

王家卫的“看人下菜碟”?

财经要闻

荷兰政府:安世中国将很快恢复芯片供应

汽车要闻

美式豪华就是舒适省心 林肯航海家场地试驾

态度原创

健康
旅游
时尚
数码
房产

超声探头会加重受伤情况吗?

旅游要闻

稻城亚丁冲古寺看仙乃日雪山的最佳角度在哪? 看完这篇你就明白了

“这条围巾”才是今年的顶流单品,时髦的女人都有它

数码要闻

Ayaneo即将推出搭载Ryzen AI Max+ 395 APU的下一代掌机

房产要闻

全国2025唯一“开盘即百亿”在广州诞生

无障碍浏览 进入关怀版