网易首页 > 网易号 > 正文 申请入驻

英伟达全新开源模型:三倍吞吐、单卡可跑,还拿下推理SOTA

0
分享至

  • henry 发自 凹非寺
    量子位 | 公众号 QbitAI

众所周知,老黄不仅卖铲子(GPU),还自己下场开矿(造模型)。

英伟达最新推出的Llama Nemotron Super v1.5开源模型就专为复杂推理和agnet任务量身打造。

模型在科学、数学、编程及agent任务中实现SOTA表现的同时,还将吞吐量提升至前代的3倍,且可在单卡高效运行,实现更准、更快、更轻的“既要又要还要”。

这是怎么做到的?

模型介绍

Llama Nemotron Super v1.5是Llama-3.3-Nemotron-Super-49B-V1.5的简称。它是Llama-3.3-Nemotron-Super-49B-V1的升级版本(该模型是Meta的Llama-3.3-70B-Instruct的衍生模型),专为复杂推理和智能体任务设计。

模型架构

Llama Nemotron Super v1.5采用神经架构搜索(Neural Architecture Search,NAS),使该模型在准确率和效率之间实现了良好的平衡,将吞吐量的提升有效转化为更低的运行成本。

(注:NAS的目标是通过搜索算法从大量的可能架构中找到最优的神经网络结构,利用自动化方法替代人工设计神经网络架构,从而提高模型的性能和效率。)

在Llama Nemotron Super v1.5中,NAS算法生成了非标准、非重复的网络模块(blocks)。相较于传统的Transformer,其包含以下两类变化:

  • 跳过注意力机制(Skip attention):在某些模块中,直接跳过了注意力层,或者只用一个线性层来代替。

  • 可变前馈网络(Variable FFN):在前馈网络(Feedforward Network)中,不同模块采用了不同的扩展/压缩比。

由此,模型通过跳过attention或改变FFN宽度以减少FLOPs,从而在资源受限时更高效地运行模型。

之后,研究团队还对原始的Llama模型(Llama 3.3 70B Instruct)进行了逐模块的蒸馏(block-wise distillation),通过对每个模块构造多个变体,并在所有模块结构中搜索组合,从而构建一个模型。

使它既能满足在单个H100 80GB显卡上的吞吐量和内存要求,又尽量减少性能损失。

训练与数据集

模型首先在FineWeb、Buzz-V1.2 和 Dolma三个数据集共400亿个token的训练数据上进行了知识蒸馏(knowledge distillation,KD),重点关注英语单轮和多轮聊天。

在后训练阶段,模型通过结合监督微调(SFT)和强化学习(RL)的方法,以进一步提升模型在代码、数学、推理和指令遵循等关键任务上的表现。

这些数据既包括来自公开语料库的题目,也包含人工合成的问答样本,其中部分题目配有开启和关闭推理的答案,旨在增强模型对推理模式的辨别能力。

英伟达表示数据集将在未来几周内发布。

总的来说,Llama Nemotron Super V1.5是一个通过NAS自动优化架构、精简计算图的 Llama 3.3 70B Instruct变体。它针对单卡运行场景做了结构简化、知识蒸馏训练与后训练,兼顾高准确性、高吞吐量与低资源占用,特别适合英语对话类任务及编程任务的部署。

此外,在部署方面,英伟达延续了其一贯的生态优势:

  • 我们的AI模型专为在 NVIDIA GPU 加速系统上运行而设计和/或优化。通过充分利用 NVIDIA 的硬件(如 GPU 核心)和软件框架(如 CUDA 库),相比仅依赖 CPU 的方案,模型在训练和推理阶段实现了显著的速度提升。

该模型现已开源。开发者可以在build.nvidia.com体验Llama Nemotron Super v1.5或直接从Hugging Face下载模型。

One more thing

作为英伟达最新发布的开源大语言模型,Llama Nemotron Super v1.5隶属于英伟达Nemotron生态,该生态集成了大语言模型、训练与推理框架、优化工具和企业级部署方案,旨在实现高性能、可控性强、易于扩展的生成式 AI 应用开发。

为满足不同场景需求与用户定位,英伟达在此生态的基础上推出了三个不同定位的大语言模型系列——Nano、Super和Ultra。

其中,Nano系列针对成本效益和边缘部署,适合部署在边缘设备(如移动端、机器人、IoT设备等)或成本敏感型场景(比如本地运行、离线场景、商业小模型推理)。

Super系列则针对单个GPU上平衡的精度和计算效率,它可以在一张高性能 GPU(如 H100) 上运行,不需要多卡或大型集群。它的精度比Nano高,但比Ultra小巧,适合企业开发者或中型部署。我们上面提到的Llama Nemotron Super v1.5就属于这一系列。

Ultra则致力于数据中心的最大精度,专为在数据中心、超算集群、多张 GPU上运行而设计,面向复杂推理、大规模生成、高保真对话等对精度要求极高的任务。

目前,Nemotron已获得SAP、ServiceNow、Microsoft、Accenture、CrowdStrike、Deloitte 等企业支持或集成使用,用于构建面向企业级流程自动化和复杂问题解决的AI智能体平台。

此外,在Amazon Bedrock Marketplace中也能通过NVIDIA NIM微服务调用Nemotron模型,简化部署流程,支持云端、混合架构等多种运营方案。


[1]https://www.marktechpost.com/2025/07/27/nvidia-ai-dev-team-releases-llama-nemotron-super-v1-5-setting-new-standards-in-reasoning-and-agentic-ai/
[2]https://developer.nvidia.com/blog/build-more-accurate-and-efficient-ai-agents-with-the-new-nvidia-llama-nemotron-super-v1-5/
[3]https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1_5
[4]https://www.nvidia.com/en-us/ai-data-science/foundation-models/nemotron/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一张机票暴露一切:全美数据与ICE共享,女子在机场被直接遣返

一张机票暴露一切:全美数据与ICE共享,女子在机场被直接遣返

华人生活网
2026-03-26 02:26:21
河南街头用头撞车事件,警方回应后续来了!评论区彻底炸锅

河南街头用头撞车事件,警方回应后续来了!评论区彻底炸锅

奇思妙想草叶君
2026-03-25 13:12:39
吴国桢回忆宋氏姐妹:宋霭龄动下小指头,就能将宋美龄弄得团团转

吴国桢回忆宋氏姐妹:宋霭龄动下小指头,就能将宋美龄弄得团团转

浩渺青史
2026-03-26 19:37:41
顶级负心汉!成名后与救命恩人离婚娶小三,如今前妻红了他糊了

顶级负心汉!成名后与救命恩人离婚娶小三,如今前妻红了他糊了

蔡蔡说史
2026-03-25 17:33:04
血债血偿,中方支援巴基斯坦,重装合成营教俾路支解放军做人

血债血偿,中方支援巴基斯坦,重装合成营教俾路支解放军做人

狮拓一叶知秋
2025-04-18 22:06:20
俄教授给自己注射350万年前细菌,寻求长生,10多年后怎样了?

俄教授给自己注射350万年前细菌,寻求长生,10多年后怎样了?

火星一号
2026-03-23 00:49:24
五十岁才彻底明白_为何许多男性对五十开外的女性都保持距离

五十岁才彻底明白_为何许多男性对五十开外的女性都保持距离

车窗起雾q
2026-03-20 14:31:16
柯文哲案今天下午一审宣判,若判十年以上有期徒刑将失“大选”资格

柯文哲案今天下午一审宣判,若判十年以上有期徒刑将失“大选”资格

海峡导报社
2026-03-26 07:09:02
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

墨印斋
2026-03-24 21:34:56
第81波打击!以军司令部遇袭,美迎来艰难一夜,特朗普向35国求助

第81波打击!以军司令部遇袭,美迎来艰难一夜,特朗普向35国求助

黑鹰观军事
2026-03-26 19:09:40
梅西让一些名人开始看球!他们一看球就知道梅西是GOAT!

梅西让一些名人开始看球!他们一看球就知道梅西是GOAT!

历史第一人梅西
2026-03-24 23:20:12
去年中乙金靴费尔南多加入苏超南京队,目前他效力于云南玉昆

去年中乙金靴费尔南多加入苏超南京队,目前他效力于云南玉昆

懂球帝
2026-03-26 17:50:02
2026中国大学综合实力排名200强:前十稳定,郑大冲进前20

2026中国大学综合实力排名200强:前十稳定,郑大冲进前20

马蹄烫嘴说美食
2026-03-26 13:46:58
共和党元老惊叹:特朗普只用一年,就让美国制度向恶霸统治投降

共和党元老惊叹:特朗普只用一年,就让美国制度向恶霸统治投降

阿器谈史
2026-01-18 21:24:07
越南5年免签新政策4.1开始实施

越南5年免签新政策4.1开始实施

创作者_cLg1
2026-03-26 09:42:32
A股:两个信息落地,明天,周五或会这样走了!

A股:两个信息落地,明天,周五或会这样走了!

明心
2026-03-26 16:35:30
人过五十才懂:和子女最好的相处,不是给钱出力,而是守住这条线

人过五十才懂:和子女最好的相处,不是给钱出力,而是守住这条线

荷兰豆爱健康
2026-03-23 01:42:20
张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

天山箴言录
2026-03-26 16:45:50
女子因桃花眼走红,订婚两年热度依旧,网友喊话:88号快回来上班

女子因桃花眼走红,订婚两年热度依旧,网友喊话:88号快回来上班

梅子的小情绪
2025-12-19 14:04:18
2026-03-27 03:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
房产
游戏
本地
公开课

400万人爱过的女孩,被黄谣网暴180天后

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版