网易首页 > 网易号 > 正文 申请入驻

英伟达发布Nemotron-Flash:以GPU延迟为核心重塑小模型架构

0
分享至



导读 过去两年,小语言模型(SLM)在业界备受关注:参数更少、结构更轻,理应在真实部署中 “更快”。但只要真正把它们跑在 GPU 上,结论往往令人意外 —— 小模型其实没有想象中那么快。

参数缩小了,延迟却常常没有同步下降;结构轻量化了,吞吐却未必提升。这并非个别模型的问题,而是小模型设计长期忽略了一个根本事实:“模型更小” 并不等于 “延迟更友好”。

英伟达研究院就是从这一盲区重新出发:不是把大模型简单缩小,而是把 “真实 GPU 延迟” 作为结构设计的第一原则,全面重构小模型应该长成的样子。最终构建的 Nemotron-Flash 模型同时实现了 SOTA 准确率、低延迟、高吞吐,打败了众多业界小模型。Nemotron-Flash 已集成进 TensorRT-LLM,单 H100 GPU 吞吐可达 41K tokens/second。



该论文已被 NeurIPS 2025 接收,相关海报将于 12 月 4 日在 San Diego 展示。



  • 论文链接:https://arxiv.org/pdf/2511.18890
  • Hugging Face:

https://huggingface.co/nvidia/Nemotron-Flash-1B

https://huggingface.co/nvidia/Nemotron-Flash-3B

https://huggingface.co/nvidia/Nemotron-Flash-3B-Instruct

一、小模型为何不够快?

真正跑在 GPU 上之后,一切才暴露

英伟达的分析揭示:小模型之所以不快,是三个长期被忽视的因素造成的:

首先,是深宽比本身就是一个矛盾体。等参数比较时,模型越深往往越强;但在真实 GPU 上,延迟对 “层数” 极为敏感:层越多,kernel 调度越频繁,延迟就越高。结果是一个反直觉的事实:想强要变深,想快要变宽。而大多数小模型都深而窄,自然在延迟上吃亏。

其次,Attention 成本依然是实现高吞吐的最大瓶颈。然而业界对 Mamba2、DeltaNet 等高效算子的组合方式一直缺乏系统方法:哪些层该用 Attention,哪些层应该交给 Linear Attention?没有明确答案。

最后,小模型训练在后期往往会 “提前退场”。权重尺度逐渐偏移、有效梯度下降、模型停滞不前 —— 结构设计再好,容量也无法充分释放。许多小模型的最终性能其实被训练本身限制住了,而不是被参数量限制。

英伟达正是从这三点出发,重新回答了 “小模型应该长成什么样” 这一根本问题。

二、Nemotron-Flash 的核心方法

从延迟重新定义小模型结构

Nemotron-Flash 的方法论围绕三个关键突破展开,每一个都基于真实 GPU 延迟,而非理论 FLOPs。

1. 深宽比优化:深度负责能力,宽度负责速度,关键是找到黄金点

Nemotron-Flash 的大量真实设备实验揭示了小模型容易被忽略的规律:等参数下,越深越强;等延迟下,越宽越快。这两者天然冲突,意味着:深宽比不是一个随手调的超参,而是决定小模型最终能力和延迟的核心结构维度。

通过绘制 “准确率–延迟” 曲线,以及拟合准确率和模型深度 / 宽度的 scaling law,英伟达最终找到一个稳定的结论:模型必须 “足够深” 才能保住表达能力;也必须 “足够宽” 才能降低实际延迟;最优结构正是深宽交汇的黄金点。Nemotron-Flash-1B/3B 就是根据这套规律得到的结构,因此既不 “深得拖速度”,也不 “宽得能力不足”。



2. 混合算子结构:真正的速度来自 “谁和谁搭配”,而不是单一的替代

Nemotron-Flash 的结构创新并不是简单 “换上新算子”,而是为不同算子明确角色分工,并系统探索它们的最佳协作方式。英伟达先研究了各类算子的准确率–延迟 trade-off,据此构建搜索空间,再使用遗传算法寻找算子在不同层之间的最优比例与位置。最终得到的架构由 Attention、Mamba2、DeltaNet 和 FFN 共同组成,各自承担不同职责:

  • Attention 负责全局依赖,但必须谨慎控制数量与位置。
  • Mamba2、DeltaNet 等 Linear Attention 负责高吞吐的局部建模,是速度的主力层。
  • FFN 提供稳定的表达容量,是所有 block 的基础骨架。

Nemotron-Flash 的结果显示,小模型的能力和速度不取决于某个 “更好的” 算子,而取决于算子之间的协作模式。这进一步证明:面对真实延迟优化时,混合架构往往比任何单一结构更具优势。

3. Weight Normalization:让小模型在训练后期不再 “掉链子”

英伟达观察到,小模型训练后期权重矩阵内部会逐渐形成 structured outliers:随着训练推进,部分行或列会系统性地放大,出现远高于整体分布的大幅值结构,成为随着优化过程累积产生的 “结构化巨权重”。问题在于:这些巨权重会拖慢乃至冻结训练后期的进展。 当某些方向的权重范数过大时,反向传播的梯度在这些方向上被不断缩放,导致 effective learning rate 急剧下降。模型看似还在更新,但实际已经 “踩不动油门”,无法继续提升。



Nemotron-Flash 的解决方案非常直接有效:在训练过程中的每个 training iteration 后,对每个线性层施加显式 weight normalization,即将模型权重投影到单位范数球面上。这一归一化步骤去除了径向分量,使更新主要发生在角度方向。在相同梯度幅度下,这会带来更大的相对权重变化。

效果立竿见影:训练后期梯度不再被巨权重 “吃掉”,小模型可以持续学习,不会出现常见的 “后期停滞”。在各种模型上,最终收敛质量明显高于未使用 weight normalization 的基线模型。



三、Nemotron-Flash Model Family:又快又强


Nemotron-Flash 结合了上面所有技术,提供 1B 和 3B 两种模型大小。在 H100 上的实测结果显示:

  • Nemotron-Flash-1B 相比 Qwen3-0.6B,准确率提升 5.5%,端侧推理延迟(batch size=1)快 1.9×,最大吞吐高出 45.6×;
  • Nemotron-Flash-3B 相比 Qwen2.5-3B 与 Qwen3-1.7B,准确率提升 2%~5.5%,端侧推理延迟(batch size=1)快 1.3×~1.7×,最大吞吐提升 6.4×~18.7×;Instruct 版本同样领先,准确率提升约 4.7%,吞吐最高可达 18.7×。



Nemotron-Flash 的速度与稳定性让小模型真正具备 “可规模部署” 的能力,能够在关键业务场景中提供持续、可靠且低延迟的体验 —— 例如在高并发在线服务 中(如搜索助手、智能客服),更快的响应与更高吞吐意味着同样的 GPU 可以服务更多用户且体验更顺滑;在端侧与边缘设备 上(如家用机器人、可穿戴 XR),Nemotron-Flash 的宽结构与高速算子让设备在有限算力下依然能保持实时反应;而在成本敏感的企业私有化部署 场景(如金融、医疗),Nemotron-Flash 是既省成本又能落地高质量 AI 功能的理想选择。

结语

小模型的未来不是 “更小”,而是 “更快、更稳、更强”。Nemotron-Flash 提供了小模型设计的新底层逻辑:深宽比必须围绕延迟设计;算子组合必须有角色分工;训练必须保持后期稳定性。通过这套方法,小模型摆脱了 “虽然小但不快” 的悖论,真正实现了:小而强,小而快,小而可用。

作者简介

文章第一作者为 Yonggan Fu (傅泳淦),目前为英伟达研究院科学家。2025 年 5 月于 Georgia Institute of Technology 获博士学位,2019 年毕业于中国科学技术大学少年班学院,双修应用物理与计算机科学。博士期间获得 IBM PhD Fellowship 及 ML & Systems Rising Stars 2023。目前研究方向为高效大模型架构与算法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方高规格接待,卡尼赴京吃晚宴,现场安排特殊,交易迎来窗口期

中方高规格接待,卡尼赴京吃晚宴,现场安排特殊,交易迎来窗口期

健身狂人
2026-01-16 09:28:51
贺娇龙告别仪式:新疆下雪,无数人带鲜花送别,交代的事已完成!

贺娇龙告别仪式:新疆下雪,无数人带鲜花送别,交代的事已完成!

古希腊掌管松饼的神
2026-01-16 10:11:28
叶剑英询问许世友:南京军区还听你调遣吗?许世友直言:军区司令就是我的贴身保镖

叶剑英询问许世友:南京军区还听你调遣吗?许世友直言:军区司令就是我的贴身保镖

清风鉴史
2025-12-24 15:02:13
刘銮雄与吕丽君之女刘秀盈拉小提琴,她23岁好独立,比甘比女儿强

刘銮雄与吕丽君之女刘秀盈拉小提琴,她23岁好独立,比甘比女儿强

小娱乐悠悠
2026-01-16 09:14:54
华国锋退下来了,组织专门找到他的秘书,诚恳让其自己挑前途~

华国锋退下来了,组织专门找到他的秘书,诚恳让其自己挑前途~

鹤羽说个事
2026-01-14 15:22:18
难怪灿灿不干了!丰城杀猪饭遭疯抢,锅盖都按不住,主办人急哭了

难怪灿灿不干了!丰城杀猪饭遭疯抢,锅盖都按不住,主办人急哭了

子芫伴你成长
2026-01-15 22:49:00
2人太致命!火箭48-55雷霆,杜兰特13中3单打过多!

2人太致命!火箭48-55雷霆,杜兰特13中3单打过多!

运筹帷幄的篮球
2026-01-16 09:44:12
你的存款超过了这个数,恭喜,你已迈入真正有钱人的门槛

你的存款超过了这个数,恭喜,你已迈入真正有钱人的门槛

平说财经
2026-01-14 17:52:06
她花了9亿开了场“阴间”演唱会,被举报了,还赔了3亿?

她花了9亿开了场“阴间”演唱会,被举报了,还赔了3亿?

gogoboi
2026-01-14 23:09:15
姆巴佩伤情加剧!经纪人团队发声,三线崩盘在即,皇马后悔了

姆巴佩伤情加剧!经纪人团队发声,三线崩盘在即,皇马后悔了

阿泰希特
2026-01-16 09:03:49
为什么他们可以闻到身上的穷酸味?看完网友评论我真的破防了

为什么他们可以闻到身上的穷酸味?看完网友评论我真的破防了

夜深爱杂谈
2026-01-15 21:07:43
原来王菲没撒谎!公开求助、哽咽落泪的李亚鹏,证实了她当年评价

原来王菲没撒谎!公开求助、哽咽落泪的李亚鹏,证实了她当年评价

冷紫葉
2026-01-15 19:08:26
浙大美女张燕飞去德国学汉学,回中国当博导……

浙大美女张燕飞去德国学汉学,回中国当博导……

吃瓜体
2026-01-13 17:05:24
朱元璋出巡时,遇到当年的地主:当年到你家要饭,为何给我馊饭?

朱元璋出巡时,遇到当年的地主:当年到你家要饭,为何给我馊饭?

五元讲堂
2025-11-06 10:41:50
部队退役我当了狱警,给一个死刑犯剃头时,认出他是失踪多年的队长

部队退役我当了狱警,给一个死刑犯剃头时,认出他是失踪多年的队长

浮生实录集
2025-09-18 15:10:05
确认了!是知名演员张嘉益

确认了!是知名演员张嘉益

看尽落尘花q
2026-01-04 11:55:44
积雪深度超18厘米!河南暴雪时间定了:就在下周一,郑州的雪集中在下午,河南多地有大到暴雪

积雪深度超18厘米!河南暴雪时间定了:就在下周一,郑州的雪集中在下午,河南多地有大到暴雪

鲁中晨报
2026-01-16 07:15:08
人社部表态!2026养老金有望继续调整,今年调整取消挂钩可行吗?

人社部表态!2026养老金有望继续调整,今年调整取消挂钩可行吗?

好贤观史记
2026-01-16 09:51:48
张水华真实水平曝光:世界第471+国内第26 真有底气辞职参赛?

张水华真实水平曝光:世界第471+国内第26 真有底气辞职参赛?

念洲
2026-01-16 08:10:07
既自私,又老欺负人,还不讲卫生,他上《奔跑吧天路篇》干嘛来了

既自私,又老欺负人,还不讲卫生,他上《奔跑吧天路篇》干嘛来了

一娱三分地
2025-12-29 13:14:58
2026-01-16 10:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12127文章数 142539关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

特朗普:对委内瑞拉发动军事袭击计划"泄密者"已被抓

头条要闻

特朗普:对委内瑞拉发动军事袭击计划"泄密者"已被抓

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

从 "商务" 变 "潮酷" 全新一汽奥迪A6L首秀亮相

态度原创

家居
教育
亲子
手机
时尚

家居要闻

岁月柔情 现代品质轻奢

教育要闻

广州多区明确不组织期末统考,严禁面向非毕业年级

亲子要闻

看来做人不能盲目自信

手机要闻

2025折叠屏市场排名,华为第一,OPPO第六

年度最扎心电影,看得中年男女坐立难安

无障碍浏览 进入关怀版