英伟达发布Nemotron-Flash：以GPU延迟为核心重塑小模型架构|算法|算子|gpu|大模型|flash

英伟达发布Nemotron-Flash：以GPU延迟为核心重塑小模型架构

2025-12-01 12:14:19　来源: 机器之心Pro

河北举报

分享至

导读过去两年，小语言模型（SLM）在业界备受关注：参数更少、结构更轻，理应在真实部署中 “更快”。但只要真正把它们跑在 GPU 上，结论往往令人意外 —— 小模型其实没有想象中那么快。

参数缩小了，延迟却常常没有同步下降；结构轻量化了，吞吐却未必提升。这并非个别模型的问题，而是小模型设计长期忽略了一个根本事实：“模型更小” 并不等于 “延迟更友好”。

英伟达研究院就是从这一盲区重新出发：不是把大模型简单缩小，而是把 “真实 GPU 延迟” 作为结构设计的第一原则，全面重构小模型应该长成的样子。最终构建的 Nemotron-Flash 模型同时实现了 SOTA 准确率、低延迟、高吞吐，打败了众多业界小模型。Nemotron-Flash 已集成进 TensorRT-LLM，单 H100 GPU 吞吐可达 41K tokens/second。

该论文已被 NeurIPS 2025 接收，相关海报将于 12 月 4 日在 San Diego 展示。

论文链接：https://arxiv.org/pdf/2511.18890
Hugging Face:

https://huggingface.co/nvidia/Nemotron-Flash-1B

https://huggingface.co/nvidia/Nemotron-Flash-3B

https://huggingface.co/nvidia/Nemotron-Flash-3B-Instruct

一、小模型为何不够快？

真正跑在 GPU 上之后，一切才暴露

英伟达的分析揭示：小模型之所以不快，是三个长期被忽视的因素造成的:

首先，是深宽比本身就是一个矛盾体。等参数比较时，模型越深往往越强；但在真实 GPU 上，延迟对 “层数” 极为敏感：层越多，kernel 调度越频繁，延迟就越高。结果是一个反直觉的事实：想强要变深，想快要变宽。而大多数小模型都深而窄，自然在延迟上吃亏。

其次，Attention 成本依然是实现高吞吐的最大瓶颈。然而业界对 Mamba2、DeltaNet 等高效算子的组合方式一直缺乏系统方法：哪些层该用 Attention，哪些层应该交给 Linear Attention？没有明确答案。

最后，小模型训练在后期往往会 “提前退场”。权重尺度逐渐偏移、有效梯度下降、模型停滞不前 —— 结构设计再好，容量也无法充分释放。许多小模型的最终性能其实被训练本身限制住了，而不是被参数量限制。

英伟达正是从这三点出发，重新回答了 “小模型应该长成什么样” 这一根本问题。

二、Nemotron-Flash 的核心方法

从延迟重新定义小模型结构

Nemotron-Flash 的方法论围绕三个关键突破展开，每一个都基于真实 GPU 延迟，而非理论 FLOPs。

1. 深宽比优化：深度负责能力，宽度负责速度，关键是找到黄金点

Nemotron-Flash 的大量真实设备实验揭示了小模型容易被忽略的规律：等参数下，越深越强；等延迟下，越宽越快。这两者天然冲突，意味着：深宽比不是一个随手调的超参，而是决定小模型最终能力和延迟的核心结构维度。

通过绘制 “准确率–延迟” 曲线，以及拟合准确率和模型深度 / 宽度的 scaling law，英伟达最终找到一个稳定的结论：模型必须 “足够深” 才能保住表达能力；也必须 “足够宽” 才能降低实际延迟；最优结构正是深宽交汇的黄金点。Nemotron-Flash-1B/3B 就是根据这套规律得到的结构，因此既不 “深得拖速度”，也不 “宽得能力不足”。

2. 混合算子结构：真正的速度来自 “谁和谁搭配”，而不是单一的替代

Nemotron-Flash 的结构创新并不是简单 “换上新算子”，而是为不同算子明确角色分工，并系统探索它们的最佳协作方式。英伟达先研究了各类算子的准确率–延迟 trade-off，据此构建搜索空间，再使用遗传算法寻找算子在不同层之间的最优比例与位置。最终得到的架构由 Attention、Mamba2、DeltaNet 和 FFN 共同组成，各自承担不同职责：

Attention 负责全局依赖，但必须谨慎控制数量与位置。
Mamba2、DeltaNet 等 Linear Attention 负责高吞吐的局部建模，是速度的主力层。
FFN 提供稳定的表达容量，是所有 block 的基础骨架。

Nemotron-Flash 的结果显示，小模型的能力和速度不取决于某个 “更好的” 算子，而取决于算子之间的协作模式。这进一步证明：面对真实延迟优化时，混合架构往往比任何单一结构更具优势。

3. Weight Normalization：让小模型在训练后期不再 “掉链子”

英伟达观察到，小模型训练后期权重矩阵内部会逐渐形成 structured outliers：随着训练推进，部分行或列会系统性地放大，出现远高于整体分布的大幅值结构，成为随着优化过程累积产生的 “结构化巨权重”。问题在于：这些巨权重会拖慢乃至冻结训练后期的进展。当某些方向的权重范数过大时，反向传播的梯度在这些方向上被不断缩放，导致 effective learning rate 急剧下降。模型看似还在更新，但实际已经 “踩不动油门”，无法继续提升。

Nemotron-Flash 的解决方案非常直接有效：在训练过程中的每个 training iteration 后，对每个线性层施加显式 weight normalization，即将模型权重投影到单位范数球面上。这一归一化步骤去除了径向分量，使更新主要发生在角度方向。在相同梯度幅度下，这会带来更大的相对权重变化。

效果立竿见影：训练后期梯度不再被巨权重 “吃掉”，小模型可以持续学习，不会出现常见的 “后期停滞”。在各种模型上，最终收敛质量明显高于未使用 weight normalization 的基线模型。

三、Nemotron-Flash Model Family：又快又强

Nemotron-Flash 结合了上面所有技术，提供 1B 和 3B 两种模型大小。在 H100 上的实测结果显示：

Nemotron-Flash-1B 相比 Qwen3-0.6B，准确率提升 5.5%，端侧推理延迟（batch size=1）快 1.9×，最大吞吐高出 45.6×；
Nemotron-Flash-3B 相比 Qwen2.5-3B 与 Qwen3-1.7B，准确率提升 2%~5.5%，端侧推理延迟（batch size=1）快 1.3×~1.7×，最大吞吐提升 6.4×~18.7×；Instruct 版本同样领先，准确率提升约 4.7%，吞吐最高可达 18.7×。

Nemotron-Flash 的速度与稳定性让小模型真正具备 “可规模部署” 的能力，能够在关键业务场景中提供持续、可靠且低延迟的体验 —— 例如在高并发在线服务中（如搜索助手、智能客服），更快的响应与更高吞吐意味着同样的 GPU 可以服务更多用户且体验更顺滑；在端侧与边缘设备上（如家用机器人、可穿戴 XR），Nemotron-Flash 的宽结构与高速算子让设备在有限算力下依然能保持实时反应；而在成本敏感的企业私有化部署场景（如金融、医疗），Nemotron-Flash 是既省成本又能落地高质量 AI 功能的理想选择。

结语

小模型的未来不是 “更小”，而是 “更快、更稳、更强”。Nemotron-Flash 提供了小模型设计的新底层逻辑：深宽比必须围绕延迟设计；算子组合必须有角色分工；训练必须保持后期稳定性。通过这套方法，小模型摆脱了 “虽然小但不快” 的悖论，真正实现了：小而强，小而快，小而可用。

作者简介

文章第一作者为 Yonggan Fu (傅泳淦)，目前为英伟达研究院科学家。2025 年 5 月于 Georgia Institute of Technology 获博士学位，2019 年毕业于中国科学技术大学少年班学院，双修应用物理与计算机科学。博士期间获得 IBM PhD Fellowship 及 ML & Systems Rising Stars 2023。目前研究方向为高效大模型架构与算法。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.