英伟达253B开源新王登场，Llama 4三天变陪衬！直逼DeepSeek-R1成推理天花板|智能体|工作流|云计算费用|nvidia|deepseek

英伟达253B开源新王登场，Llama 4三天变陪衬！直逼DeepSeek-R1成推理天花板

2025-04-09 10:07:11　来源: 新智元

北京举报

分享至

新智元报道

编辑：编辑部 HYZ

【新智元导读】Llama 4刚出世就被碾压！英伟达强势开源Llama Nemotron-253B推理模型，在数学编码、科学问答中准确率登顶，甚至以一半参数媲美DeepSeek R1，吞吐量暴涨4倍。关键秘诀，就在于团队采用的测试时Scaling。

Llama 4诞生不过3天，反手就被超越了。

刚刚，英伟达官宣开源「超大杯」Llama Nemotron推理模型，共有253B参数，基于Llama-3.1-405B微调而来。

在多项基准测试中，Llama Nemotron一举击败了两款Llama 4模型。而且仅用一半的参数，性能直逼DeepSeek R1。

尤其是，在复杂数学推理AIME（2024/2025）、科学推理GPQA Diamond、编码LiveCodeBnech中，新模型取得SOTA。

相比DeepSeek R1 671B，它的推理吞吐量提升了4倍。

Llama-3.1-Nemotron-Ultra-253B-v1经过后期训练，专注于推理、人类聊天偏好和任务，如RAG（检索增强生成）和工具调用。

它能支持128Ktoken的上下文长度，且能够在单个8xH100芯片节点上进行推理。

这个模型之所以能达到如此强的推理性能，是因为在模型精度和效率之间取得了良好平衡，让效率（吞吐量）直接转化为成本节省。

通过采用一种新颖的神经架构搜索（NAS）方法，研究者大大减少了模型的内存占用，从而支持更大的工作负载，并减少了在数据中心环境中运行模型所需的GPU数量。

现在，该模型已准备好支持商用。

Llama Nemotron超大杯上线，推理开源天花板

今年3 月，英伟达首次亮相了Llama Nemotron系列推理模型。

它一共包含三种规模：Nano、Super 和 Ultra，分别针对不同场景和计算资源需求，供开发者使用。

· Nano

Nano（8B）基于Llama 3.1 8B微调而来，专为PC和边缘设备而设计。

如下图，Llama Nemotron Nano在GPQA Diamond、AIME 2025、MATH-500、BFCL、IFEval、MBPP和MTBench等多项基准测试中，展现出领先性能。

图 1. Llama Nemotron Nano在一系列推理和智能体基准测试中提供同类最佳性能

· Super

Super（49B）是从Llama 3.3 70B蒸馏而来，针对数据中心GPU进行了优化，便可实现最高吞吐量下的最佳准确性。

下图显示，Llama Nemotron Super在GPQA Diamond、AIME 2024/2025、MATH-500、MBPP、Arena Hard、BFCL和IFEval等多项基准测试，取得了最优性能。

图 2. Llama Nemotron Super在一系列推理和智能体基准测试中提供领先性能

· Ultra

Ultra（253B）是从Llama 3.1 405B蒸馏而来，专为多GPU数据中心打造最强智能体而设计，

图表显示，采用FP8精度的Llama Nemotron Ultra 253B在GPQA、Complex Math、BFCL、LiveCodeBench以及IFEval上表现出色。

图3. FP8精度的Llama Nemotron Ultra提供同类最佳的推理和智能体基准测试性能

Llama Nemotron家族模型均是基于开源 Llama构建，并采用英伟达审核后的数据集合成数据，因此全部可以商用。

秘密武器：测试时Scaling

英伟达是如何训练出性能如此卓越的模型的？背后的关键，就在于「测试时scaling」（或称推理时scaling）和「推理」。

测试时scaling这项技术，会在模型推理阶段投入更多计算资源，用以思考和权衡各种选项，来提升模型响应质量，这就使得模型在关键下游任务上的性能得以提升。

对问题进行推理是一项复杂的任务，而测试时投入的计算资源，正是使这些模型能达到前述需推理水平的关键因素。

它能让模型在推理期间利用更多资源，开辟更广阔的可能性空间，从而增加模型建立起必要关联、找到原本可能无法获得的解决方案的几率。

尽管「推理」和「测试时scaling」对智能体工作流如此重要，但有一个共同问题，却普遍困扰着如今最先进的推理模型——

开发者无法选择何时让模型进行推理，也就是说，做不到在「推理开启」和「推理关闭」之间自由切换。

而Llama Nemotron系列模型则攻破了这一难题，用「系统提示词」来控制推理开关！

如何构建？

Llama 3.3 Nemotron 49B Instruct以Llama 3.3 70B Instruct为基础模型，经历了一个广泛的后训练阶段后，不仅模型尺寸减小，还让原始能力保留甚至增强了。

三个后训练阶段如下。

1. 通过神经架构搜索 (NAS) 和知识蒸馏进行蒸馏。

2. 监督微调：使用了由英伟达创建的600亿Token 合成数据（代表了所生成的 3000万样本中的400万），以确保在「推理关闭」和「推理开启」两种模式下内容的高质量。在此阶段，团队利用了NVIDIA NeMo框架，有效且高效地扩展了后训练流程。

3. 强化学习：这个阶段是利用NVIDIA NeMo完成的，模型的对话能力和指令遵循性能得以增强，从而在广泛的任务中都能提供高质量的响应。

第一个阶段（步骤1和2）已在神经架构搜索 (NAS) 技术报告中详细阐述。

简而言之，该阶段可被视为通过多种蒸馏和NAS方法，依据特定的旗舰硬件，将各模型的参数量「调整至合适尺寸」，从而达到预选的最优值。

模型后训练的第二个阶段（步骤3和4）则涉及由合成数据驱动的监督微调，目的在于实现几个关键目标。

首要目标，就是提升模型在多种任务上的非推理性能。

后训练流程的这一环节（步骤3）利用了团队精选的提示词，通过基线模型 (Llama 3.3 70B Instruct) 以及Qwen2.5 7B Math和Coder模型生成合成数据。

这些数据随后经过团队的精选与审核，用于增强模型在聊天、数学和代码任务上的「推理关闭」模式下的性能。

同时，团队也投入大量精力，确保在此阶段，「推理关闭」模式下的指令遵循和函数调用性能达到同类最佳水平。

第二个目标（步骤4）是通过在精选的DeepSeek-R1数据（仅限数学、代码和科学领域）上进行训练，打造出同类最佳的推理模型。

每一个提示词和响应都经过严格筛选，确保在推理能力增强过程中仅使用高质量数据，并辅以NVIDIA NeMo框架的支持。这就能确保团队可以选择性地从 DeepSeek-R1中蒸馏出它在优势领域所具备的强大推理能力。

「推理开启」/「推理关闭」两种模式的训练（步骤3和4）是同时进行的，两者唯一的区别在于系统提示词。

这意味着，最终生成的模型既能作为推理模型运行，也能作为传统的LLM运行，并通过一个开关（即系统提示词）在两种模式间切换。

这种设计，使得组织机构能够将单个尺寸适宜的模型同时用于推理任务和非推理任务。

最后一个阶段（步骤5和6）则采用了强化学习来更好地对齐用户意图与期望。

模型首先利用REINFORCE算法和基于启发式的验证器，针对指令遵循和函数调用这两个任务进行RL以提升性能（步骤5）。

随后，采用RLHF技术，结合HelpSteer2数据集和NVIDIA Llama 3.1 Nemotron奖励模型，对最终模型进行面向聊天应用场景的对齐（步骤6）。

最终，这些后训练步骤打造出了同类最佳的推理模型，并且通过提供在两种范式（推理与非推理）间切换的机制，确保了模型在函数调用和指令遵循方面的性能不受影响。

模型则能高效支持智能体AI工作流中的各个，同时还能保持针对旗舰级英伟达硬件优化的最佳参数量。

性能刷新SOTA，吞吐量最高5倍提升

· Llama Nemotron Super

Llama Nemotron融合了DeepSeek-R1等模型强大的推理能力，以及Llama 3.3 70B Instruct具备的强大世界知识与对可靠工具调用及指令遵循，最终打造出在关键智能体任务上表现领先的模型。

结果显示，Llama Nemotron 49B准确性最高，且吞吐量提升达5倍。

图 5. Llama Nemotron Super为智能体任务提供了最高的准确性和吞吐量，从而降低了推理成本

· Llama Nemotron Ultra 253B

Llama Nemotron Ultra总参数量仅为253B，但其推理性能已达到甚至超越DeepSeek-R1等顶级开放推理模型。

与此同时，凭借优化的模型尺寸实现了显著更高的吞吐量，并保留了优秀的工具调用能力。

这种卓越推理能力与毫不妥协的工具调用能力的结合，使其成为智能体工作流领域的同类最佳模型。

除了应用Llama Nemotron Super的完整后训练流程外，Llama Nemotron Ultra还额外经历了一个专注的RL阶段，旨在进一步增强其推理能力。

结果表明，相较于DeepSeek-R1 671B，Llama Nemotron Ultra的吞吐量提升高达4倍，并且在GPQA、AIME 2024、AIME 2025、BFCL、LiveCodeBench、MATH500和IFEval的等权重平均准确性方面取得最高分。

图6. Llama Nemotron Ultra同时提供卓越的准确性和惊人的吞吐量

打造多智能体系统，搞定复杂任务

由Llama 3.3 Nemotron 49B Instruct驱动的多智能体协作系统，在Arena Hard 基准测试中，拿下了惊艳的92.7分。

传统的测试时计算scaling方法，大多聚焦于那些有明确答案的问题，比如数学题、逻辑推理、编程竞赛。

现实中，许多重要任务缺乏可验证的解决方案，比如提出创新研究思路、撰写学术论文，或是为复杂的软件产品开发有效的交付策略。

这些问题，往往更具挑战性，也更贴近实际需求。

Llama Nemotron测试时计算scaling系统正是为此而生，它模仿了人类解决复杂问题写作模式，通过以下几个步骤实现：

1. 集思广益：针对问题初步构思一个或多个解决方案。

2. 获取反馈：就初步方案征求朋友、同事或其他专家的意见。

3. 编辑修订：根据收集到的反馈对初步方案进行修改。

4. 择优选取：在整合修订意见后，选出最具潜力的最终解决方案。

这种方法使得测试时计算scaling技术能够应用于更广泛的通用领域任务。

要形象地理解这个多智能体协作系统，可以将其类比为一个团队协同工作，为一个没有标准答案的开放式问题寻找最佳解决方案。

与之相对，「长思考」则好比训练单个人深度、持久地钻研一个问题，最终得出一个可以对照标准答案进行验证的结果。

因此，多智能体系统强大之处在于，不仅提升解决复杂问题效率，还能通过协作挖掘更多可能性。

参考资料：

https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1

https://developer.nvidia.com/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models/

https://build.nvidia.com/nvidia/llama-3_1-nemotron-ultra-253b-v1?ncid=so-twit-273200

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

英伟达253B开源新王登场，Llama 4三天变陪衬！直逼DeepSeek-R1成推理天花板

Meta高管狂分百亿期权，700名员工却下岗

伊朗议长和外长暂被移出美以清除名单 时限4到5天

伊朗议长和外长暂被移出美以清除名单 时限4到5天

35岁替补门将，凭什么入选英格兰队？

张雪峰家人首发声 不设追思会丧事从简

黄仁勋：芯片公司的时代已经结束了

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

质价比标杆！三亚首创浮岛全景舱亮相，还得是万科！

明起全面实行线上实名预约购票！云台山景区发布公告

哪一座桥不是风景？

转头就晕的耳石症，能开车上班吗？

Intel史上最先进！酷睿Ultra 300系列vPro平台发布

伊朗议长和外长暂被移出美以清除名单时限4到5天

伊朗议长和外长暂被移出美以清除名单时限4到5天

张雪峰家人首发声不设追思会丧事从简