网易首页 > 网易号 > 正文 申请入驻

Meta用40万个GPU小时做了一个实验,只为弄清强化学习Scaling Law

0
分享至



机器之心报道

编辑:张倩

在 LLM 领域,扩大强化学习算力规模正在成为一个关键的研究范式。但要想弄清楚 RL 的 Scaling Law 具体是什么样子,还有几个关键问题悬而未决:如何 scale?scale 什么是有价值的?RL 真的能如预期般 scale 吗?

为了解答这些问题,来自 Meta 等机构的研究者做了一个看起来耗资不菲的实验:用40 万 GPU 小时跑出了一张 RL 训练「说明书」,让强化学习后训练不再像碰运气,让训练效果变得可预测。



作者提到,近期的 RL 进展,大多来自对特定算法的孤立研究或个别模型的训练报告 —— 这些研究往往给出针对具体任务的解决方案,但并没有提供一套可随算力扩展的通用方法。由于缺乏系统化的 scaling 理论,研究进展被严重限制:由于没有可靠的方法先验地识别有前景的强化学习候选方案,科研者只能依赖高昂的大规模实验,这让绝大多数学术团队无法参与其中。

这项研究旨在奠定 RL scaling 的科学基础,借鉴预训练阶段中早已成熟的「Scaling Law」概念。预训练领域已经发展出能够随算力稳定扩展的算法范式,但 RL 领域尚无明确标准。因此,RL 研究者面临大量设计抉择,却难以回答「应该如何 scale」与「扩展什么」这两个最基本的问题。



  • 论文标题:The Art of Scaling Reinforcement Learning Compute for LLMs
  • 论文链接:https://arxiv.org/pdf/2510.13786

为了解决这一问题,作者提出了一个预测性框架,用以刻画 RL 性能与算力之间的关系,如公式(1)所示:



具体而言,他们用一种类 sigmoid 的饱和曲线,将在独立同分布验证集上的期望奖励(R_C)与训练算力(C)联系起来。曲线中的参数 A 表示渐近性能上限,B 表示算力效率,C_mid 则决定性能曲线的中点。图 3 对这些参数进行了示意性解释。



公式(1)中的框架使研究者能够根据小规模实验结果推测更大算力下的表现,从而在不耗尽算力预算的前提下评估 RL 方法的可扩展性。

基于该框架,作者设计了ScaleRL—— 一种能够随算力可预测地 scale 的 RL 训练配方。在一项耗时 10 万 GPU 小时的大规模实验中,他们验证了 ScaleRL 的表现与该框架预测的曲线高度一致(图 1)。更重要的是,即便只利用训练初期的数据所外推的曲线,也能准确预测最终性能,证明了该框架在极大算力下的预测能力。



ScaleRL 的设计建立在一项覆盖超过 40 万 GPU 小时的系统化实证研究之上(在 Nvidia GB200 GPU 上进行)。该研究在 8B 参数规模的模型上探索了多种设计选择,每次实验使用约 1.6 万 GPU 小时,比最大规模实验便宜约 6 倍。这项研究总结出三条关键原则:

  • RL 性能上限并非普适:不同方法在算力扩展时会遇到不同的性能天花板(A 值),而这个上限可通过损失函数类型、batch size 等设计选择进行调整。
  • 拥抱「苦涩的教训」:在小算力下表现出色的方法,放大到大规模算力时可能效果更差(如图 2 所示)。通过在训练早期使用公式(1)中的框架估计参数 A 与 B,可以提前识别真正具有可扩展性的方法。
  • 重新审视常见经验:许多被认为能提高峰值性能的技巧(如损失聚合、数据课程、长度惩罚、优势归一化)主要影响的是算力效率(B),而非最终性能上限。



基于这些洞察,ScaleRL 并未引入新的算法,而是整合了现有的成熟方法以实现可预测的扩展。具体而言,它结合了异步的 Pipeline-RL 结构、生成长度中断机制、截断重要性采样 RL 损失(CISPO)、基于提示的损失平均、batch 级优势归一化、FP32 精度的 logits、零方差过滤以及 No-Positive-Resampling 策略。每个组件的作用都通过「留一法」消融实验验证,每次实验耗时约 1.6 万 GPU 小时。

ScaleRL 不仅能够稳定扩展,还在性能与效率上都超过了现有 RL 配方。更进一步,当作者在多个训练维度上(如 2.5 倍的 batch size、更长的生成长度、多任务 RL 以及更大的混合专家模型)增加算力时,ScaleRL 仍保持预测一致性,并能持续提升下游任务表现。总体而言,这项工作建立了一种严谨的、可量化的方法论,使研究者能够以成本更可控的方式预测新的 RL 算法的可扩展性。

这篇论文是首个关于 LLM 强化学习扩展的开源、大规模系统性研究,其内容非常翔实,结论也足够有参考价值,因此受到了 Ai2 科学家 Nathan Lambert 等人的强烈推荐。







以下是论文的详细内容。

一个关于 RL Scaling 的全面实验

作者使用一个 8B 稠密模型在可验证的数学问题上进行强化学习实验。他们从可预测的计算规模扩展行为角度研究了几个设计维度,即渐近性能(A)和计算效率(B),如图 3 所示。

异步强化学习设置

作者首先研究异步的 off-policy RL 训练结构,因为它决定了训练的稳定性与算力效率,并且通常独立于其他设计选择。具体来说,作者比较了两种 off-policy 学习方式:PPO-off-policy-k 和 PipelineRL-k。

如图 4a 所示,PipelineRL 与 PPO-off-policy 在最终的性能上限 (A) 相近,但 PipelineRL 显著提升了算力效率 (B),也就是说,它能更快地达到性能天花板 A。这是因为 PipelineRL 减少了训练过程中 GPU 的空闲时间。该结构能以更少的 token 实现稳定增益,从而在有限算力预算下完成更大规模的实验。作者还改变了 PipelineRL 的最大 off-policyness 参数 k,发现 k = 8 时性能最佳(如图 4b 所示),因此后续实验采用 PipelineRL-8 作为基础设置。



算法设计选择

在前述结果的基础上,作者将 PipelineRL-8 设为新的基线方法,并进一步研究了六个算法设计维度:

  • 损失函数类型
  • 精度修正
  • 损失聚合方式
  • 优势归一化
  • batch 定义方式
  • 数据课程策略

损失函数类型

图 5a 表明,GSPO 和 CISPO 的表现都显著优于 DAPO,在最终通过率 A 上有大幅提升。CISPO 在训练过程中展现出更长时间的线性回报增长趋势,并在后期略优于 GSPO,因此作者选择 CISPO 作为 ScaleRL 的最佳损失类型。



LLM Logits 的 FP32 精度

如图 5b 所示,在 logits 层采用精度修正能显著提高最终性能 A,从 0.52 提升至 0.61。鉴于这一明显收益,作者在 ScaleRL 配方中加入 FP32 精度修正。

损失聚合方式

作者比较了不同的损失聚合策略,结果显示 prompt-average 达到了最高的最终性能(图 14a),因此 ScaleRL 采用此方式作为默认选项。



优势归一化

作者比较了三种优势归一化策略:提示级(prompt-level)、batch 级(batch-level)、 无归一化。

图 14b 的结果显示,三者性能相近,但 batch 级归一化在理论上更合理,且略优于其他选项;在后续更大规模的 leave-one-out 实验中,这一选择也得到了进一步验证。

零方差过滤(Zero-Variance Filtering)

图 6a 中的结果表明,使用「有效 batch」(即过滤掉奖励方差为零的样本)可以获得更好的最终性能,因此作者在 ScaleRL 中采用该策略。



自适应提示过滤

为提高采样效率,已有多种数据课程策略被提出。作者评估了一种简单的变体,其核心观察是:当某个提示对当前策略来说变得过于容易后,它通常会一直保持容易。 此类提示虽然仍消耗算力,却不再提供有价值的梯度信号,因此最好从后续训练中剔除。

作者的实现方式是:维护每个提示的历史通过率,一旦某提示的通过率 ≥ 0.9 ,就在之后的训练周期中永久移除它 —— 他们称这种策略为 No-Positive-Resampling。 图 6b 显示,与传统的「所有提示均匀重采样」做法相比,这种课程策略能显著提升 RL 的可扩展性与最终回报 A。

接下来,他们将这些最优选择整合为一个统一的 RL 配方,称为 ScaleRL(可扩展强化学习),并在 16,000 GPU 小时规模上进行了留一法消融实验。

ScaleRL:让强化学习算力高效且可预测地扩展

基于前面各项设计轴的研究结果,作者将性能最优的配置整合成一个统一配方,称为 ScaleRL(Scale-able RL)。

ScaleRL 是一种异步强化学习方案,核心特征包括:

  • 使用 PipelineRL 结构,设置 8 步的 off-policyness;
  • 采用基于中断的长度控制策略来实现序列截断;
  • 在 logits 计算中使用 FP32 精度;
  • 优化 J_ScaleRL (θ) 损失函数。

该损失函数综合了以下关键设计:

  • 提示级损失聚合
  • batch 级优势归一化
  • 截断重要性采样的 REINFORCE 损失(CISPO)
  • 零方差过滤
  • no-positive resampling



为了验证上述设计在组合后的有效性,作者进行了留一法(LOO)实验。实验结果(如图 7 所示,规模均为 16,000 GPU 小时)显示:在所有设计轴上,ScaleRL 一直是最优配置,无论在最终回报还是算力效率上,都略优于任何单项被移除的变体。



RL 在不同算力维度下的可预测回报

在固定或增长的算力预算下,哪一个扩展维度 —— 上下文长度、批大小、每个提示的生成数或模型规模 —— 能带来最可靠的性能提升? 并且,我们能多早预测到这种回报?

作者通过以下步骤回答这一问题:

  • 在训练早期(精确来说,使用目标算力预算的一半)为每个设定拟合公式 (1) 中的饱和幂律曲线;
  • 将该曲线外推至目标算力预算;
  • 继续训练以验证预测结果。

在所有下述扩展轴上,他们都观察到干净、可预测的曲线拟合,其外推结果与延长训练后的真实轨迹高度吻合 —— 与作者在 100,000 GPU 小时训练(图 1)及不同 RL 配方间的交叉对比实验(图 2)中观察到的行为一致。

模型规模(MoE)

ScaleRL 在更大模型上是否仍保持可预测性与稳定性?

当作者使用 ScaleRL 训练 17B×16 Llama-4 Scout MoE 模型时,结果显示它与 8B 模型一样,展现出可预测的扩展行为:具有较低的截断率(truncation rate)且无训练不稳定问题。

图 1 展示了其训练曲线,延长训练得到的额外数据点与早期拟合曲线对齐,说明 ScaleRL 的配方在模型规模上具备尺度不变性(model-scale invariance)。此外,17B×16 的 MoE 大模型表现出远高于 8B 稠密模型的 RL 最终性能(asymptotic performance),并且仅使用了后者 1/6 的 RL 训练算力。

生成长度

将生成长度从 14k token 增加至 32k token 会在训练初期放慢进展(即表现为较小的 B 和更高的 C_mid),但最终提升拟合曲线的上限 A, 从而在提供足够算力后获得更高的最终性能(见图 9)。

这验证了长上下文强化学习是一种「提升性能天花板」的手段,而不仅仅是效率上的权衡。

从早期训练拟合得到的外推曲线能够准确预测 32k-token 训练在延长阶段的表现。



全局批大小

作者观察到,小批次训练在下游任务上会过早停滞,即便其在分布内验证集上的性能仍在上升。相反,较大的批次 能够稳定地提高性能上限 A,并避免这种停滞。图 10a 展示了中等规模实验中的相同趋势:在训练初期,小批次似乎表现更好,但随着算力增加,大批次最终会超越。



在本文最大规模的数学任务(见图 1)中,将 batch size 提升至 2048 个 prompt 后,不仅稳定了训练,还使得从 50k GPU 小时拟合的曲线能够准确外推到最终 100k 小时的结果。

每个提示的生成次数

在固定总批量的前提下,是分配更多提示更好,还是每个提示分配更多生成次数更好?将每个提示的生成次数在 8、16、24、32 之间进行调整,并相应调整提示数量以保持总批量固定,结果显示拟合的缩放曲线基本没有变化。这说明在中等批量下,这种分配对性能上限(A)和效率(B)都是次要因素。作者推测,在更大批次(例如超过 2000)时,差异可能会更加明显 —— 这一方向留待未来研究。

更多细节请参见原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一家子全是美籍,却还在国内“捞金”,年赚4亿,账上还存有130亿

一家子全是美籍,却还在国内“捞金”,年赚4亿,账上还存有130亿

云景侃记
2026-02-26 23:05:22
78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

洲洲影视娱评
2026-01-28 12:23:18
谭咏麟32岁儿子近况:智性恋天菜,才貌双全,今在加拿大做工程师

谭咏麟32岁儿子近况:智性恋天菜,才貌双全,今在加拿大做工程师

白面书誏
2026-03-24 14:41:16
41岁的张雪峰和78岁的向华强饮食习惯天差地别!

41岁的张雪峰和78岁的向华强饮食习惯天差地别!

观星赏月
2026-03-25 23:25:49
河南三个大爷自驾三轮车出游106天,总里程超3000公里,平均年龄超75岁!游历八省,分工明确,当事人:出发前约定互不追责,子女签字见证

河南三个大爷自驾三轮车出游106天,总里程超3000公里,平均年龄超75岁!游历八省,分工明确,当事人:出发前约定互不追责,子女签字见证

大风新闻
2026-03-25 19:23:14
14年过去了,再看“癞蛤蟆吃到天鹅肉”的王大治,如今怎么样了?

14年过去了,再看“癞蛤蟆吃到天鹅肉”的王大治,如今怎么样了?

以茶带书
2026-03-12 18:13:51
岛国暗黑界新晋女神,超模身材比肩安斋与栖花,堪称最强接班人!

岛国暗黑界新晋女神,超模身材比肩安斋与栖花,堪称最强接班人!

碧波万览
2026-03-26 05:30:03
14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

红星新闻
2026-03-24 23:25:19
以色列副外长:伊朗的导弹袭击,让孩子活在恐惧中。

以色列副外长:伊朗的导弹袭击,让孩子活在恐惧中。

安安说
2026-03-26 13:08:52
A股:紧急提醒股民,主力已摊牌!明天,3月26日周四尾声将至?

A股:紧急提醒股民,主力已摊牌!明天,3月26日周四尾声将至?

云鹏叙事
2026-03-26 00:00:06
哈萨克斯坦也没想到,跟着中国混来混去,结果自己也混成了个霸主

哈萨克斯坦也没想到,跟着中国混来混去,结果自己也混成了个霸主

花颜蕴韵
2026-03-26 03:37:13
二婚两碗水端不平!吉林夫妻因双方儿子5万旅游分别对待,又离了

二婚两碗水端不平!吉林夫妻因双方儿子5万旅游分别对待,又离了

火山詩话
2026-03-24 05:54:12
燃气调价通知

燃气调价通知

孝感汇
2026-03-25 16:38:10
又见光伏公司被拉横幅:变相裁员,要求合理赔偿!

又见光伏公司被拉横幅:变相裁员,要求合理赔偿!

黯泉
2026-03-26 08:05:03
姐弟恋、吃软饭,把关之琳收入囊中的香港首席男模,如今怎样了?

姐弟恋、吃软饭,把关之琳收入囊中的香港首席男模,如今怎样了?

小樾说历史
2026-03-26 11:30:53
Altman发感谢信,16000名被裁程序员集体破防

Altman发感谢信,16000名被裁程序员集体破防

Ping值焦虑
2026-03-25 17:02:40
不吹不黑!iOS 26.4正式版体验,老iPhone直接封神

不吹不黑!iOS 26.4正式版体验,老iPhone直接封神

叮当当科技
2026-03-26 01:51:54
拒邀日本高管参会,人数已经清零,日本叫苦不迭,中方将奉陪到底

拒邀日本高管参会,人数已经清零,日本叫苦不迭,中方将奉陪到底

知鉴明史
2026-03-25 09:08:00
公安部172号令落地:70岁驾照不再终身有效,2026年这些事必须办

公安部172号令落地:70岁驾照不再终身有效,2026年这些事必须办

小怪吃美食
2026-03-24 17:29:52
一夜暴跌25%!小马哥最怕的事还是发生了:年轻人正在从腾讯溜走

一夜暴跌25%!小马哥最怕的事还是发生了:年轻人正在从腾讯溜走

潮鹿逐梦
2026-03-21 11:54:42
2026-03-26 14:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12601文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
艺术
时尚
教育
旅游

IGN认为Xbox机会来了!新主机要转守为攻 重塑自我

艺术要闻

哪一座桥不是风景?

2026年了,最好看的还是“这件针织”!

教育要闻

2027届注意:暑期实习=秋招通行证,错过等一年

旅游要闻

明起全面实行线上实名预约购票!云台山景区发布公告

无障碍浏览 进入关怀版