炼模不再“烧钱”？消耗40万GPU·小时后，Meta开源强化学习重磅研究成果|实验|算力|拟合|gpu|meta

炼模不再“烧钱”？消耗40万GPU·小时后，Meta开源强化学习重磅研究成果

2025-10-24 16:27:14　来源: 智东西

北京举报

分享至

智东西
作者王涵
编辑漠影

强化学习是大语言模型解锁关键能力的核心技术，随着技术迭代，强化学习训练的算力需求呈爆炸式增长，然而，强化学习训练规模化方面长期缺乏科学方法论。

智东西10月24日消息，10月17日，Meta发布了一篇名为《The Art of Scaling Reinforcement Learning Compute for LLMs》的论文。

论文就聚焦大语言模型（LLMs）强化学习（RL）训练的规模化问题，通过消耗了超40万GPU小时算力的实验，提出了可预测的强化学习规模化框架与实用方案“ScaleRL”。

研究发现，ScaleRL能够系统性地利用小规模消融实验来预测更大规模下的性能表现，具有明显的可预测能力。

ScaleRL在数学与代码的联合训练为两个领域分别构建了清晰且平行的幂律趋势，且在延长训练后，实际性能曲线仍与外推曲线保持一致，具有较强的多场景适配能力。

目前，该研究的核心实验数据与S型曲线拟合的代码库已经全部开源。

开源地址：

GitHub：https://github.com/devvrit/ScaleRL-Curve-Fitting

论文地址：

arxiv.org/abs/2510.13786

一、背景：强化学习训练算力需求爆炸式增长，但缺少方法论

强化学习是解锁大语言模型关键能力的核心技术，从测试时推理到智能体交互，其性能直接决定模型的核心竞争力。

然而，随着技术迭代，强化学习训练的算力需求呈爆炸式增长——Deepseek-R1-Zero的强化学习训练消耗10万H800 GPU小时，OpenAI从o1到o3的强化学习算力投入更是增长超10倍。

与算力激增形成鲜明对比的是，行业在强化学习训练规模化方面长期缺乏科学方法论。目前多数企业和机构的强化学习训练还停留在“凭经验调参、靠堆算力试错”的阶段，既没有成熟的算力-性能评估体系，也缺乏明确的设计选择指导，导致大量算力被浪费。这种“粗放式投入”不仅推高研发成本，更严重制约了学术社区的参与度和行业整体进展。

正是这一核心痛点，促使Meta团队启动了这项大规模研究。研究借鉴预训练领域成熟的“缩放定律”，目标为强化学习训练建立可预测的算力-性能关系框架。

整个研究累计投入超40万GPU小时的算力，覆盖数学推理等典型任务，最终提出一套完整的解决方案。

二、核心突破：基于S型曲线提出RL算力-性能预测模型

这个研究最引人注目的突破，就是提出了基于S型（Sigmoidal）曲线的RL算力-性能预测模型。

区别于预训练常用的幂律模型，该曲线能精准捕捉强化学习训练“低算力缓慢增长-中算力快速提升-高算力饱和”的客观规律，通过三个关键参数构建起量化评估体系。该模型的核心公式为：

其中，A代表渐近性能上限，即高算力下模型能达到的性能天花板；B为缩放指数，直接反映算力效率，数值越大效率越高；C则是性能达到总增益50%时所需的算力，体现中期性能达成速度。

Meta研究团队通过超40万GPU小时实验，对RL训练的设计选择进行消融，提炼出3条核心原则：

1、性能天花板（A）受损失函数、模型精度等关键设计影响；

2、多数常见设计仅影响算力效率，不改变性能上限；

3、稳定方案的缩放轨迹可通过小算力实验外推。

基于以上原则，Meta研究团队整合实验中最优设计构建了一套最优配置体系ScaleRL。

ScaleRL采用PipelineRL异步框架提升效率，选用CISPO损失函数增强鲁棒性，采用FP32精度消除数值偏差，再配合零方差过滤与自适应prompt过滤优化数据质量，最后通过强制中断实现稳定的长度控制。

三、ScaleRL实测：具有可预测性和多场景适配能力

ScaleRL这一模型的最大价值在于“可预测性”。以往要知道高算力下的训练效果，必须投入完整训练，现在通过小规模低算力实验拟合曲线，就能精准外推高算力表现。

以某8B模型训练为例，仅用前8000 GPU小时的数据拟合曲线，ScaleRL就可以外推16000 GPU小时的性能，且误差极小，可大幅降低研发试错成本。

为验证模型可靠性，团队还进行了大量消融实验。结果显示，对于ScaleRL等稳定方案，小算力实验外推结果与实际训练高度吻合。

更值得关注的是ScaleRL的多场景适配能力。在更大批次（2048）、更长序列（32768 tokens）、多任务（数学+代码）及更大模型（MoE）等场景下，该方案均能保持可预测的缩放轨迹。

从研究数据上看，研究团队在独立同分布验证数据集上对S型曲线进行拟合，对比了DeepSeek（GRPO）、Qwen-2.5（DAPO）、Magistral和Minimax-M1等常用训练方案，并与ScaleRL进行对比。ScaleRL以0.61的渐进奖励值超越其他训练方法。

此外，研究还提炼出关键的稳定性预警指标——生成截断率。实验发现，当训练中的生成截断率超过10%时，模型极易出现性能崩溃。

而ScaleRL通过强制中断等长度控制设计，能将截断率长期稳定在5%以下，为大规模训练的稳定性提供了可靠保障。

结语：Meta的研究为强化学习训练规模化提供新突破

Meta团队超40万GPU小时的实验投入，最终凝结为一套可预测、高适配的规模化解决方案，无疑为大语言模型强化学习训练规模化提供了突破依据。

为推动技术落地，Meta团队不仅公开了研究的核心实验数据，还开源了S型曲线拟合的极简代码库，为全球AI研发者提供直接的技术工具。

这些成果连同开源的拟合代码库，为行业降本增效提供了支撑，也降低了学术社区参与大规模强化学习研究的门槛。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.