网易首页 > 网易号 > 正文 申请入驻

炼模不再“烧钱”?消耗40万GPU·小时后,Meta开源强化学习重磅研究成果

0
分享至


智东西
作者 王涵
编辑 漠影

强化学习是大语言模型解锁关键能力的核心技术,随着技术迭代,强化学习训练的算力需求呈爆炸式增长,然而,强化学习训练规模化方面长期缺乏科学方法论。

智东西10月24日消息,10月17日,Meta发布了一篇名为《The Art of Scaling Reinforcement Learning Compute for LLMs》的论文。

论文就聚焦大语言模型(LLMs)强化学习(RL)训练的规模化问题,通过消耗了超40万GPU小时算力的实验,提出了可预测的强化学习规模化框架与实用方案“ScaleRL”


研究发现,ScaleRL能够系统性地利用小规模消融实验来预测更大规模下的性能表现,具有明显的可预测能力

ScaleRL在数学与代码的联合训练为两个领域分别构建了清晰且平行的幂律趋势,且在延长训练后,实际性能曲线仍与外推曲线保持一致,具有较强的多场景适配能力

目前,该研究的核心实验数据与S型曲线拟合的代码库已经全部开源。

开源地址:

GitHub:https://github.com/devvrit/ScaleRL-Curve-Fitting

论文地址:

arxiv.org/abs/2510.13786

一、背景:强化学习训练算力需求爆炸式增长,但缺少方法论

强化学习是解锁大语言模型关键能力的核心技术,从测试时推理到智能体交互,其性能直接决定模型的核心竞争力。

然而,随着技术迭代,强化学习训练的算力需求呈爆炸式增长——Deepseek-R1-Zero的强化学习训练消耗10万H800 GPU小时,OpenAI从o1到o3的强化学习算力投入更是增长超10倍

与算力激增形成鲜明对比的是,行业在强化学习训练规模化方面长期缺乏科学方法论。目前多数企业和机构的强化学习训练还停留在“凭经验调参、靠堆算力试错”的阶段,既没有成熟的算力-性能评估体系,也缺乏明确的设计选择指导,导致大量算力被浪费。这种“粗放式投入”不仅推高研发成本,更严重制约了学术社区的参与度和行业整体进展。

正是这一核心痛点,促使Meta团队启动了这项大规模研究。研究借鉴预训练领域成熟的“缩放定律”,目标为强化学习训练建立可预测的算力-性能关系框架。

整个研究累计投入超40万GPU小时的算力,覆盖数学推理等典型任务,最终提出一套完整的解决方案。

二、核心突破:基于S型曲线提出RL算力-性能预测模型

这个研究最引人注目的突破,就是提出了基于S型(Sigmoidal)曲线的RL算力-性能预测模型。

区别于预训练常用的幂律模型,该曲线能精准捕捉强化学习训练“低算力缓慢增长-中算力快速提升-高算力饱和”的客观规律,通过三个关键参数构建起量化评估体系。该模型的核心公式为:


其中,A代表渐近性能上限,即高算力下模型能达到的性能天花板;B为缩放指数,直接反映算力效率,数值越大效率越高;C则是性能达到总增益50%时所需的算力,体现中期性能达成速度。


Meta研究团队通过超40万GPU小时实验,对RL训练的设计选择进行消融,提炼出3条核心原则:

1、性能天花板(A)受损失函数、模型精度等关键设计影响;

2、多数常见设计仅影响算力效率,不改变性能上限;

3、稳定方案的缩放轨迹可通过小算力实验外推。

基于以上原则,Meta研究团队整合实验中最优设计构建了一套最优配置体系ScaleRL。

ScaleRL采用PipelineRL异步框架提升效率,选用CISPO损失函数增强鲁棒性,采用FP32精度消除数值偏差,再配合零方差过滤与自适应prompt过滤优化数据质量,最后通过强制中断实现稳定的长度控制。

三、ScaleRL实测:具有可预测性和多场景适配能力

ScaleRL这一模型的最大价值在于“可预测性”。以往要知道高算力下的训练效果,必须投入完整训练,现在通过小规模低算力实验拟合曲线,就能精准外推高算力表现。

以某8B模型训练为例,仅用前8000 GPU小时的数据拟合曲线,ScaleRL就可以外推16000 GPU小时的性能,且误差极小,可大幅降低研发试错成本。

为验证模型可靠性,团队还进行了大量消融实验。结果显示,对于ScaleRL等稳定方案,小算力实验外推结果与实际训练高度吻合


更值得关注的是ScaleRL的多场景适配能力。在更大批次(2048)、更长序列(32768 tokens)、多任务(数学+代码)及更大模型(MoE)等场景下,该方案均能保持可预测的缩放轨迹。


从研究数据上看,研究团队在独立同分布验证数据集上对S型曲线进行拟合,对比了DeepSeek(GRPO)、Qwen-2.5(DAPO)、Magistral和Minimax-M1等常用训练方案,并与ScaleRL进行对比。ScaleRL以0.61的渐进奖励值超越其他训练方法。


此外,研究还提炼出关键的稳定性预警指标——生成截断率。实验发现,当训练中的生成截断率超过10%时,模型极易出现性能崩溃。

而ScaleRL通过强制中断等长度控制设计,能将截断率长期稳定在5%以下,为大规模训练的稳定性提供了可靠保障。

结语:Meta的研究为强化学习训练规模化提供新突破

Meta团队超40万GPU小时的实验投入,最终凝结为一套可预测、高适配的规模化解决方案,无疑为大语言模型强化学习训练规模化提供了突破依据。

为推动技术落地,Meta团队不仅公开了研究的核心实验数据,还开源了S型曲线拟合的极简代码库,为全球AI研发者提供直接的技术工具。

这些成果连同开源的拟合代码库,为行业降本增效提供了支撑,也降低了学术社区参与大规模强化学习研究的门槛。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
海底捞回应“员工因顾客投诉被强制自费买礼物”:情况属实,一定依法对该伙伴进行赔偿,已通知一千多家门店进行内部排查

海底捞回应“员工因顾客投诉被强制自费买礼物”:情况属实,一定依法对该伙伴进行赔偿,已通知一千多家门店进行内部排查

大象新闻
2026-04-11 19:45:04
以色列袭击黎巴嫩被谴责,内塔尼亚胡:“以军是世界上最有道德的军队”;此前以色列对黎巴嫩发动袭击,造成包括儿童在内数百名平民死伤

以色列袭击黎巴嫩被谴责,内塔尼亚胡:“以军是世界上最有道德的军队”;此前以色列对黎巴嫩发动袭击,造成包括儿童在内数百名平民死伤

扬子晚报
2026-04-11 11:33:21
贾平凹之女贾浅浅被调查,连米芾的芾字都不认识,引起书法界震怒

贾平凹之女贾浅浅被调查,连米芾的芾字都不认识,引起书法界震怒

潮鹿逐梦
2026-04-10 12:43:59
公安部新规落地!70岁驾照免年审真相,这件事不做驾照直接注销

公安部新规落地!70岁驾照免年审真相,这件事不做驾照直接注销

复转这些年
2026-04-10 12:01:32
卤菜店使用“四姐”二字被索赔50万元,店主:大家都叫我四姐,为什么告我侵权

卤菜店使用“四姐”二字被索赔50万元,店主:大家都叫我四姐,为什么告我侵权

环球网资讯
2026-04-11 21:50:22
郑丽文一声“毛主席”,打破了国民党一个禁忌

郑丽文一声“毛主席”,打破了国民党一个禁忌

月明风清1029
2026-04-11 17:27:07
全红婵后续:陈芋汐网暴案刑拘三人,对比差距大,教练组态度明显

全红婵后续:陈芋汐网暴案刑拘三人,对比差距大,教练组态度明显

眼光很亮
2026-04-11 19:25:54
国内套现7个亿后,她露出了身后的美国国旗,整个家族共套现20亿

国内套现7个亿后,她露出了身后的美国国旗,整个家族共套现20亿

云舟史策
2026-04-11 07:54:43
血战台儿庄:中国参战29万人、牺牲5万人,日军伤亡令人难以置信

血战台儿庄:中国参战29万人、牺牲5万人,日军伤亡令人难以置信

冰语历史
2026-04-11 17:05:58
理想汽车CEO李想朋友圈飙脏话后二次发声:怒斥某日系品牌持续拉踩

理想汽车CEO李想朋友圈飙脏话后二次发声:怒斥某日系品牌持续拉踩

快科技
2026-04-11 18:08:11
各国不吃的食物:韩国人不吃香菜,俄罗斯人不吃海参,中国人呢?

各国不吃的食物:韩国人不吃香菜,俄罗斯人不吃海参,中国人呢?

阿纂看事
2026-04-11 19:24:41
美国绕月飞船成功降落!宇航员能自己走路,隔热罩扛住2700℃灼烧

美国绕月飞船成功降落!宇航员能自己走路,隔热罩扛住2700℃灼烧

火星一号
2026-04-11 13:42:49
1980年,66军炮兵团“叛乱”,邓小平大惊:华国锋不宜留在领导层

1980年,66军炮兵团“叛乱”,邓小平大惊:华国锋不宜留在领导层

帝哥说史
2026-04-10 06:30:03
突发!巴基斯坦被激怒了!

突发!巴基斯坦被激怒了!

财经要参
2026-04-11 16:00:03
48架F-35压境,美日撕破脸!王毅专机直插平壤,中朝抄了美军后路

48架F-35压境,美日撕破脸!王毅专机直插平壤,中朝抄了美军后路

策略述
2026-04-11 16:41:05
万茜蹲火了

万茜蹲火了

动物奇奇怪怪
2026-04-11 17:32:32
4月“断网”风暴:“翻墙”时代迎来终局?

4月“断网”风暴:“翻墙”时代迎来终局?

虔青
2026-04-11 12:28:42
美国前情报局长爆出俄乌战场惊人内幕,乌军重新杀回红军城

美国前情报局长爆出俄乌战场惊人内幕,乌军重新杀回红军城

史政先锋
2026-04-11 20:44:50
刚从朝鲜回来,说点不中听的:朝鲜的真实面目,可能让你很意外

刚从朝鲜回来,说点不中听的:朝鲜的真实面目,可能让你很意外

老特有话说
2026-04-11 17:33:51
为何停火只是伊朗下半场苦难的开端?

为何停火只是伊朗下半场苦难的开端?

高博新视野
2026-04-11 08:00:18
2026-04-11 23:19:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11556文章数 117027关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

本地
游戏
亲子
公开课
军事航空

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

梦幻西游这装备刷飞贼都不配吗?牡丹亭新出3速极品玉魄

亲子要闻

糖果套圈圈想吃哪个套哪个

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗议长带四名遇难儿童照片赴美伊谈判

无障碍浏览 进入关怀版