网易首页 > 网易号 > 正文 申请入驻

ACL 2026 | 中科大&上海AILab揭示强化学习后训练的Scaling Law

0
分享至



从 DeepSeek-R1 到 Kimi K2.5,强化学习(RL)后训练已经成为提升大模型推理能力的核心手段。

但一个关键问题始终悬而未决:RL 后训练的 Scaling 行为到底遵循什么规律?能否像预训练 Scaling Law 那样,给定模型参数量、计算预算和数据量,就能定量预测 RL 后训练所能达到的性能?又能否像预训练 Scaling Law 那样,为实践者指明一条清晰的扩展路径?

来自中国科学技术大学和上海人工智能实验室等机构的研究团队给出了系统性的回答。团队在 Qwen2.5 全系列密集模型(0.5B–72B)上开展了大规模 RL 训练实证研究,并在 Llama 3 系列(1B–70B)上完成了跨架构验证,首次全面刻画了大模型强化学习后训练在数学推理任务上的 Scaling 行为,提出了一套能够预测模型学习效率与训练轨迹的幂律公式。

目前该工作已被 ACL 2026 主会议接收。



  • 论文地址:https://arxiv.org/abs/2509.25300
  • 代码链接:https://github.com/tanzelin430/Mathematical-Reasoning-RL-Scaling-Law
  • 数据集:https://huggingface.co/datasets/Artemis0430/GURU-MATH-CL

预训练有 Scaling Law,RL 后训练呢?

Scaling Law 的故事并不陌生。OpenAI 早在 2020 年便揭示了预训练阶段的 Scaling 法则,证明模型性能随参数量、数据量和计算量的增长呈现可预测的幂律关系,奠定了现代大模型「规模即力量」的范式基础。

然而,当训练范式从预训练 / 监督微调阶段延伸到强化学习后训练时,这套 Scaling 规律便难以直接套用。RL 的核心目标是通过策略优化来最大化奖励,而非最小化 next-token prediction 的交叉熵损失,其训练动态、数据利用方式和计算消耗模式都与预训练有着本质区别。

这意味着,要理解 RL 后训练的 Scaling 行为,需要回到实验中去,重新建立属于 RL 自身的经验规律。

研究团队选择数学推理作为实验平台,原因在于数学任务具有天然的答案可验证性,能够为 RL 提供精确的奖励信号,是当前 RL 后训练最成熟的基准场景。在此基础上,团队围绕计算受限、数据受限和数据重用三种典型场景展开了大规模受控实验。

实验设计与评测框架

为确保结论的鲁棒性,研究团队在实验设计上做了充分的控制。

模型方面,主实验覆盖了 Qwen2.5 全系列 Dense 模型(0.5B 至 72B),共享相同架构,确保模型规模是唯一变量。

同时,为了保证 Scaling Law 的通用性,研究人员还在 Llama 3 系列(1B 至 70B)上进行了跨架构验证。训练统一采用 VeRL 分布式 RL 平台和 GRPO 算法,每个配置重复 3 次,覆盖 Base 和 Instruct 两种模型变体,以保证统计可靠性。

训练数据来自 guru-RL-92k 数据集的数学子集(约 5.4 万道题,由 OR1、DeepScaler、DAPO 三个数据集组成),按难度排序实现课程学习。

评测方面,研究团队定义测试损失 L = 1 - Pass@1 作为核心指标,以期与预训练 Scaling Law 文献中的 test loss 概念对齐。域内评测基于 500 道保持原始难度分布的数学题用于拟合 Scaling Law,跨领域评测则覆盖数学、代码、逻辑、科学等 8 个 benchmark 共约 3000 道题。

基于这套实验框架,研究团队得到了三个关键发现。

核心发现

发现一:具有 RL 性能预测能力 Scaling Law

研究的核心发现是一个简洁而强大的 scaling 公式。模型的测试损失 L 与训练资源 X(计算量 C 或数据量 D)之间存在对数线性关系:



其中,k (N) 是模型在强化学习后训练阶段的学习效率,它随模型参数量 N 单调递增。

实验表明,该 Scaling 公式不仅能高精度拟合已有数据(R² > 0.99),并且具备实际的预测能力,具体体现在两个方面。

  • 跨模型外推(Inter-model Extrapolation):该 Scaling Law 支持利用小参数量模型的训练数据来预测更大参数量模型的训练轨迹。以本文为例,研究人员基于 0.5B 至 32B 模型的实验数据拟合公式参数后,可直接预测 72B 模型的完整训练曲线,且预测所得的学习效率等关键指标与 72B 模型的实际表现高度吻合。

这意味着,研究人员只需通过小模型实验,便能预判大模型的训练走向,从而大幅降低试错成本。



图 (1).Scaling Law 的拟合与跨模型外推能力

  • 训练轨迹预测(Intra-model Prediction):该 Scaling Law 同样支持对单一模型训练过程的走势预测。研究人员仅需使用训练早期约 20%–30% 的数据点,便可准确外推出模型在完整数据集上的最终收敛性能。

这意味着,无需等待训练全程结束,研究人员便能大致预判模型的收敛走向,从而为训练过程中的资源分配与早停决策提供直接的指导依据,有效降低不必要的算力消耗。





图 (2).Scaling Law 的拟合与模型内轨迹预测能力

需要特别指出的是,这一公式在 Compute(C)和 Data(D)两个维度上具有统一的函数形式,即无论以算力还是数据量作为自变量,性能的 scaling 行为都遵循相同的数学结构。这种理论一致性为公式的可靠性提供了额外支撑。

发现二:学习效率的饱和趋势

为了更精确的研究 Scaling Law,研究团队对强化学习效率 k (N) 也进行了大量实证分析。

研究发现,更大的模型的确会学得更快。从 0.5B 到 72B,学习效率系数 k (N) 持续增长。但关键在于:这种增长并非线性的,而是逐渐趋于饱和。据此现象,研究团队将强化学习的学习效率 k (N) 建模为







图 (3). 强化学习后训练的学习效率随模型参数量的变化趋势

这在实验中表现为一个有趣的「性能交叉」现象,如图 1.(a) 所示,在等量计算预算下,32B 模型在训练初期的表现甚至优于 72B,因为更小的模型在相同计算量下能完成更多训练步数。

研究团队认为该现象揭示了一个关键的隐性权衡,即在计算受限的场景下,盲目堆大模型未必是最优策略。在有限预算内,找到模型规模和训练步数之间的平衡点,可能比简单地选择最大模型更为明智。这一发现为 RL 后训练的资源分配提供了重要的定量依据。

发现三:数据重用是有效策略

在探究 Scaling Law 之外,团队还对在 RL 中一个非常实际的问题进行了探究:反复使用同一批数据训练效果如何?数据重用是否会对训练轨迹和最终性能造成显著影响?





图 (4). 数据重用对强化学习训练轨迹的影响



研究团队证实,在高质量推理数据有限的场景下,适度的数据重用是一种低成本、高回报的训练策略。无需费力搜集更多数据,反复利用现有的高质量数据即可获得接近等价的训练效果,且不会对训练轨迹造成明显的偏差。

Scaling Law 的跨架构验证

以上发现均基于 Qwen2.5 系列。一个自然的问题是:这些 scaling 行为是特定架构的产物,还是 RL 后训练的普遍规律?

为此,研究团队在Llama 3 模型族(Llama-3.2-1B/3B-Instruct、Llama-3.1-8B/70B-Instruct)上重复了完整实验。

结果表明,同一幂律公式在 Llama 上同样成立,且拟合后与实际训练数据点的 R² > 0.99。尽管 Llama 在训练后的绝对性能上低于 Qwen,但scaling 关系的函数形式完全一致,k (N) 的饱和趋势也保持不变。



图 (5).Scaling Law 在 Llama 系列模型上的拟合效果

这一跨架构验证确认了研究团队所揭示的 Scaling Law 刻画的是 RL 后训练优化过程本身的内在规律,而非特定模型架构的特性。无论底层架构如何,只要采用相同的 RL 后训练范式,性能的 scaling 行为就遵循统一的数学描述。

总结

这项工作的核心贡献在于,通过对 Qwen2.5 和 Llama 3 两个模型家族上的所有参数量级模型进行实证分析,为 RL 后训练建立了系统性的 scaling 理论框架,并给出了可预测强化学习训练轨迹的数学公式(Scaling Law)。

对于正在用 RL 提升大模型推理能力的研究者和工程师来说,这篇论文提供了一套可量化、可预测、可指导实践的分析框架。而效率饱和这一发现,也在提醒我们:scale up 是有力的手段,但不是万能的,理解 scaling 的边界,才能更聪明地 scale。

作者介绍

本文由中国科学技术大学联合上海人工智能实验室、牛津大学等多家机构研究者合作完成。主要作者为上海人工智能实验室联培博士谭泽霖、牛津大学研究员耿鹤嘉等。其中论文第一作者谭泽霖是中科大与上海人工智能实验室联合培养博士生,其研究方向主要为智能体强化学习和机器学习系统。导师为白磊研究员,该篇文章由上海人工智能实验室青年研究员张晨、牛津大学博后尹榛菲博士联合执导。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国强烈反对欧盟制裁,要求移除被列入俄制裁名单企业

中国强烈反对欧盟制裁,要求移除被列入俄制裁名单企业

桂系007
2026-04-26 23:47:03
就在美国发声后,日本也表态了,台海出现变数,郑丽文咬死一句话

就在美国发声后,日本也表态了,台海出现变数,郑丽文咬死一句话

探源历史
2026-04-28 03:34:42
德天空:谢什科的转会费总额有望在本赛季结束时升至8050万欧

德天空:谢什科的转会费总额有望在本赛季结束时升至8050万欧

懂球帝
2026-04-28 00:51:06
沦为弃子!法媒:博格巴无法立足摩纳哥 赛季出场57分钟体能剩20分钟

沦为弃子!法媒:博格巴无法立足摩纳哥 赛季出场57分钟体能剩20分钟

新英体育
2026-04-27 10:31:02
阿斯:罗德里戈每天两练,在训练基地康复并在家训练

阿斯:罗德里戈每天两练,在训练基地康复并在家训练

懂球帝
2026-04-28 01:23:06
杨瀚森91秒创季后赛新高:第二次单场0+0+0+0+0 首轮4场仍0分

杨瀚森91秒创季后赛新高:第二次单场0+0+0+0+0 首轮4场仍0分

醉卧浮生
2026-04-27 06:27:08
45岁宋佳:陪玩陪睡、风流成性传闻真相揭秘

45岁宋佳:陪玩陪睡、风流成性传闻真相揭秘

暗香暗香
2026-03-23 04:26:38
有人说邓华不敢指挥对越自卫反击,邓:不是不敢,恐难保证打胜仗

有人说邓华不敢指挥对越自卫反击,邓:不是不敢,恐难保证打胜仗

历史点行
2026-04-27 04:12:44
国家统计局:一季度高技术制造业利润快速增长

国家统计局:一季度高技术制造业利润快速增长

证券时报
2026-04-27 09:52:10
38岁泰山前国脚爆粗怒骂裁判 染红后继续贴脸狂喷 将裁判逼回场内

38岁泰山前国脚爆粗怒骂裁判 染红后继续贴脸狂喷 将裁判逼回场内

我爱英超
2026-04-27 20:39:41
从内地偷运51公斤盒饭回澳门?网友:啥盒饭?这么香吗?

从内地偷运51公斤盒饭回澳门?网友:啥盒饭?这么香吗?

寒士之言本尊
2026-04-27 15:10:08
体检报告3个危险信号一出,医生:拖延半年或癌变,年过40应重视

体检报告3个危险信号一出,医生:拖延半年或癌变,年过40应重视

医学科普汇
2026-04-27 20:20:09
广东队季后赛门票,30年来头一遭滞销,杜锋作妖彻底寒了球迷的心

广东队季后赛门票,30年来头一遭滞销,杜锋作妖彻底寒了球迷的心

南海浪花
2026-04-27 16:40:36
草蜢40周年演唱会,蔡一杰首度公开病情:脑癌已扩散,但永不言弃

草蜢40周年演唱会,蔡一杰首度公开病情:脑癌已扩散,但永不言弃

一盅情怀
2026-04-27 09:48:43
不出 5 年,中国贬值最快的不是房子和现金,而是这 3 样东西

不出 5 年,中国贬值最快的不是房子和现金,而是这 3 样东西

细说职场
2026-04-26 21:04:20
9级雷暴大风!冰雹!即将抵达江苏

9级雷暴大风!冰雹!即将抵达江苏

最江阴
2026-04-27 16:40:34
未达预期!广西这两条高速公路开通后,呈现“高峰热日常冷”?

未达预期!广西这两条高速公路开通后,呈现“高峰热日常冷”?

阿芒娱乐说
2026-04-28 00:11:55
内忧外患锁死退路!俄方主动邀美访问,三大死局让普京不得不低头

内忧外患锁死退路!俄方主动邀美访问,三大死局让普京不得不低头

闻识
2026-04-28 00:32:00
上甘岭战场缴获大量美军罐头,装的全是粪便,美:要怪就怪张桃芳

上甘岭战场缴获大量美军罐头,装的全是粪便,美:要怪就怪张桃芳

云霄纪史观
2026-04-28 00:48:22
秦可卿到底得了什么病?其实从她一日换四五遍衣裳,就看得出来!

秦可卿到底得了什么病?其实从她一日换四五遍衣裳,就看得出来!

飞云如水
2025-04-19 18:33:37
2026-04-28 04:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12874文章数 142638关注度
往期回顾 全部

科技要闻

DeepSeek V4上线三天,第一批实测出来了

头条要闻

坐在特朗普身边亲历枪击案的女记者 身份非常不一般

头条要闻

坐在特朗普身边亲历枪击案的女记者 身份非常不一般

体育要闻

人类马拉松"破二"新纪元,一场跑鞋军备竞赛

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

Meta 140亿收购Manus遭中国发改委否决

汽车要闻

不那么小众也可以 smart的路会越走越宽

态度原创

艺术
房产
时尚
数码
公开课

艺术要闻

他的油画笔触粗犷又细腻,透着一种不可言说的美!

房产要闻

信号!海南商业版图,迎来大变局!

丝巾的10种系法,爱美的女人必看

数码要闻

6K/3K双模切换!三星这款显示器什么水平?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版