网易首页 > 网易号 > 正文 申请入驻

RL是「点金石」还是「挖掘机」?CMU 用可控实验给出答案

0
分享至




机器之心报道

机器之心编辑部

近期,强化学习(RL)技术在提升语言模型的推理能力方面取得了显著成效。

然而,后训练究竟是真正扩展了模型的推理能力,还是仅仅挖掘了预训练中已有的潜力?目前尚不明确。

一个核心挑战在于现代训练流程缺乏可控性:大规模预训练语料库不够透明,中期训练往往缺乏充分研究,且 RL 目标函数与未知的先验知识之间存在复杂的交互作用。

为了回答这个问题,来自卡耐基梅隆大学(CMU)的研究者通过构建基于 GSM-Infinite 的可控合成数据框架,在完全解耦的环境下,定量分析了预训练、Mid-training(中期训练/CPT)和 RL 三者对模型推理泛化能力的因果影响。旨在剥离并独立分析预训练、中期训练以及基于 RL 的后训练各自的因果贡献。



https://x.com/xiangyue96/status/1998488030836044112

研究者从两个维度对模型进行评估:针对更复杂组合的外推泛化能力,以及跨越不同表层语境的情境泛化能力。利用该框架,研究者调和了关于 RL 有效性的不同观点。

研究表明:

  • 仅当预训练留有足够提升空间,且 RL 数据针对模型的能力边界(即那些虽具难度但尚未超出模型能力范围的任务)时,RL 才能带来真正的能力增益(pass@128)。
  • 情境泛化需要极少但充分的预训练接触,在此之后 RL 便能实现可靠的迁移。
  • 在固定计算量下,相比于仅使用 RL,中期训练能显著提升性能,证明了其在训练流程中处于核心地位却未被充分探索。
  • 过程级奖励能减少奖励破解(Reward Hacking)现象并提高推理的忠实度。



  • 论文标题:On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
  • 论文地址:https://arxiv.org/abs/2512.07783
  • Github:https://github.com/Interplay-LM-Reasoning/Interplay-LM-Reasoning
  • HuggingFace:https://huggingface.co/Interplay-LM-Reasoning

综上所述,这些结果阐明了预训练、中期训练和 RL 之间的相互作用,为理解和改进推理语言模型的训练策略奠定了基础。

该工作登上了 Alphaxiv 榜一。



同时该工作在 AI 社区收获了一大波好评,ViT 作者之一 Lucas Beyer 也现身评论区。



核心方法:

完全可控的实验沙盒

为了从因果层面解构大模型的推理能力来源,研究团队并未直接使用现有的黑盒大模型或不可知的互联网语料,而是设计了一套严密的可控合成数据框架。该框架基于 GSM-Infinite 生成技术,旨在从源头控制数据分布、推理深度与语境广度。



数据生成框架与任务设置概览

基于依赖图(DAG)的数据生成

该框架的核心理念是将「推理结构」与「表面语境」完全解耦。



语境渲染:在确定了推理骨架后,系统通过应用不同的「语境模板」(如动物园、学校等场景),将抽象的数学图渲染为自然语言问题。这种分离使得研究者能够考察模型是真正学会了推理逻辑,还是仅仅记住了特定的文本模式。

三阶段训练流程的严格隔离

为了避免数据污染导致的评估偏差,研究者定义了三个互不重叠的训练阶段,并在各阶段精确调配数据分布:

  • 预训练:使用 10B token 的数据,主要包含基础的推理原语(Primitives)和规则。重点在于让模型掌握基础能力(op=2-10),同时保留更深层任务作为未见过的测试集。
  • 中期训练:这是一个连接预训练与 RL 的「桥梁」阶段。它使用与 RL 阶段相似的数据分布(即模型能力边缘的数据),旨在对齐模型的内部表征,使其做好「RL 就绪(RL-ready)」的准备。
  • 后训练(Post-training / RL):采用 GRPO 算法,针对特定的任务难度和语境进行强化学习,以探索模型在特定奖励信号下的能力边界。

过程级验证评估

为了防止模型「猜对答案」或通过错误的推理路径得出正确结果(即 Reward Hacking),该研究引入了过程级验证。系统不仅检查最终答案,还会解析模型生成的思维链,将其还原为依赖图,并与真实的一步步推理过程(Ground Truth DAG)进行比对。只有当推理步骤和最终答案全对时,才被判定为通过。

解构能力涌现的四个关键发现

基于上述框架,研究者进行了一系列控制变量实验,得出了关于 RL、预训练和中期训练相互作用的四个关键结论,有力地调和了学术界关于「RL 是否能创造新能力」的争议。

RL 的效用取决于「能力边缘」

RL 并非在任何情况下都能提升推理能力。

对于预训练中已充分掌握的简单任务,RL 只能提升 pass@1(即减少失误),无法提升模型的上限(pass@128)。

真正的能力跃迁发生在模型「能力边缘」的任务上(例如预训练覆盖了 op=2-10,RL 针对 op=11-14)。在这一区间,RL 能够通过探索带来显著的外推性泛化增益。如果任务难度过大(op=15-20),超出了模型的探索范围,RL 的收益也会消失。

因此,RL 的训练数据必须经过精心校准,瞄准模型的「能力边缘」,既不能太简单也不能太难。



不同难度任务下的 RL 表现

泛化的种子:1% 的预训练暴露至关重要

在考察模型能否将推理能力迁移到全新语境时,研究发现,如果预训练中完全没有接触过某种长尾语境(0%),即便 RL 阶段大量训练,模型也无法实现有效迁移。



因此,RL 无法无中生有,它需要预训练提供最基础的「原语」作为抓手。



预训练数据混合比例对情境泛化的影响

中期训练是计算效率的关键杠杆

在固定的计算预算(Compute Budget)下,如何分配中期训练和 RL 的比例?

Mid-Training + RL > Pure RL:引入中期训练阶段比单纯增加 RL 步数效果更好。

分配策略:实验表明,对于极难任务(OOD-Hard),「少量中期训练(建立先验)+ 大量 RL(深度探索)」的组合是最佳策略;而对于中等难度任务,增加中期训练的比重能带来更稳定的 pass@1 表现。

中期训练起到了「分布桥梁」的作用,极大地提升了 RL 的样本效率和最终性能上限。



不同算力分配策略下的性能对比

过程奖励抑制投机取巧

针对 RL 常见的奖励破解问题——即模型利用捷径获取高分但推理逻辑错误,研究引入了过程监督。

实验数据表明,将稀疏的结果奖励与密集的过程奖励相结合,能显著减少结构性错误(如遗漏步骤或依赖关系错误)。这种混合奖励机制在长链条推理任务($op=15\text{-}20$)中带来了稳定的 pass@1 提升。

过程级信号能够规范 RL 的搜索方向,确保能力的提升是建立在忠实推理基础之上的。



不同奖励机制的效果对比

结语

这项工作通过解构训练流程,给出了明确的实践指导:

RL 数据设计:应针对模型的「能力边缘」构建数据集,不要浪费算力在过易或过难的任务上。

预训练策略:必须确保长尾领域的原子能力(Primitives)有至少 1% 的覆盖率,为 RL 留出接口。

算力分配:根据目标任务的难度,动态调整中期训练与 RL 的比例。攻克难题需要更多 RL,提升稳定性需要更多中期训练。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
事情闹大了?日本内阁连发公告,中国态度 告诉了世界一个铁的事实

事情闹大了?日本内阁连发公告,中国态度 告诉了世界一个铁的事实

呼呼历史论
2026-03-26 14:28:13
张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

暖心萌阿菇凉
2026-03-25 22:01:09
抗日战争的转折点是什么?为何这场大战后,日本高层面如死灰

抗日战争的转折点是什么?为何这场大战后,日本高层面如死灰

诺言卿史录
2026-03-21 09:32:10
手握5个CBA冠军,曾获吉尼斯世界纪录,37岁不退役,仍在赛场拼搏

手握5个CBA冠军,曾获吉尼斯世界纪录,37岁不退役,仍在赛场拼搏

泠泠说史
2026-03-25 21:46:54
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
A股市场全线收绿,沪指低开低走下跌40点,五日均线再次失守

A股市场全线收绿,沪指低开低走下跌40点,五日均线再次失守

投资观
2026-03-26 14:59:17
韦世豪有牌面,登上FIFA海报!国足vs库拉索首发浮现,打平踢点球

韦世豪有牌面,登上FIFA海报!国足vs库拉索首发浮现,打平踢点球

球场没跑道
2026-03-26 12:12:22
比亚迪官宣,3月29日,新车预售发布

比亚迪官宣,3月29日,新车预售发布

沙雕小琳琳
2026-03-26 14:24:53
雷军晒成绩:小米SU7、YU7双双第一!

雷军晒成绩:小米SU7、YU7双双第一!

快科技
2026-03-26 13:09:04
陈羽凡现状:低调生活,50岁胖到认不出,17岁儿子1米8长得像妈

陈羽凡现状:低调生活,50岁胖到认不出,17岁儿子1米8长得像妈

三公子娱乐丫
2025-05-17 17:59:45
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

奥字侃剧
2026-03-25 08:29:10
中疾控发布提示:我国面临较大疫情输入风险

中疾控发布提示:我国面临较大疫情输入风险

随州派
2026-03-24 11:44:16
14年过去了,再看“癞蛤蟆吃到天鹅肉”的王大治,如今怎么样了?

14年过去了,再看“癞蛤蟆吃到天鹅肉”的王大治,如今怎么样了?

以茶带书
2026-03-12 18:13:51
这才是大国重器!中国正式摊牌,目标800万亿宝藏,美欧噩梦成真

这才是大国重器!中国正式摊牌,目标800万亿宝藏,美欧噩梦成真

说宇宙
2026-03-25 14:36:48
人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

风起见你
2026-03-16 11:07:25
55年授衔,当主席看到名单中有个熟悉的名字,大笔一挥:他不是少将

55年授衔,当主席看到名单中有个熟悉的名字,大笔一挥:他不是少将

睡前讲故事
2025-12-12 13:58:11
4-3爆冷!中国队双杀亚洲劲旅,比5连胜更惊喜的,又出现一个李昊

4-3爆冷!中国队双杀亚洲劲旅,比5连胜更惊喜的,又出现一个李昊

侃球熊弟
2026-03-26 00:35:10
内塔尼亚胡称“继续全力”空袭伊朗 美媒称以方担心特朗普突然停战

内塔尼亚胡称“继续全力”空袭伊朗 美媒称以方担心特朗普突然停战

环球网资讯
2026-03-26 06:26:07
"第一软饭男"去世了,伺候美国老妇13年,继承268亿,死后钱给谁

"第一软饭男"去世了,伺候美国老妇13年,继承268亿,死后钱给谁

毒sir财经
2025-12-08 22:57:40
2026-03-26 15:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
健康
房产
游戏
本地

皮衣+裙,高级到炸

转头就晕的耳石症,能开车上班吗?

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

DOTA2 7.41版本大更新!再见了命石,选择困难症有福了

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

无障碍浏览 进入关怀版