网易首页 > 网易号 > 正文 申请入驻

RL是「点金石」还是「挖掘机」?CMU 用可控实验给出答案

0
分享至




机器之心报道

机器之心编辑部

近期,强化学习(RL)技术在提升语言模型的推理能力方面取得了显著成效。

然而,后训练究竟是真正扩展了模型的推理能力,还是仅仅挖掘了预训练中已有的潜力?目前尚不明确。

一个核心挑战在于现代训练流程缺乏可控性:大规模预训练语料库不够透明,中期训练往往缺乏充分研究,且 RL 目标函数与未知的先验知识之间存在复杂的交互作用。

为了回答这个问题,来自卡耐基梅隆大学(CMU)的研究者通过构建基于 GSM-Infinite 的可控合成数据框架,在完全解耦的环境下,定量分析了预训练、Mid-training(中期训练/CPT)和 RL 三者对模型推理泛化能力的因果影响。旨在剥离并独立分析预训练、中期训练以及基于 RL 的后训练各自的因果贡献。



https://x.com/xiangyue96/status/1998488030836044112

研究者从两个维度对模型进行评估:针对更复杂组合的外推泛化能力,以及跨越不同表层语境的情境泛化能力。利用该框架,研究者调和了关于 RL 有效性的不同观点。

研究表明:

  • 仅当预训练留有足够提升空间,且 RL 数据针对模型的能力边界(即那些虽具难度但尚未超出模型能力范围的任务)时,RL 才能带来真正的能力增益(pass@128)。
  • 情境泛化需要极少但充分的预训练接触,在此之后 RL 便能实现可靠的迁移。
  • 在固定计算量下,相比于仅使用 RL,中期训练能显著提升性能,证明了其在训练流程中处于核心地位却未被充分探索。
  • 过程级奖励能减少奖励破解(Reward Hacking)现象并提高推理的忠实度。



  • 论文标题:On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
  • 论文地址:https://arxiv.org/abs/2512.07783
  • Github:https://github.com/Interplay-LM-Reasoning/Interplay-LM-Reasoning
  • HuggingFace:https://huggingface.co/Interplay-LM-Reasoning

综上所述,这些结果阐明了预训练、中期训练和 RL 之间的相互作用,为理解和改进推理语言模型的训练策略奠定了基础。

该工作登上了 Alphaxiv 榜一。



同时该工作在 AI 社区收获了一大波好评,ViT 作者之一 Lucas Beyer 也现身评论区。



核心方法:

完全可控的实验沙盒

为了从因果层面解构大模型的推理能力来源,研究团队并未直接使用现有的黑盒大模型或不可知的互联网语料,而是设计了一套严密的可控合成数据框架。该框架基于 GSM-Infinite 生成技术,旨在从源头控制数据分布、推理深度与语境广度。



数据生成框架与任务设置概览

基于依赖图(DAG)的数据生成

该框架的核心理念是将「推理结构」与「表面语境」完全解耦。



语境渲染:在确定了推理骨架后,系统通过应用不同的「语境模板」(如动物园、学校等场景),将抽象的数学图渲染为自然语言问题。这种分离使得研究者能够考察模型是真正学会了推理逻辑,还是仅仅记住了特定的文本模式。

三阶段训练流程的严格隔离

为了避免数据污染导致的评估偏差,研究者定义了三个互不重叠的训练阶段,并在各阶段精确调配数据分布:

  • 预训练:使用 10B token 的数据,主要包含基础的推理原语(Primitives)和规则。重点在于让模型掌握基础能力(op=2-10),同时保留更深层任务作为未见过的测试集。
  • 中期训练:这是一个连接预训练与 RL 的「桥梁」阶段。它使用与 RL 阶段相似的数据分布(即模型能力边缘的数据),旨在对齐模型的内部表征,使其做好「RL 就绪(RL-ready)」的准备。
  • 后训练(Post-training / RL):采用 GRPO 算法,针对特定的任务难度和语境进行强化学习,以探索模型在特定奖励信号下的能力边界。

过程级验证评估

为了防止模型「猜对答案」或通过错误的推理路径得出正确结果(即 Reward Hacking),该研究引入了过程级验证。系统不仅检查最终答案,还会解析模型生成的思维链,将其还原为依赖图,并与真实的一步步推理过程(Ground Truth DAG)进行比对。只有当推理步骤和最终答案全对时,才被判定为通过。

解构能力涌现的四个关键发现

基于上述框架,研究者进行了一系列控制变量实验,得出了关于 RL、预训练和中期训练相互作用的四个关键结论,有力地调和了学术界关于「RL 是否能创造新能力」的争议。

RL 的效用取决于「能力边缘」

RL 并非在任何情况下都能提升推理能力。

对于预训练中已充分掌握的简单任务,RL 只能提升 pass@1(即减少失误),无法提升模型的上限(pass@128)。

真正的能力跃迁发生在模型「能力边缘」的任务上(例如预训练覆盖了 op=2-10,RL 针对 op=11-14)。在这一区间,RL 能够通过探索带来显著的外推性泛化增益。如果任务难度过大(op=15-20),超出了模型的探索范围,RL 的收益也会消失。

因此,RL 的训练数据必须经过精心校准,瞄准模型的「能力边缘」,既不能太简单也不能太难。



不同难度任务下的 RL 表现

泛化的种子:1% 的预训练暴露至关重要

在考察模型能否将推理能力迁移到全新语境时,研究发现,如果预训练中完全没有接触过某种长尾语境(0%),即便 RL 阶段大量训练,模型也无法实现有效迁移。



因此,RL 无法无中生有,它需要预训练提供最基础的「原语」作为抓手。



预训练数据混合比例对情境泛化的影响

中期训练是计算效率的关键杠杆

在固定的计算预算(Compute Budget)下,如何分配中期训练和 RL 的比例?

Mid-Training + RL > Pure RL:引入中期训练阶段比单纯增加 RL 步数效果更好。

分配策略:实验表明,对于极难任务(OOD-Hard),「少量中期训练(建立先验)+ 大量 RL(深度探索)」的组合是最佳策略;而对于中等难度任务,增加中期训练的比重能带来更稳定的 pass@1 表现。

中期训练起到了「分布桥梁」的作用,极大地提升了 RL 的样本效率和最终性能上限。



不同算力分配策略下的性能对比

过程奖励抑制投机取巧

针对 RL 常见的奖励破解问题——即模型利用捷径获取高分但推理逻辑错误,研究引入了过程监督。

实验数据表明,将稀疏的结果奖励与密集的过程奖励相结合,能显著减少结构性错误(如遗漏步骤或依赖关系错误)。这种混合奖励机制在长链条推理任务($op=15\text{-}20$)中带来了稳定的 pass@1 提升。

过程级信号能够规范 RL 的搜索方向,确保能力的提升是建立在忠实推理基础之上的。



不同奖励机制的效果对比

结语

这项工作通过解构训练流程,给出了明确的实践指导:

RL 数据设计:应针对模型的「能力边缘」构建数据集,不要浪费算力在过易或过难的任务上。

预训练策略:必须确保长尾领域的原子能力(Primitives)有至少 1% 的覆盖率,为 RL 留出接口。

算力分配:根据目标任务的难度,动态调整中期训练与 RL 的比例。攻克难题需要更多 RL,提升稳定性需要更多中期训练。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外媒:乌克兰军队中出现东大FN-16便携式防空导弹,真实来源成疑

外媒:乌克兰军队中出现东大FN-16便携式防空导弹,真实来源成疑

零度Military
2026-05-14 05:49:57
中纪委怒批:公务员也是人,正常生活不应问责处理

中纪委怒批:公务员也是人,正常生活不应问责处理

职场资深秘书
2026-05-14 09:45:16
这一幕让全世界震撼!中国军人在“空军一号”轰鸣声前岿然不动

这一幕让全世界震撼!中国军人在“空军一号”轰鸣声前岿然不动

澎湃新闻
2026-05-14 10:30:25
射程超过35000公里,俄军方:可经南极至美国境内目标的“世界上最强大导弹”试射成功

射程超过35000公里,俄军方:可经南极至美国境内目标的“世界上最强大导弹”试射成功

红星新闻
2026-05-13 13:21:19
公然拒挂国旗,订单全给日韩,长荣如今的结局早已注定

公然拒挂国旗,订单全给日韩,长荣如今的结局早已注定

潋滟晴方DAY
2026-05-11 06:31:37
黄仁勋赶飞机 藏着中美科技关系最真实的底色

黄仁勋赶飞机 藏着中美科技关系最真实的底色

看看新闻Knews
2026-05-13 23:00:02
专机落地!特朗普又舞起熟悉手势 乘专车前往酒店

专机落地!特朗普又舞起熟悉手势 乘专车前往酒店

看看新闻Knews
2026-05-13 23:14:07
深圳一楼盘3小时卖212套,购房者扬言来晚就没了,评论区早已清醒

深圳一楼盘3小时卖212套,购房者扬言来晚就没了,评论区早已清醒

谭谈社会
2026-05-14 04:44:59
随特朗普抵京:马斯克第四个下机 黄仁勋换上西装

随特朗普抵京:马斯克第四个下机 黄仁勋换上西装

看看新闻Knews
2026-05-14 01:34:05
一家长称儿子早恋被叫学校,想开宝马镇住对方家长,评论玩梗笑死

一家长称儿子早恋被叫学校,想开宝马镇住对方家长,评论玩梗笑死

观察鉴娱
2026-05-13 11:22:56
马斯克:空军一号上只有我和黄仁勋!网友:全球最有钱的和全球市值最高的才有机会坐

马斯克:空军一号上只有我和黄仁勋!网友:全球最有钱的和全球市值最高的才有机会坐

大白聊IT
2026-05-14 00:58:40
黄仁勋:这会是一次非常成功的会晤

黄仁勋:这会是一次非常成功的会晤

财闻
2026-05-14 11:52:57
“空军一号”轰鸣而过,解放军岿然不动,视频火爆外网

“空军一号”轰鸣而过,解放军岿然不动,视频火爆外网

极目新闻
2026-05-14 10:08:46
性,已成为职场流通的硬资源!

性,已成为职场流通的硬资源!

灯锦年
2026-05-14 00:10:06
形势有多严峻?坐标上海:80末90初程序员都开始失业,评论区炸了

形势有多严峻?坐标上海:80末90初程序员都开始失业,评论区炸了

慧翔百科
2026-05-14 09:00:11
卢比奥来了,那些所谓的专家又被狠狠打脸

卢比奥来了,那些所谓的专家又被狠狠打脸

壹家言
2026-05-14 10:51:40
停更3年,千万粉丝网红改名宣布回归,4小时涨粉240万

停更3年,千万粉丝网红改名宣布回归,4小时涨粉240万

天津生活通
2026-05-14 10:34:09
特朗普抵京第一天就签了400亿大单,但真正让白宫失眠的是这件事

特朗普抵京第一天就签了400亿大单,但真正让白宫失眠的是这件事

浪子的烟火人间
2026-05-14 08:44:32
摩洛哥幸福新娘事件升级!河南一男子刷到该视频,断然与对象退婚

摩洛哥幸福新娘事件升级!河南一男子刷到该视频,断然与对象退婚

火山詩话
2026-05-14 07:04:08
扎心!朋友孩子的班34人处于“零就业”状态,引热议

扎心!朋友孩子的班34人处于“零就业”状态,引热议

火山詩话
2026-05-13 15:02:14
2026-05-14 13:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12990文章数 142648关注度
往期回顾 全部

科技要闻

马斯克:只有我和黄仁勋坐上了"空军一号"

头条要闻

兄妹救4名落水者后遭拉黑 被告知获救者身份不便公开

头条要闻

兄妹救4名落水者后遭拉黑 被告知获救者身份不便公开

体育要闻

登海报!哈登30+8+6创多项纪录 第8次赢天王山

娱乐要闻

肖战提名金海燕奖,这一步走得太稳

财经要闻

片仔癀依旧困在“片仔癀”

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

教育
手机
健康
公开课
军事航空

教育要闻

武汉交通职业学院:勤勉破局!她从专科逆袭硕士!

手机要闻

商务人士与白领必看!OPPO Find N6、三星Z Fold7谁更值得买?

干细胞能让人“返老还童”吗

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美以伊战争期间以总理密访阿联酋

无障碍浏览 进入关怀版