网易首页 > 网易号 > 正文 申请入驻

RL是「点金石」还是「挖掘机」?CMU 用可控实验给出答案

0
分享至




机器之心报道

机器之心编辑部

近期,强化学习(RL)技术在提升语言模型的推理能力方面取得了显著成效。

然而,后训练究竟是真正扩展了模型的推理能力,还是仅仅挖掘了预训练中已有的潜力?目前尚不明确。

一个核心挑战在于现代训练流程缺乏可控性:大规模预训练语料库不够透明,中期训练往往缺乏充分研究,且 RL 目标函数与未知的先验知识之间存在复杂的交互作用。

为了回答这个问题,来自卡耐基梅隆大学(CMU)的研究者通过构建基于 GSM-Infinite 的可控合成数据框架,在完全解耦的环境下,定量分析了预训练、Mid-training(中期训练/CPT)和 RL 三者对模型推理泛化能力的因果影响。旨在剥离并独立分析预训练、中期训练以及基于 RL 的后训练各自的因果贡献。



https://x.com/xiangyue96/status/1998488030836044112

研究者从两个维度对模型进行评估:针对更复杂组合的外推泛化能力,以及跨越不同表层语境的情境泛化能力。利用该框架,研究者调和了关于 RL 有效性的不同观点。

研究表明:

  • 仅当预训练留有足够提升空间,且 RL 数据针对模型的能力边界(即那些虽具难度但尚未超出模型能力范围的任务)时,RL 才能带来真正的能力增益(pass@128)。
  • 情境泛化需要极少但充分的预训练接触,在此之后 RL 便能实现可靠的迁移。
  • 在固定计算量下,相比于仅使用 RL,中期训练能显著提升性能,证明了其在训练流程中处于核心地位却未被充分探索。
  • 过程级奖励能减少奖励破解(Reward Hacking)现象并提高推理的忠实度。



  • 论文标题:On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
  • 论文地址:https://arxiv.org/abs/2512.07783
  • Github:https://github.com/Interplay-LM-Reasoning/Interplay-LM-Reasoning
  • HuggingFace:https://huggingface.co/Interplay-LM-Reasoning

综上所述,这些结果阐明了预训练、中期训练和 RL 之间的相互作用,为理解和改进推理语言模型的训练策略奠定了基础。

该工作登上了 Alphaxiv 榜一。



同时该工作在 AI 社区收获了一大波好评,ViT 作者之一 Lucas Beyer 也现身评论区。



核心方法:

完全可控的实验沙盒

为了从因果层面解构大模型的推理能力来源,研究团队并未直接使用现有的黑盒大模型或不可知的互联网语料,而是设计了一套严密的可控合成数据框架。该框架基于 GSM-Infinite 生成技术,旨在从源头控制数据分布、推理深度与语境广度。



数据生成框架与任务设置概览

基于依赖图(DAG)的数据生成

该框架的核心理念是将「推理结构」与「表面语境」完全解耦。



语境渲染:在确定了推理骨架后,系统通过应用不同的「语境模板」(如动物园、学校等场景),将抽象的数学图渲染为自然语言问题。这种分离使得研究者能够考察模型是真正学会了推理逻辑,还是仅仅记住了特定的文本模式。

三阶段训练流程的严格隔离

为了避免数据污染导致的评估偏差,研究者定义了三个互不重叠的训练阶段,并在各阶段精确调配数据分布:

  • 预训练:使用 10B token 的数据,主要包含基础的推理原语(Primitives)和规则。重点在于让模型掌握基础能力(op=2-10),同时保留更深层任务作为未见过的测试集。
  • 中期训练:这是一个连接预训练与 RL 的「桥梁」阶段。它使用与 RL 阶段相似的数据分布(即模型能力边缘的数据),旨在对齐模型的内部表征,使其做好「RL 就绪(RL-ready)」的准备。
  • 后训练(Post-training / RL):采用 GRPO 算法,针对特定的任务难度和语境进行强化学习,以探索模型在特定奖励信号下的能力边界。

过程级验证评估

为了防止模型「猜对答案」或通过错误的推理路径得出正确结果(即 Reward Hacking),该研究引入了过程级验证。系统不仅检查最终答案,还会解析模型生成的思维链,将其还原为依赖图,并与真实的一步步推理过程(Ground Truth DAG)进行比对。只有当推理步骤和最终答案全对时,才被判定为通过。

解构能力涌现的四个关键发现

基于上述框架,研究者进行了一系列控制变量实验,得出了关于 RL、预训练和中期训练相互作用的四个关键结论,有力地调和了学术界关于「RL 是否能创造新能力」的争议。

RL 的效用取决于「能力边缘」

RL 并非在任何情况下都能提升推理能力。

对于预训练中已充分掌握的简单任务,RL 只能提升 pass@1(即减少失误),无法提升模型的上限(pass@128)。

真正的能力跃迁发生在模型「能力边缘」的任务上(例如预训练覆盖了 op=2-10,RL 针对 op=11-14)。在这一区间,RL 能够通过探索带来显著的外推性泛化增益。如果任务难度过大(op=15-20),超出了模型的探索范围,RL 的收益也会消失。

因此,RL 的训练数据必须经过精心校准,瞄准模型的「能力边缘」,既不能太简单也不能太难。



不同难度任务下的 RL 表现

泛化的种子:1% 的预训练暴露至关重要

在考察模型能否将推理能力迁移到全新语境时,研究发现,如果预训练中完全没有接触过某种长尾语境(0%),即便 RL 阶段大量训练,模型也无法实现有效迁移。



因此,RL 无法无中生有,它需要预训练提供最基础的「原语」作为抓手。



预训练数据混合比例对情境泛化的影响

中期训练是计算效率的关键杠杆

在固定的计算预算(Compute Budget)下,如何分配中期训练和 RL 的比例?

Mid-Training + RL > Pure RL:引入中期训练阶段比单纯增加 RL 步数效果更好。

分配策略:实验表明,对于极难任务(OOD-Hard),「少量中期训练(建立先验)+ 大量 RL(深度探索)」的组合是最佳策略;而对于中等难度任务,增加中期训练的比重能带来更稳定的 pass@1 表现。

中期训练起到了「分布桥梁」的作用,极大地提升了 RL 的样本效率和最终性能上限。



不同算力分配策略下的性能对比

过程奖励抑制投机取巧

针对 RL 常见的奖励破解问题——即模型利用捷径获取高分但推理逻辑错误,研究引入了过程监督。

实验数据表明,将稀疏的结果奖励与密集的过程奖励相结合,能显著减少结构性错误(如遗漏步骤或依赖关系错误)。这种混合奖励机制在长链条推理任务($op=15\text{-}20$)中带来了稳定的 pass@1 提升。

过程级信号能够规范 RL 的搜索方向,确保能力的提升是建立在忠实推理基础之上的。



不同奖励机制的效果对比

结语

这项工作通过解构训练流程,给出了明确的实践指导:

RL 数据设计:应针对模型的「能力边缘」构建数据集,不要浪费算力在过易或过难的任务上。

预训练策略:必须确保长尾领域的原子能力(Primitives)有至少 1% 的覆盖率,为 RL 留出接口。

算力分配:根据目标任务的难度,动态调整中期训练与 RL 的比例。攻克难题需要更多 RL,提升稳定性需要更多中期训练。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今年首月中纪委连打8“虎”,2名中央委员任上被查

今年首月中纪委连打8“虎”,2名中央委员任上被查

上观新闻
2026-02-02 12:31:08
令人发指!前英国王子安德鲁四肢着地跪爬在女子身上!爱泼斯坦文件持续公开,英首相呼吁安德鲁向美国会做证

令人发指!前英国王子安德鲁四肢着地跪爬在女子身上!爱泼斯坦文件持续公开,英首相呼吁安德鲁向美国会做证

纵相新闻
2026-02-01 19:09:12
“反向春运”火了!部分火车票低至1.9折,南京到上海只要8.5元

“反向春运”火了!部分火车票低至1.9折,南京到上海只要8.5元

上观新闻
2026-02-01 21:39:09
美菲划演习禁飞区?咱们直接挂弹飞过去,你猜他们什么反应

美菲划演习禁飞区?咱们直接挂弹飞过去,你猜他们什么反应

老木说
2026-02-01 21:24:23
细节令人发指!爱泼斯坦在厨房追逐女孩,安德鲁跪伏在女性身上,马斯克问“最疯狂的派对”……

细节令人发指!爱泼斯坦在厨房追逐女孩,安德鲁跪伏在女性身上,马斯克问“最疯狂的派对”……

新民周刊
2026-02-01 15:53:41
爱泼斯坦案“诡异照片”曝光!那张“鸡肉照”到底藏着什么?

爱泼斯坦案“诡异照片”曝光!那张“鸡肉照”到底藏着什么?

墨印斋
2026-02-01 17:46:13
《环球时报》记者独家连线格陵兰岛居民:“我们对美国的认知已发生永久性改变”

《环球时报》记者独家连线格陵兰岛居民:“我们对美国的认知已发生永久性改变”

环球网资讯
2026-02-02 06:55:05
惊!2026年立春不一般!2月4日这4类人必须躲春,做错白忙一场

惊!2026年立春不一般!2月4日这4类人必须躲春,做错白忙一场

老特有话说
2026-01-30 22:51:04
纽约期银日内涨9%

纽约期银日内涨9%

每日经济新闻
2026-02-02 08:19:11
白所成因病死亡,白家犯罪集团案另4名罪犯被执行死刑

白所成因病死亡,白家犯罪集团案另4名罪犯被执行死刑

界面新闻
2026-02-02 10:59:16
1746个螺母被认定为枪支散件,五金厂老板获刑四年,其父:螺母系玩具商定制安装在玩具水弹枪上

1746个螺母被认定为枪支散件,五金厂老板获刑四年,其父:螺母系玩具商定制安装在玩具水弹枪上

黄河新闻网吕梁频道
2026-02-02 11:53:29
离开上海又去了东京:斯塔默“不做选择”的“英式务实主义”

离开上海又去了东京:斯塔默“不做选择”的“英式务实主义”

澎湃新闻
2026-02-02 11:45:05
伊朗最高领袖哈梅内伊:如果美国挑起战争,这次冲突将不再局限于一地;美方发布“林肯”号航母在阿拉伯海接受补给视频

伊朗最高领袖哈梅内伊:如果美国挑起战争,这次冲突将不再局限于一地;美方发布“林肯”号航母在阿拉伯海接受补给视频

每日经济新闻
2026-02-01 21:46:27
俄为何要缺席判处击沉“莫斯科号”乌指挥官无期徒刑和巨额罚款?

俄为何要缺席判处击沉“莫斯科号”乌指挥官无期徒刑和巨额罚款?

高博新视野
2026-01-30 17:15:24
创纪录暴跌后,今日金银价继续大跌!刚买的金饰能退吗?有商家提醒

创纪录暴跌后,今日金银价继续大跌!刚买的金饰能退吗?有商家提醒

每日经济新闻
2026-02-02 08:19:12
85岁老人被指漏水到楼下,自砸地板证清白全程公证,结果:没渗漏;“冤枉”业主物业该担何责?律师说法

85岁老人被指漏水到楼下,自砸地板证清白全程公证,结果:没渗漏;“冤枉”业主物业该担何责?律师说法

大风新闻
2026-02-01 20:16:03
中方接连“被做局”,美国真能“赢麻了”?

中方接连“被做局”,美国真能“赢麻了”?

头条爆料007
2026-02-02 06:25:51
杨瀚森0+1+1!开拓者惨负骑士吞5连败 阿伦40+17+4帽生涯新高

杨瀚森0+1+1!开拓者惨负骑士吞5连败 阿伦40+17+4帽生涯新高

醉卧浮生
2026-02-02 12:19:03
谷爱凌爱上币圈诈骗犯孙宇晨?

谷爱凌爱上币圈诈骗犯孙宇晨?

爆角追踪
2026-02-01 17:28:46
特朗普拒谈支付美国拖欠的联合国会费

特朗普拒谈支付美国拖欠的联合国会费

海外网
2026-02-02 09:40:07
2026-02-02 13:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12233文章数 142562关注度
往期回顾 全部

科技要闻

元宝发10亿红包,阿里千问:我跟30亿

头条要闻

外媒:伊朗正处于最弱时期 是推翻现有政权的最佳时机

头条要闻

外媒:伊朗正处于最弱时期 是推翻现有政权的最佳时机

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

国六货车被迫"换头" 每次收费超200元

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

房产
家居
艺术
亲子
公开课

房产要闻

狂卖1548亿后,海南又上演疯狂抢地!

家居要闻

现代几何彩拼 智焕童梦居

艺术要闻

马斯克花5万买的折叠屋,是预制住宅的未来吗?

亲子要闻

“妊娠”竟然不读rèn chén,正确读音是什么?你知道吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版