网易首页 > 网易号 > 正文 申请入驻

RL是「点金石」还是「挖掘机」?CMU 用可控实验给出答案

0
分享至




机器之心报道

机器之心编辑部

近期,强化学习(RL)技术在提升语言模型的推理能力方面取得了显著成效。

然而,后训练究竟是真正扩展了模型的推理能力,还是仅仅挖掘了预训练中已有的潜力?目前尚不明确。

一个核心挑战在于现代训练流程缺乏可控性:大规模预训练语料库不够透明,中期训练往往缺乏充分研究,且 RL 目标函数与未知的先验知识之间存在复杂的交互作用。

为了回答这个问题,来自卡耐基梅隆大学(CMU)的研究者通过构建基于 GSM-Infinite 的可控合成数据框架,在完全解耦的环境下,定量分析了预训练、Mid-training(中期训练/CPT)和 RL 三者对模型推理泛化能力的因果影响。旨在剥离并独立分析预训练、中期训练以及基于 RL 的后训练各自的因果贡献。



https://x.com/xiangyue96/status/1998488030836044112

研究者从两个维度对模型进行评估:针对更复杂组合的外推泛化能力,以及跨越不同表层语境的情境泛化能力。利用该框架,研究者调和了关于 RL 有效性的不同观点。

研究表明:

  • 仅当预训练留有足够提升空间,且 RL 数据针对模型的能力边界(即那些虽具难度但尚未超出模型能力范围的任务)时,RL 才能带来真正的能力增益(pass@128)。
  • 情境泛化需要极少但充分的预训练接触,在此之后 RL 便能实现可靠的迁移。
  • 在固定计算量下,相比于仅使用 RL,中期训练能显著提升性能,证明了其在训练流程中处于核心地位却未被充分探索。
  • 过程级奖励能减少奖励破解(Reward Hacking)现象并提高推理的忠实度。



  • 论文标题:On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
  • 论文地址:https://arxiv.org/abs/2512.07783
  • Github:https://github.com/Interplay-LM-Reasoning/Interplay-LM-Reasoning
  • HuggingFace:https://huggingface.co/Interplay-LM-Reasoning

综上所述,这些结果阐明了预训练、中期训练和 RL 之间的相互作用,为理解和改进推理语言模型的训练策略奠定了基础。

该工作登上了 Alphaxiv 榜一。



同时该工作在 AI 社区收获了一大波好评,ViT 作者之一 Lucas Beyer 也现身评论区。



核心方法:

完全可控的实验沙盒

为了从因果层面解构大模型的推理能力来源,研究团队并未直接使用现有的黑盒大模型或不可知的互联网语料,而是设计了一套严密的可控合成数据框架。该框架基于 GSM-Infinite 生成技术,旨在从源头控制数据分布、推理深度与语境广度。



数据生成框架与任务设置概览

基于依赖图(DAG)的数据生成

该框架的核心理念是将「推理结构」与「表面语境」完全解耦。



语境渲染:在确定了推理骨架后,系统通过应用不同的「语境模板」(如动物园、学校等场景),将抽象的数学图渲染为自然语言问题。这种分离使得研究者能够考察模型是真正学会了推理逻辑,还是仅仅记住了特定的文本模式。

三阶段训练流程的严格隔离

为了避免数据污染导致的评估偏差,研究者定义了三个互不重叠的训练阶段,并在各阶段精确调配数据分布:

  • 预训练:使用 10B token 的数据,主要包含基础的推理原语(Primitives)和规则。重点在于让模型掌握基础能力(op=2-10),同时保留更深层任务作为未见过的测试集。
  • 中期训练:这是一个连接预训练与 RL 的「桥梁」阶段。它使用与 RL 阶段相似的数据分布(即模型能力边缘的数据),旨在对齐模型的内部表征,使其做好「RL 就绪(RL-ready)」的准备。
  • 后训练(Post-training / RL):采用 GRPO 算法,针对特定的任务难度和语境进行强化学习,以探索模型在特定奖励信号下的能力边界。

过程级验证评估

为了防止模型「猜对答案」或通过错误的推理路径得出正确结果(即 Reward Hacking),该研究引入了过程级验证。系统不仅检查最终答案,还会解析模型生成的思维链,将其还原为依赖图,并与真实的一步步推理过程(Ground Truth DAG)进行比对。只有当推理步骤和最终答案全对时,才被判定为通过。

解构能力涌现的四个关键发现

基于上述框架,研究者进行了一系列控制变量实验,得出了关于 RL、预训练和中期训练相互作用的四个关键结论,有力地调和了学术界关于「RL 是否能创造新能力」的争议。

RL 的效用取决于「能力边缘」

RL 并非在任何情况下都能提升推理能力。

对于预训练中已充分掌握的简单任务,RL 只能提升 pass@1(即减少失误),无法提升模型的上限(pass@128)。

真正的能力跃迁发生在模型「能力边缘」的任务上(例如预训练覆盖了 op=2-10,RL 针对 op=11-14)。在这一区间,RL 能够通过探索带来显著的外推性泛化增益。如果任务难度过大(op=15-20),超出了模型的探索范围,RL 的收益也会消失。

因此,RL 的训练数据必须经过精心校准,瞄准模型的「能力边缘」,既不能太简单也不能太难。



不同难度任务下的 RL 表现

泛化的种子:1% 的预训练暴露至关重要

在考察模型能否将推理能力迁移到全新语境时,研究发现,如果预训练中完全没有接触过某种长尾语境(0%),即便 RL 阶段大量训练,模型也无法实现有效迁移。



因此,RL 无法无中生有,它需要预训练提供最基础的「原语」作为抓手。



预训练数据混合比例对情境泛化的影响

中期训练是计算效率的关键杠杆

在固定的计算预算(Compute Budget)下,如何分配中期训练和 RL 的比例?

Mid-Training + RL > Pure RL:引入中期训练阶段比单纯增加 RL 步数效果更好。

分配策略:实验表明,对于极难任务(OOD-Hard),「少量中期训练(建立先验)+ 大量 RL(深度探索)」的组合是最佳策略;而对于中等难度任务,增加中期训练的比重能带来更稳定的 pass@1 表现。

中期训练起到了「分布桥梁」的作用,极大地提升了 RL 的样本效率和最终性能上限。



不同算力分配策略下的性能对比

过程奖励抑制投机取巧

针对 RL 常见的奖励破解问题——即模型利用捷径获取高分但推理逻辑错误,研究引入了过程监督。

实验数据表明,将稀疏的结果奖励与密集的过程奖励相结合,能显著减少结构性错误(如遗漏步骤或依赖关系错误)。这种混合奖励机制在长链条推理任务($op=15\text{-}20$)中带来了稳定的 pass@1 提升。

过程级信号能够规范 RL 的搜索方向,确保能力的提升是建立在忠实推理基础之上的。



不同奖励机制的效果对比

结语

这项工作通过解构训练流程,给出了明确的实践指导:

RL 数据设计:应针对模型的「能力边缘」构建数据集,不要浪费算力在过易或过难的任务上。

预训练策略:必须确保长尾领域的原子能力(Primitives)有至少 1% 的覆盖率,为 RL 留出接口。

算力分配:根据目标任务的难度,动态调整中期训练与 RL 的比例。攻克难题需要更多 RL,提升稳定性需要更多中期训练。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
除夕彩蛋:刚刚杭州这里飘雪啦

除夕彩蛋:刚刚杭州这里飘雪啦

都市快报橙柿互动
2026-02-16 17:08:37
“治港败类”曾荫权:治理香港7年,为何却在卸任后,获刑20个月

“治港败类”曾荫权:治理香港7年,为何却在卸任后,获刑20个月

卷史
2025-09-15 11:50:59
“芯片条文”未纳入“台美协定”?民众党批:到底还要投资多少?

“芯片条文”未纳入“台美协定”?民众党批:到底还要投资多少?

海峡导报社
2026-02-15 16:22:21
男子归家途中突发心梗,常州北站8分钟生命接力

男子归家途中突发心梗,常州北站8分钟生命接力

现代快报
2026-02-16 12:01:22
2月15日俄乌最新:诡异的慕安会场边花絮

2月15日俄乌最新:诡异的慕安会场边花絮

西楼饮月
2026-02-15 19:14:57
谷爱凌出战自由式滑雪女子大跳台决赛 米兰冬奥会开幕后第十比赛日观赛指南

谷爱凌出战自由式滑雪女子大跳台决赛 米兰冬奥会开幕后第十比赛日观赛指南

环球网资讯
2026-02-16 14:20:17
伊朗表示,如果特朗普愿意解除制裁,就将在核协议上做出妥协

伊朗表示,如果特朗普愿意解除制裁,就将在核协议上做出妥协

林子说事
2026-02-16 17:09:37
锐评2026辽宁春晚小品,李宗恒宋小宝优良,于洋孟鹤堂拉胯

锐评2026辽宁春晚小品,李宗恒宋小宝优良,于洋孟鹤堂拉胯

我就是个码字的
2026-02-16 08:00:03
央视发文!韩国没想到,被驱逐至中国的林孝埈,如今让体坛沉默了

央视发文!韩国没想到,被驱逐至中国的林孝埈,如今让体坛沉默了

说历史的老牢
2025-11-26 11:36:10
泽连斯基:已收到美国为期15年的安全保障提案,但乌方希望期限为30至50年

泽连斯基:已收到美国为期15年的安全保障提案,但乌方希望期限为30至50年

大风新闻
2026-02-15 15:23:15
半年回本900亿!曾倒闭7万家门店的暴利生意强势回归

半年回本900亿!曾倒闭7万家门店的暴利生意强势回归

用冷眼洞悉世界
2026-02-16 17:40:08
中戏风波持续发酵!王鑫在职期间3人免试入编,易烊千玺饱受质疑

中戏风波持续发酵!王鑫在职期间3人免试入编,易烊千玺饱受质疑

陈意小可爱
2026-02-16 02:25:04
婆媳和睦!王昶母亲给儿媳钱天一织围巾,并称钱天一:我的小美人

婆媳和睦!王昶母亲给儿媳钱天一织围巾,并称钱天一:我的小美人

凤幻洋
2026-02-16 13:54:50
赚翻了!小伙5个月用AI做120多个App:只需验收上架 90%都有付费用户

赚翻了!小伙5个月用AI做120多个App:只需验收上架 90%都有付费用户

快科技
2026-02-14 11:41:14
北京通州街头出现“会发热的椅子”

北京通州街头出现“会发热的椅子”

中工网
2026-02-16 12:20:05
足控狂喜!《黑神话钟馗》厨娘是四妹同款裸足

足控狂喜!《黑神话钟馗》厨娘是四妹同款裸足

游民星空
2026-02-15 11:07:27
广东一男子骑摩托一脚踹倒路边拾荒老人,当地回应:1人刑事拘留,2人行政处罚;被踢老人已送医检查,身体无大碍

广东一男子骑摩托一脚踹倒路边拾荒老人,当地回应:1人刑事拘留,2人行政处罚;被踢老人已送医检查,身体无大碍

大风新闻
2026-02-15 12:03:04
孤独婚车李婷曝光,婆家在农村,公婆勤劳婚房气派,人民日报点赞

孤独婚车李婷曝光,婆家在农村,公婆勤劳婚房气派,人民日报点赞

徐云流浪中国
2026-02-14 12:15:00
丰田章男:如果只造我喜欢的车,那就只有GR卡罗拉和GR雅力士

丰田章男:如果只造我喜欢的车,那就只有GR卡罗拉和GR雅力士

IT之家
2026-02-14 15:11:08
点一桌子菜只吃几口,39岁杨幂揭开内娱现状,没胃口更没活人感

点一桌子菜只吃几口,39岁杨幂揭开内娱现状,没胃口更没活人感

萌神木木
2026-01-07 17:08:36
2026-02-16 18:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12312文章数 142567关注度
往期回顾 全部

科技要闻

OpenAI拿下OpenClaw之父 承诺开源绝不动摇

头条要闻

66岁台大教授苑举正首次回山东老家过年:零下5℃冷啊

头条要闻

66岁台大教授苑举正首次回山东老家过年:零下5℃冷啊

体育要闻

遭针对?谷爱凌炮轰国际雪联安排

娱乐要闻

好甜蜜!郭富城随方媛回安徽过年

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

家居
亲子
健康
数码
旅游

家居要闻

中古雅韵 乐韵伴日常

亲子要闻

白百何因孩子一泡尿上热搜?网友炸锅:别对带娃妈妈太苛刻!

转头就晕的耳石症,能开车上班吗?

数码要闻

苹果将推多款智能家居产品 包含AI家庭中心与摄像头

旅游要闻

24岁日本小伙5分钟全文背诵《滕王阁序》,获得景区免票资格!当事人:系统评分60分以上可以免票,我是100分

无障碍浏览 进入关怀版