RL是「点金石」还是「挖掘机」？CMU 用可控实验给出答案|推理|rl|预训练|正式版模型

RL是「点金石」还是「挖掘机」？CMU 用可控实验给出答案

2025-12-15 10:14:24　来源: 机器之心Pro

北京举报

分享至

机器之心报道

机器之心编辑部

近期，强化学习（RL）技术在提升语言模型的推理能力方面取得了显著成效。

然而，后训练究竟是真正扩展了模型的推理能力，还是仅仅挖掘了预训练中已有的潜力？目前尚不明确。

一个核心挑战在于现代训练流程缺乏可控性：大规模预训练语料库不够透明，中期训练往往缺乏充分研究，且 RL 目标函数与未知的先验知识之间存在复杂的交互作用。

为了回答这个问题，来自卡耐基梅隆大学（CMU）的研究者通过构建基于 GSM-Infinite 的可控合成数据框架，在完全解耦的环境下，定量分析了预训练、Mid-training（中期训练/CPT）和 RL 三者对模型推理泛化能力的因果影响。旨在剥离并独立分析预训练、中期训练以及基于 RL 的后训练各自的因果贡献。

https://x.com/xiangyue96/status/1998488030836044112

研究者从两个维度对模型进行评估：针对更复杂组合的外推泛化能力，以及跨越不同表层语境的情境泛化能力。利用该框架，研究者调和了关于 RL 有效性的不同观点。

研究表明：

仅当预训练留有足够提升空间，且 RL 数据针对模型的能力边界（即那些虽具难度但尚未超出模型能力范围的任务）时，RL 才能带来真正的能力增益（pass@128）。
情境泛化需要极少但充分的预训练接触，在此之后 RL 便能实现可靠的迁移。
在固定计算量下，相比于仅使用 RL，中期训练能显著提升性能，证明了其在训练流程中处于核心地位却未被充分探索。
过程级奖励能减少奖励破解（Reward Hacking）现象并提高推理的忠实度。

论文标题：On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
论文地址：https://arxiv.org/abs/2512.07783
Github：https://github.com/Interplay-LM-Reasoning/Interplay-LM-Reasoning
HuggingFace：https://huggingface.co/Interplay-LM-Reasoning

综上所述，这些结果阐明了预训练、中期训练和 RL 之间的相互作用，为理解和改进推理语言模型的训练策略奠定了基础。

该工作登上了 Alphaxiv 榜一。

同时该工作在 AI 社区收获了一大波好评，ViT 作者之一 Lucas Beyer 也现身评论区。

核心方法：

完全可控的实验沙盒

为了从因果层面解构大模型的推理能力来源，研究团队并未直接使用现有的黑盒大模型或不可知的互联网语料，而是设计了一套严密的可控合成数据框架。该框架基于 GSM-Infinite 生成技术，旨在从源头控制数据分布、推理深度与语境广度。

数据生成框架与任务设置概览

基于依赖图（DAG）的数据生成

该框架的核心理念是将「推理结构」与「表面语境」完全解耦。

语境渲染：在确定了推理骨架后，系统通过应用不同的「语境模板」（如动物园、学校等场景），将抽象的数学图渲染为自然语言问题。这种分离使得研究者能够考察模型是真正学会了推理逻辑，还是仅仅记住了特定的文本模式。

三阶段训练流程的严格隔离

为了避免数据污染导致的评估偏差，研究者定义了三个互不重叠的训练阶段，并在各阶段精确调配数据分布：

预训练：使用 10B token 的数据，主要包含基础的推理原语（Primitives）和规则。重点在于让模型掌握基础能力（op=2-10），同时保留更深层任务作为未见过的测试集。
中期训练：这是一个连接预训练与 RL 的「桥梁」阶段。它使用与 RL 阶段相似的数据分布（即模型能力边缘的数据），旨在对齐模型的内部表征，使其做好「RL 就绪（RL-ready）」的准备。
后训练（Post-training / RL）：采用 GRPO 算法，针对特定的任务难度和语境进行强化学习，以探索模型在特定奖励信号下的能力边界。

过程级验证评估

为了防止模型「猜对答案」或通过错误的推理路径得出正确结果（即 Reward Hacking），该研究引入了过程级验证。系统不仅检查最终答案，还会解析模型生成的思维链，将其还原为依赖图，并与真实的一步步推理过程（Ground Truth DAG）进行比对。只有当推理步骤和最终答案全对时，才被判定为通过。

解构能力涌现的四个关键发现

基于上述框架，研究者进行了一系列控制变量实验，得出了关于 RL、预训练和中期训练相互作用的四个关键结论，有力地调和了学术界关于「RL 是否能创造新能力」的争议。

RL 的效用取决于「能力边缘」

RL 并非在任何情况下都能提升推理能力。

对于预训练中已充分掌握的简单任务，RL 只能提升 pass@1（即减少失误），无法提升模型的上限（pass@128）。

真正的能力跃迁发生在模型「能力边缘」的任务上（例如预训练覆盖了 op=2-10，RL 针对 op=11-14）。在这一区间，RL 能够通过探索带来显著的外推性泛化增益。如果任务难度过大（op=15-20），超出了模型的探索范围，RL 的收益也会消失。

因此，RL 的训练数据必须经过精心校准，瞄准模型的「能力边缘」，既不能太简单也不能太难。

不同难度任务下的 RL 表现

泛化的种子：1% 的预训练暴露至关重要

在考察模型能否将推理能力迁移到全新语境时，研究发现，如果预训练中完全没有接触过某种长尾语境（0%），即便 RL 阶段大量训练，模型也无法实现有效迁移。

因此，RL 无法无中生有，它需要预训练提供最基础的「原语」作为抓手。

预训练数据混合比例对情境泛化的影响

中期训练是计算效率的关键杠杆

在固定的计算预算（Compute Budget）下，如何分配中期训练和 RL 的比例？

Mid-Training + RL > Pure RL：引入中期训练阶段比单纯增加 RL 步数效果更好。

分配策略：实验表明，对于极难任务（OOD-Hard），「少量中期训练（建立先验）+ 大量 RL（深度探索）」的组合是最佳策略；而对于中等难度任务，增加中期训练的比重能带来更稳定的 pass@1 表现。

中期训练起到了「分布桥梁」的作用，极大地提升了 RL 的样本效率和最终性能上限。

不同算力分配策略下的性能对比

过程奖励抑制投机取巧

针对 RL 常见的奖励破解问题——即模型利用捷径获取高分但推理逻辑错误，研究引入了过程监督。

实验数据表明，将稀疏的结果奖励与密集的过程奖励相结合，能显著减少结构性错误（如遗漏步骤或依赖关系错误）。这种混合奖励机制在长链条推理任务（$op=15\text{-}20$）中带来了稳定的 pass@1 提升。

过程级信号能够规范 RL 的搜索方向，确保能力的提升是建立在忠实推理基础之上的。

不同奖励机制的效果对比

结语

这项工作通过解构训练流程，给出了明确的实践指导：

RL 数据设计：应针对模型的「能力边缘」构建数据集，不要浪费算力在过易或过难的任务上。

预训练策略：必须确保长尾领域的原子能力（Primitives）有至少 1% 的覆盖率，为 RL 留出接口。

算力分配：根据目标任务的难度，动态调整中期训练与 RL 的比例。攻克难题需要更多 RL，提升稳定性需要更多中期训练。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.