Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning
监督式强化学习:从专家轨迹到逐步推理
https://arxiv.org/pdf/2510.25992
![]()
大型语言模型(LLMs)在处理需要多步推理的问题时常常表现不佳。对于小规模开源模型而言,基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)在即使经过多次尝试也极少采样到正确解的情况下会失效;而监督微调(Supervised Fine-Tuning, SFT)则倾向于通过对长演示进行僵化的逐词模仿而导致过拟合。为弥补这一差距,我们提出了监督强化学习(Supervised Reinforcement Learning, SRL)——一种将问题求解重新建模为生成一系列逻辑“动作”的训练框架。SRL 训练模型在执行每个动作前先生成内部推理独白,并基于模型动作与从 SFT 数据集中提取的专家动作之间的相似度,以逐步方式提供更平滑的奖励信号。这种监督机制即使在所有推理轨迹均错误的情况下也能提供更丰富的学习信号,同时借助专家演示引导模型进行灵活推理。因此,SRL 使小型模型能够学会以往通过 SFT 或 RLVR 无法掌握的复杂问题。此外,先以 SRL 初始化训练、再通过 RLVR 进行精调,可获得整体最优性能。除推理基准任务外,SRL 还能有效泛化至智能体软件工程任务,确立其作为面向推理的大型语言模型的一种稳健且通用的训练框架的地位。
- 引言
大语言模型(LLMs)在一系列推理任务中展现出卓越的能力,包括解决数学问题(Wang et al., 2025)、生成代码(Jiang et al., 2024)以及智能体规划(Li et al., 2025c; Xie et al., 2024)。近期一项重要进展是利用强化学习(RL)来增强LLMs的复杂推理能力(Ahmadian et al., 2024; Lambert et al., 2024; Shao et al., 2024)。通过基于可验证结果(如最终答案的正确性)的奖励信号对模型进行优化,强化学习为激发有益的问题求解策略(如自我反思(Guo et al., 2025; Xie et al., 2025))提供了一条可扩展且前景广阔的路径。
这类基于结果的强化学习方法的有效性从根本上依赖于策略模型在有限轨迹采样(rollout)预算内发现正确解的能力(Brown et al., 2024)。然而,受实际计算资源的限制,当面对训练数据中具有挑战性的问题时,该学习范式往往难以奏效——在这些问题上,模型的成功率实际上为零(即使采样条轨迹后,pass@率仍为零)。此类情况在需要复杂多步推理的任务中日益普遍(Wang et al., 2024; Yue et al., 2025)。对于7B规模的LLM而言,一个错误的中间步骤就可能导致整个推理链偏离正轨,从而无论是否存在部分正确的中间结果,都会产生负面的学习信号。此外,简单地惩罚所有错误的最终输出还可能进一步引入训练不稳定性并阻碍学习进展,使得这些困难的推理任务对标准的基于结果的强化学习方法而言基本不可解(Xiong et al., 2025)。
另一种方法是模仿学习,通常通过在专家示范上进行监督微调(SFT)来实现(Ross et al., 2011)。尽管SFT能够注入有价值的推理行为,但其下一词预测目标强制模型进行严格、逐词级别的模仿,限制了模型在训练数据之外的泛化能力。当训练数据规模有限且模型本身能力相对较弱时,这一问题尤为突出。在此类条件下,冗长复杂的示范往往导致过拟合和浅层推理行为(Chu et al., 2025a; Li et al., 2025b),正如我们在图1中观察到的性能下降所示。因此,无论是SFT还是基于结果的强化学习,在困难推理任务上均面临挑战,这为训练小型开源模型以有效学习难题留下了关键空白。
![]()
为填补这一空白,我们提出监督强化学习(Supervised Reinforcement Learning, SRL),一个将问题求解重新形式化为序列决策过程的框架。与优化最终答案或模仿完整专家轨迹不同,SRL依据强化学习风格的目标,训练模型复现专家推理背后的关键动作序列。具体而言,专家示范被分解为一系列中间动作,每个动作代表一个有意义的决策步骤。在训练过程中,模型首先生成内部独白(internal monologue)以阐明其推理过程,随后执行一个“动作”。在每一步,SRL根据模型预测动作与对应专家动作之间的相似性提供奖励,从而提供细粒度、高效可计算的监督信号,并可扩展至大规模数据集。
本工作的贡献如下: • 我们提出SRL,一种新颖的框架,旨在使模型在SFT和RLVR难以应对的困难推理任务上实现有效学习,其通过基于与专家动作相似性的密集且平滑的奖励实现这一目标。 • 我们在具有挑战性的数学推理和智能体软件工程基准测试上进行了大量实验,验证了SRL的有效性与鲁棒性。结果表明,SRL在两个领域均显著优于强基线方法(见5.1与5.3节)。 • 通过详细分析,我们揭示了细粒度指导对SRL奖励机制及其对模型行为影响的关键作用。我们观察到,SRL能够诱导出灵活而复杂的推理模式,例如交错式的规划与验证,从而在不单纯增加输出长度的情况下提升解的质量(见5.2节)。
![]()
- 相关工作
2.1. 用于LLM推理的SFT(知识蒸馏)
通过对教师模型生成的长思维链(Chain-of-Thought, CoT)推理过程进行监督微调(SFT)以将推理能力蒸馏至小型模型,已被证明是迁移复杂问题求解技能的有效方法(Huang et al., 2024; Li et al., 2023; Min et al., 2024; Yeo et al., 2025),DeepSeek R1蒸馏所得的小型模型即为典型案例(Guo et al., 2025)。研究表明,该过程具有惊人的数据效率,小型但高质量的数据集通常已足够(Muennighoff et al., 2025; Ye et al., 2025)。鉴于其成功,研究者开始关注实现有效SFT蒸馏的底层因素(Chen et al., 2025a)。部分研究强调推理轨迹的逻辑结构而非其语义正确性(Luo et al., 2025; Stechly et al., 2025),因为模型甚至能够从包含事实性错误的示范中学习(Li et al., 2025a)。此外,学生-教师能力差距仍构成显著挑战:当学生模型面对过于复杂的数据时往往难以有效学习(Li et al., 2025b);同时存在“教师模型攻击”(teacher hacking)风险,即学生模型过度拟合教师模型的特定缺陷(Tiapkin et al., 2025)。归根结底,从教师模型进行蒸馏为学生模型的性能设定了上限(Huang et al., 2024)。
2.2. 用于LLM推理的强化学习
DeepSeek-R1的开发(Guo et al., 2025)展示了基于规则的强化学习在增强LLM推理能力方面的有效性。该方法采用基于最终答案正确性的可扩展奖励系统,典型代表包括组相对策略优化(Group Relative Policy Optimization, GRPO)算法(Shao et al., 2024)以及各类并行算法(Ahmadian et al., 2024; Lambert et al., 2024; Xie et al., 2025)。在此基础上,后续研究引入了众多算法改进。例如,Dr. GRPO(Liu et al., 2025)通过移除方差归一化以减轻偏差;DAPO(Yu et al., 2025)引入了词元级损失函数,并通过提高裁剪阈值放松策略更新约束。其他值得注意的进展包括对裁剪方法、归一化技术、KL散度损失以及动态采样策略的改进(Chen et al., 2025b; Chu et al., 2025b; Zhang and Zuo, 2025; Zhang et al., 2025)。尽管存在这些算法变体,这些方法主要仍依赖于最终结果的奖励信号。当面对困难查询时,若轨迹采样(rollout)无法找到正确解路径,便会引发关键挑战。例如,DAPO(Yu et al., 2025)通过过滤掉无法产生任何成功轨迹的指令来应对这一问题。
3. 预备知识
![]()
![]()
![]()
4. 方法论 4.1. 困难推理问题的挑战
![]()
4.2. 监督强化学习(SRL)
![]()
![]()
![]()
![]()
然后使用此奖励信号优化策略 ,优化目标为公式 1 中定义的 GRPO 目标函数。值得注意的是,我们的奖励仅根据逻辑动作计算,而非内心独白。这使得模型在确保其外部动作与专家策略对齐的同时,拥有灵活性来发展自身的内部推理风格。这种设计提供了密集的、步骤级别的反馈,并支持快速奖励计算,使 SRL 框架既高效又可扩展。
![]()
- 实验
5.1 主要结果:数学推理
实验设置。我们在s1K-1.1数据集(Muennighoff et al., 2025)上对Qwen2.5-7B-Instruct模型(Yang et al., 2024)进行微调。该数据集包含1,000道多样且具挑战性的问题,每道问题均附有由DeepSeek R1生成的详细推理轨迹和最终解答。DeepSeek R1的解答采用结构化、带编号的步
骤格式(例如,“1. 步骤1标题”)。我们利用此结构,通过解析这些解答并将每个完整步骤视为真实后续内容,来生成中间训练目标。任何不符合此格式的数据点均被排除。我们从数据集中预留60道问题作为验证集。
基线方法。我们将所提出的方法与多个基线方法进行对比,所有基线均基于Qwen2.5-7B-Instruct模型初始化。这些基线包括:(i) 对完整推理轨迹(R1推理)或s1K-1.1数据集的最终解答(R1概要)进行监督微调(SFT);(ii) s1K-7B,即数据集作者发布的官方蒸馏模型;(iii) RLVR,我们使用GRPO算法实现。为确保公平比较,我们采用Yu等人(2025)提出的额外动态采样方法,该方法会移除所有轨迹采样结果全对或全错的样本。我们以两种不同设置评估RLVR:直接应用于基础模型,以及在初始监督微调阶段后应用。我们提出的方法SRL同样以两种方式评估:作为独立技术,以及在RLVR之前的顺序配置中(SRL后接RLVR)。所有模型最多训练30轮,并为每种方法选择验证集上性能最佳的检查点。
评估。我们在以下四个竞赛级数学推理基准测试上评估所有模型:AMC23²、AIME24³、AIME25⁴和Minerva Math(Lewkowycz et al., 2022)。所有基准测试的评估协议严格遵循Qwen2.5-Math⁵设定的方案,并报告贪婪采样的准确率。此外,针对AMC23、AIME24和AIME25,我们为所有基线方法报告温度参数为1.0时的average@32分数,以确保评估结果更具鲁棒性。
性能表现。我们模型的性能结果总结于表1。与官方发布的S1K-7B模型一致,我们在相同数据集上通过监督微调训练的模型表现出显著的性能下降。具体而言,虽然RLVR保持了性能水平,但SRL平均提供了3.0%的显著提升。此外,在SRL训练后应用RLVR平均带来了3.7%的提升,且仅利用了1k训练数据。
![]()
5.2 分析:数学推理
SRL中动态采样的影响。在表2中,我们分析了SRL中动态采样组件的影响,该组件基于对轨迹采样内序列相似性奖励的标准差进行阈值化处理。对于两个模型,我们均训练至训练奖励收敛,并根据验证分数选择检查点。我们的结果与DAPO(Yu et al., 2025)的研究发现一致,该研究指出:移除提供零学习信号的样本对强化学习训练循环的有效性至关重要,这带来了显著的性能提升。
解耦SRL中指导粒度的影响。为将指导粒度的影响与序列相似性奖励的益处分离,我们将多步方法与两种简化的单步基线进行对比:
- 最终答案奖励:该基线采用基于GRPO训练的RLVR,仅依据最终答案的正确性对模型进行奖励。
- 整体序列相似性奖励:模型在单一步骤中生成完整解答,随后将整个解答与完整的标准轨迹进行相似性评估。
如表3所示,结果突显了序列相似性奖励中细粒度指导的价值。尽管整体序列相似性奖励平均提升了性能,但提供细粒度、逐步指导在各基准测试中带来了显著更优的性能。
![]()
交错式推理行为。除取得更优性能外,经SRL训练的模型还展现出独特而灵活的推理模式。传统模型通常在解题起始阶段生成单一、整体式的推理段落。相比之下,我们的模型——尤其是经过RLVR微调的模型——能够动态地将推理步骤与解题生成过程交错进行。该行为主要体现为三种形式:(1) 前置规划:在初始阶段制定全面计划,预先勾勒后续所有步骤;(2) 即时调整:在解题过程中插入多个独立的推理块,以进行迭代式规划与调整;(3) 反思性验证:模型在输出最终答案前暂停,对自身解答进行反思与验证。示例1(如下)及附录中的示例2源自经SRL→RLVR方法训练的模型,展示了这些涌现的推理模式。
![]()
推理长度。我们进一步探究SRL带来的性能提升是否单纯源于推理长度的增加。在图4中,我们绘制了基础模型与经SRL微调模型的推理长度分布(即解答中的单词数量)。观察发现,两种分布之间不存在显著差异。这一结果表明,性能提升源于规划能力的增强与推理质量的提高,而非推理时单纯增加token预算。
![]()
5.3. 扩展:软件工程中的智能体推理
任务。我们将SRL框架扩展至软件工程领域,训练智能体解决真实世界的编程问题。此类任务通常在SWE-Bench等基准测试上进行评估(Jimenez et al., 2023),该基准要求智能体与大型代码库进行复杂的多轮交互,并对代码功能进行深度推理。
然而,与数学领域不同,强化学习在软件工程中的直接在线应用面临显著的实际挑战。这些挑战包括处理长上下文窗口、环境反馈的高延迟以及补丁验证速度缓慢(Golubev et al., 2025; Wei et al., 2025)。因此,这些障碍阻碍了稳定且可扩展的端到端强化学习方法的发展,促使当前主流做法转向收集专家智能体轨迹,并通过监督微调(SFT)将其蒸馏为策略模型(Pan et al., 2024; Yang et al., 2025)。
实验设置。我们应用SRL对Qwen2.5-Coder-7B-Instruct(Hui et al., 2024)进行进一步微调,该模型已专门针对编码任务进行优化。我们采用Yang等人(2025)提供的数据集,其中包含5,000条专家智能体轨迹。这些轨迹由claude-3-7-sonnet-20250219(Anthropic, 2025)生成,随后经过验证以确保其能产生正确的代码补丁。
每条轨迹由智能体与编码环境交互的多个步骤构成。如下方示例所示,单个步骤包含自然语言推理,随后是一个可执行动作:
![]()
与我们的SRL公式化方法一致(第4.2节),我们将"action"(动作)定义为环境可消费的命令(例如bash调用)。基于此分解方式,我们对完整轨迹进行处理,生成了13.4万个步骤级训练样本。为进行验证,我们预留了30条完整轨迹,并从中整理出包含650个步骤级样本的验证集。
评估。我们参照Wei等人(2025)的做法,在两种不同配置下通过测量模型的解决率(%)来评估其补丁生成性能:(1) Oracle文件编辑评估:向模型提供需修复的Oracle代码文件。该配置隔离并衡量模型的核心补丁生成能力;(2) 端到端评估:该设置采用Agentless-mini智能体框架(Wei et al., 2025),首先识别需修改的文件,随后生成补丁。该配置联合测试模型的故障定位与代码修复能力。
我们将经SRL训练的模型与两个关键基线进行对比:原始基础模型(Qwen2.5-Coder-Instruct)以及SWE-Gym-7B(Pan et al., 2024)。由于SWE-Gym-7B是基于相同基础模型通过SFT微调得到的模型,这为SFT与我们提出的SRL训练方法提供了直接且公平的比较基准。如表4所示,SRL显著优于两个基线模型。在Oracle设置下,SRL达到了14.8%的解决率,相较强大的SWE-Gym-7B基线实现了74%的相对提升。在更具挑战性的端到端评估设置中,性能增益同样保持一致,SRL的性能可达基线的两倍。
![]()
5.4. 讨论
最后,我们指出SRL的有效性从根本上取决于学生模型的初始任务熟练度,以及所获取的步骤级数据与轨迹采样样本的质量。一个关键前提是:学生模型必须展现出基本的指令遵循能力。这确保了初始轨迹采样样本与任务相关且结构正确,从而为学习奠定坚实基础。此外,尽管我们的步骤级分解方法降低了任务复杂度,但所得数据必须使策略模型能够以一定概率获得良好的奖励。
- 结论
总之,我们提出了监督强化学习(Supervised Reinforcement Learning, SRL),一种旨在使大语言模型从专家示范中学习复杂推理技能的新方法,尤其适用于传统强化学习或监督微调方法难以应对的困难问题。通过将专家解答分解为可管理的步骤,并利用密集的序列相似性奖励,SRL提供了有效的细粒度指导,弥合了模仿学习与强化学习之间的鸿沟。我们的实证结果表明,SRL不仅在数学推理与软件工程任务中显著优于基线方法,而且与RLVR结合时还能实现强大的课程学习策略。本工作确立了SRL作为一种鲁棒且可泛化的技术,能够释放模型从具有挑战性的多步问题中学习的潜力,为训练能力更强、适应性更广的人工智能智能体开辟了道路。
原文链接:https://arxiv.org/pdf/2510.25992
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.