从失败中学习：强化蒸馏法让大语言模型更擅长推理|轨迹|数学|正则化|非对称|深度思考模型

从失败中学习：强化蒸馏法让大语言模型更擅长推理

2025-06-04 16:45:08　来源: 至顶科技

北京举报

分享至

在人工智能研究的最前沿，一项创新研究正在改变我们训练大语言模型（LLM）推理能力的方式。来自国立新加坡大学和上海英飞睿（INFLY TECH）的研究团队于2025年5月30日在arXiv预印本平台发表了一篇题为《从负面信号中获益：利用教师数据的强化蒸馏提升LLM推理能力》(Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning)的研究论文。这项由Shuyao Xu、Cheng Peng、Jiangxuan Long、Weidi Xu、Wei Chu和Yuan Qi领导的工作，提出了一种名为"强化蒸馏"（REDI）的创新方法，使小型语言模型能够更高效地学习复杂推理能力。有兴趣深入了解的读者可以通过GitHub（https://github.com/Tim-Siu/reinforcement-distillation）获取代码和模型。

一、为什么我们需要更高效的语言模型训练方法？

想象一下，你有一位数学天才朋友和一位普通的学生。这位天才能够解决复杂的数学问题，而学生则希望学习这些技能。传统的教学方法是：天才解决一系列问题，只把正确的解答过程教给学生，丢弃所有错误的尝试。但我们知道，在现实学习中，了解"为什么某种方法行不通"和"哪里容易出错"同样重要。

这正是当前大语言模型训练中面临的情况。像DeepSeek-R1和OpenAI的o1这样的先进推理模型展示了令人印象深刻的推理能力，尤其是在数学等领域。但如何将这些能力高效地传递给更小、更经济的模型呢？

目前有两种主要方法：一种是大规模强化学习，直接对基础模型应用强化学习算法，通过在线探索不断优化。但这种方法通常需要强大的基础模型才能发挥全部潜力，而且计算成本高昂。另一种方法是知识蒸馏——从大型"教师"模型生成的推理过程（如思维链）中学习，这为更小、更高效的"学生"模型提供了一条实用且经济的路径。

然而，标准的蒸馏实践通常采用拒绝采样，只保留正确的推理示例，丢弃不正确的示例。这些被丢弃的示例实际上包含了宝贵的信息！这就像只告诉学生正确答案，而不告诉他们常见的陷阱和细微的错误。这引出了本研究的核心问题：

如何在离线环境中有效利用正面和负面的蒸馏推理轨迹，最大化LLM的推理性能？

二、强化蒸馏：一种两阶段的创新方法

研究团队提出的强化蒸馏（REDI）框架像是给语言模型设计了一套更全面的学习课程。这个课程分为两个阶段：

第一阶段：监督微调（SFT）

想象一个学生先观看教师成功解题的视频。在这个阶段，模型通过标准的监督微调（SFT）学习正确的推理轨迹。这就像打下良好的基础，学习"正确的做法是什么"。模型学习如何从问题到解决方案，掌握基本的推理模式和格式。

第二阶段：利用正负样本的强化

这是REDI方法的核心创新。在建立了基础之后，模型现在不仅学习成功案例，还学习失败案例中的教训。这就像学生不仅学习正确答案，还特别分析错误解法中的陷阱和缺陷。

研究团队首先探索了现有的离线偏好优化方法，如直接偏好优化（DPO）和简单偏好优化（SimPO）。他们发现这些方法中的正则化参数β虽然有助于稳定离线训练并允许更大的梯度步长，但往往会限制测试时的性能。

基于这一发现，团队探索了替代训练目标，消除了这些正则化项。他们发现一个简单的、无参考的目标函数——类似于β→0极限下的DPO/SimPO目标——可以在这种蒸馏环境中优于已建立的方法。这个函数直接最大化正面轨迹的似然度，同时最小化负面轨迹的似然度。

然而，平衡性能和稳定性的挑战依然存在。为解决这一问题，REDI引入了一种非对称加权策略：通过降低负面样本的梯度贡献，框架实现了增强的稳定性和优越的测试时性能。

REDI的目标函数可以表达为：

``` LREDI(θ) = E_(x,yw,yl)~DPref [ -(log πθ(yw|x))/|yw| + α·(log πθ(yl|x))/|yl| ] ```

其中α∈[0,1]控制对负面轨迹的惩罚强度： - 当α=0时，相当于只对正面轨迹进行SFT（忽略负面样本） - 当α=1时，恢复对称目标

研究表明，设置α=0.8提供了最佳平衡，实现了强大的测试时性能，同时保持训练稳定性。

三、实验设置：如何评估REDI的有效性？

研究团队像科学实验一样严谨地设计了评估方法。他们从OpenR1-Math-Raw语料库中提取数据，并构建了两个数据集：

1. 正面轨迹数据集（DSFT）：包含78k个问题-解决方案对，每对由问题和相应的正确推理轨迹组成。这用于第一阶段的SFT训练。

2. 偏好对数据集（DPref）：包含53k个三元组，每个三元组由问题、正确轨迹和不正确轨迹组成。这用于第二阶段的训练。

在训练配置方面，团队使用了Qwen2.5-Math-1.5B模型作为基础模型，并建立了两个SFT基线：

- Qwen-SFT-1.5B-3ep：在DSFT上训练3个轮次。作为DPO、SimPO和各种REDI配置的起点。 - Qwen-SFT-1.5B-5ep：在DSFT上训练5个轮次。作为最终Qwen-REDI-1.5B模型的起点。

所有评估都采用温度为0.6的解码策略，使用Top P采样（p=0.95），最大生成长度为32,768个标记。评估在多个数学推理基准上进行，包括MATH-500、AIME24、AMC23、Minerva和OlympiadBench。

四、研究结果：强化蒸馏的惊人效果

研究结果就像一次成功的教学实验，证明了从错误中学习的价值。

SFT基线的性能极限

首先，团队确定了仅使用正面蒸馏数据通过监督微调（SFT）可达到的性能。如图2所示，性能在大约5个轮次后达到平台期。这一观察突显了仅从正面轨迹学习的局限性，并激发了利用负面信号的动力。

DPO中的性能-稳定性权衡

研究团队发现，DPO的β参数（控制KL正则化）呈现出一个关键的权衡。更高的β值增强了训练稳定性，通常允许更激进的学习率。然而，即使使用调整过的学习率，较高的β可能会限制峰值性能。相反，较低的β值可以释放更高的峰值准确性。

这就像教师在指导学生时面临的权衡：过于严格的框架（高β）可能会限制创新思维，而过于宽松的指导（低β）可能导致方向不明确。

通过非对称加权实现稳定性和性能

REDI方法直接优化对数似然，而不依赖于KL正则化，而是通过非对称加权来管理稳定性。研究表明，REDI与α=0.8和学习率1×10^-6的配置实现了快速学习，类似于对称α=1.0高学习率配置，但关键的是，它不会崩溃。它达到了高峰值性能并保持这一水平，证明了非对称加权策略的效果。

最终模型性能的比较

表1展示了这些努力的最终成果。Qwen-REDI-1.5B模型，仅在131k个开放数据点上训练，实现了83.1%的MATH-500分数（pass@1）。这一性能与在800k专有数据上训练的DeepSeek-R1-Distill-Qwen-1.5B相当或超过，在各种数学推理基准测试中取得了优异成绩，为使用公开可用数据离线后训练的1.5B模型树立了新的标准。

值得注意的是，REDI不仅提高了pass@1性能，还维持或提高了多个基准测试的pass@16分数。这表明REDI的离线优化并不仅仅过度优化一组高概率解决方案，而是真正提高了模型的整体问题解决能力。

五、REDI如何改变游戏规则？

强化蒸馏（REDI）方法就像给语言模型提供了一个更全面的学习课程，不仅教它"正确的做法"，还教它"避免常见错误"。这种方法的创新之处在于：

1. 高效利用数据：REDI充分利用了传统方法中被丢弃的负面示例，从教师模型生成的每一条数据中提取价值。

2. 平衡性能与稳定性：通过非对称加权（α<1.0），REDI找到了一种在保持训练稳定性的同时提高峰值性能的方法。

3. 无需在线交互：与需要昂贵在线交互的强化学习方法不同，REDI在离线环境中工作，使其更经济且易于实施。

4. 更小模型的强大性能：研究表明，即使是较小的1.5B参数模型，通过REDI也能实现与更大模型相当的推理能力。

5. 更好的未来在线RL准备：通过保持或提高pass@16分数，REDI训练的模型似乎更适合后续通过在线强化学习获得性能提升。

这种方法不仅提高了模型性能，还可能影响我们对知识传递的思考方式。就像在人类教育中，了解常见错误和失败案例可以深化理解，REDI展示了在AI训练中负面例子的教育价值。

六、未来展望与结论

强化蒸馏（REDI）为训练更小、更高效的语言模型开辟了一条新路径。通过有效利用正面和负面蒸馏推理轨迹，REDI使小型模型能够更接近大型推理模型的能力，但计算需求显著降低。

虽然本研究主要集中在数学推理上，但REDI框架可能适用于更广泛的推理任务，如科学问题解决、逻辑推理或复杂决策制定。未来的研究可能会探索REDI在其他领域的应用，以及与在线RL方法的结合可能性。

这项研究的关键贡献在于揭示了失败案例中蕴含的价值。通过将曾经被丢弃的"错误"转化为有价值的学习信号，REDI框架提供了一种更高效、更全面的知识传递方法。这不仅是一项技术创新，也是对教与学本质的深刻洞察——有时，知道"为什么不行"与知道"怎样做对"同样重要。

对于AI研究社区和更广泛的科技领域，这一发现提示我们重新思考如何看待失败和错误。也许，就像REDI所证明的那样，我们最大的进步可能来自于我们如何处理和学习失败的经验。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.