网易首页 > 网易号 > 正文 申请入驻

从失败中学习:强化蒸馏法让大语言模型更擅长推理

0
分享至

在人工智能研究的最前沿,一项创新研究正在改变我们训练大语言模型(LLM)推理能力的方式。来自国立新加坡大学和上海英飞睿(INFLY TECH)的研究团队于2025年5月30日在arXiv预印本平台发表了一篇题为《从负面信号中获益:利用教师数据的强化蒸馏提升LLM推理能力》(Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning)的研究论文。这项由Shuyao Xu、Cheng Peng、Jiangxuan Long、Weidi Xu、Wei Chu和Yuan Qi领导的工作,提出了一种名为"强化蒸馏"(REDI)的创新方法,使小型语言模型能够更高效地学习复杂推理能力。有兴趣深入了解的读者可以通过GitHub(https://github.com/Tim-Siu/reinforcement-distillation)获取代码和模型。

一、为什么我们需要更高效的语言模型训练方法?

想象一下,你有一位数学天才朋友和一位普通的学生。这位天才能够解决复杂的数学问题,而学生则希望学习这些技能。传统的教学方法是:天才解决一系列问题,只把正确的解答过程教给学生,丢弃所有错误的尝试。但我们知道,在现实学习中,了解"为什么某种方法行不通"和"哪里容易出错"同样重要。

这正是当前大语言模型训练中面临的情况。像DeepSeek-R1和OpenAI的o1这样的先进推理模型展示了令人印象深刻的推理能力,尤其是在数学等领域。但如何将这些能力高效地传递给更小、更经济的模型呢?

目前有两种主要方法:一种是大规模强化学习,直接对基础模型应用强化学习算法,通过在线探索不断优化。但这种方法通常需要强大的基础模型才能发挥全部潜力,而且计算成本高昂。另一种方法是知识蒸馏——从大型"教师"模型生成的推理过程(如思维链)中学习,这为更小、更高效的"学生"模型提供了一条实用且经济的路径。

然而,标准的蒸馏实践通常采用拒绝采样,只保留正确的推理示例,丢弃不正确的示例。这些被丢弃的示例实际上包含了宝贵的信息!这就像只告诉学生正确答案,而不告诉他们常见的陷阱和细微的错误。这引出了本研究的核心问题:

如何在离线环境中有效利用正面和负面的蒸馏推理轨迹,最大化LLM的推理性能?

二、强化蒸馏:一种两阶段的创新方法

研究团队提出的强化蒸馏(REDI)框架像是给语言模型设计了一套更全面的学习课程。这个课程分为两个阶段:

第一阶段:监督微调(SFT)

想象一个学生先观看教师成功解题的视频。在这个阶段,模型通过标准的监督微调(SFT)学习正确的推理轨迹。这就像打下良好的基础,学习"正确的做法是什么"。模型学习如何从问题到解决方案,掌握基本的推理模式和格式。

第二阶段:利用正负样本的强化

这是REDI方法的核心创新。在建立了基础之后,模型现在不仅学习成功案例,还学习失败案例中的教训。这就像学生不仅学习正确答案,还特别分析错误解法中的陷阱和缺陷。

研究团队首先探索了现有的离线偏好优化方法,如直接偏好优化(DPO)和简单偏好优化(SimPO)。他们发现这些方法中的正则化参数β虽然有助于稳定离线训练并允许更大的梯度步长,但往往会限制测试时的性能。

基于这一发现,团队探索了替代训练目标,消除了这些正则化项。他们发现一个简单的、无参考的目标函数——类似于β→0极限下的DPO/SimPO目标——可以在这种蒸馏环境中优于已建立的方法。这个函数直接最大化正面轨迹的似然度,同时最小化负面轨迹的似然度。

然而,平衡性能和稳定性的挑战依然存在。为解决这一问题,REDI引入了一种非对称加权策略:通过降低负面样本的梯度贡献,框架实现了增强的稳定性和优越的测试时性能。

REDI的目标函数可以表达为:

``` LREDI(θ) = E_(x,yw,yl)~DPref [ -(log πθ(yw|x))/|yw| + α·(log πθ(yl|x))/|yl| ] ```

其中α∈[0,1]控制对负面轨迹的惩罚强度: - 当α=0时,相当于只对正面轨迹进行SFT(忽略负面样本) - 当α=1时,恢复对称目标

研究表明,设置α=0.8提供了最佳平衡,实现了强大的测试时性能,同时保持训练稳定性。

三、实验设置:如何评估REDI的有效性?

研究团队像科学实验一样严谨地设计了评估方法。他们从OpenR1-Math-Raw语料库中提取数据,并构建了两个数据集:

1. 正面轨迹数据集(DSFT):包含78k个问题-解决方案对,每对由问题和相应的正确推理轨迹组成。这用于第一阶段的SFT训练。

2. 偏好对数据集(DPref):包含53k个三元组,每个三元组由问题、正确轨迹和不正确轨迹组成。这用于第二阶段的训练。

在训练配置方面,团队使用了Qwen2.5-Math-1.5B模型作为基础模型,并建立了两个SFT基线:

- Qwen-SFT-1.5B-3ep:在DSFT上训练3个轮次。作为DPO、SimPO和各种REDI配置的起点。 - Qwen-SFT-1.5B-5ep:在DSFT上训练5个轮次。作为最终Qwen-REDI-1.5B模型的起点。

所有评估都采用温度为0.6的解码策略,使用Top P采样(p=0.95),最大生成长度为32,768个标记。评估在多个数学推理基准上进行,包括MATH-500、AIME24、AMC23、Minerva和OlympiadBench。

四、研究结果:强化蒸馏的惊人效果

研究结果就像一次成功的教学实验,证明了从错误中学习的价值。

SFT基线的性能极限

首先,团队确定了仅使用正面蒸馏数据通过监督微调(SFT)可达到的性能。如图2所示,性能在大约5个轮次后达到平台期。这一观察突显了仅从正面轨迹学习的局限性,并激发了利用负面信号的动力。

DPO中的性能-稳定性权衡

研究团队发现,DPO的β参数(控制KL正则化)呈现出一个关键的权衡。更高的β值增强了训练稳定性,通常允许更激进的学习率。然而,即使使用调整过的学习率,较高的β可能会限制峰值性能。相反,较低的β值可以释放更高的峰值准确性。

这就像教师在指导学生时面临的权衡:过于严格的框架(高β)可能会限制创新思维,而过于宽松的指导(低β)可能导致方向不明确。

通过非对称加权实现稳定性和性能

REDI方法直接优化对数似然,而不依赖于KL正则化,而是通过非对称加权来管理稳定性。研究表明,REDI与α=0.8和学习率1×10^-6的配置实现了快速学习,类似于对称α=1.0高学习率配置,但关键的是,它不会崩溃。它达到了高峰值性能并保持这一水平,证明了非对称加权策略的效果。

最终模型性能的比较

表1展示了这些努力的最终成果。Qwen-REDI-1.5B模型,仅在131k个开放数据点上训练,实现了83.1%的MATH-500分数(pass@1)。这一性能与在800k专有数据上训练的DeepSeek-R1-Distill-Qwen-1.5B相当或超过,在各种数学推理基准测试中取得了优异成绩,为使用公开可用数据离线后训练的1.5B模型树立了新的标准。

值得注意的是,REDI不仅提高了pass@1性能,还维持或提高了多个基准测试的pass@16分数。这表明REDI的离线优化并不仅仅过度优化一组高概率解决方案,而是真正提高了模型的整体问题解决能力。

五、REDI如何改变游戏规则?

强化蒸馏(REDI)方法就像给语言模型提供了一个更全面的学习课程,不仅教它"正确的做法",还教它"避免常见错误"。这种方法的创新之处在于:

1. 高效利用数据:REDI充分利用了传统方法中被丢弃的负面示例,从教师模型生成的每一条数据中提取价值。

2. 平衡性能与稳定性:通过非对称加权(α<1.0),REDI找到了一种在保持训练稳定性的同时提高峰值性能的方法。

3. 无需在线交互:与需要昂贵在线交互的强化学习方法不同,REDI在离线环境中工作,使其更经济且易于实施。

4. 更小模型的强大性能:研究表明,即使是较小的1.5B参数模型,通过REDI也能实现与更大模型相当的推理能力。

5. 更好的未来在线RL准备:通过保持或提高pass@16分数,REDI训练的模型似乎更适合后续通过在线强化学习获得性能提升。

这种方法不仅提高了模型性能,还可能影响我们对知识传递的思考方式。就像在人类教育中,了解常见错误和失败案例可以深化理解,REDI展示了在AI训练中负面例子的教育价值。

六、未来展望与结论

强化蒸馏(REDI)为训练更小、更高效的语言模型开辟了一条新路径。通过有效利用正面和负面蒸馏推理轨迹,REDI使小型模型能够更接近大型推理模型的能力,但计算需求显著降低。

虽然本研究主要集中在数学推理上,但REDI框架可能适用于更广泛的推理任务,如科学问题解决、逻辑推理或复杂决策制定。未来的研究可能会探索REDI在其他领域的应用,以及与在线RL方法的结合可能性。

这项研究的关键贡献在于揭示了失败案例中蕴含的价值。通过将曾经被丢弃的"错误"转化为有价值的学习信号,REDI框架提供了一种更高效、更全面的知识传递方法。这不仅是一项技术创新,也是对教与学本质的深刻洞察——有时,知道"为什么不行"与知道"怎样做对"同样重要。

对于AI研究社区和更广泛的科技领域,这一发现提示我们重新思考如何看待失败和错误。也许,就像REDI所证明的那样,我们最大的进步可能来自于我们如何处理和学习失败的经验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
因眼红《阿嬷》,山寨版电影《给阿公的牛肉丸》开机,成全网笑柄

因眼红《阿嬷》,山寨版电影《给阿公的牛肉丸》开机,成全网笑柄

糊咖娱乐
2026-06-30 18:28:42
天热了,除了西瓜黄瓜多吃它!一次煮好存冰箱,随吃随取,特省事

天热了,除了西瓜黄瓜多吃它!一次煮好存冰箱,随吃随取,特省事

江江食研社
2026-06-28 17:30:12
法尔克:在德国本土,图赫尔永远活在克洛普的光环之下

法尔克:在德国本土,图赫尔永远活在克洛普的光环之下

懂球帝
2026-06-30 23:45:06
中超第17轮,辽宁铁人-重庆铜梁龙,前瞻:新军对决

中超第17轮,辽宁铁人-重庆铜梁龙,前瞻:新军对决

足坛超短波
2026-06-30 07:15:07
3363万元!华润新能源网上弃购金额创年内新高

3363万元!华润新能源网上弃购金额创年内新高

每日经济新闻
2026-06-30 23:24:03
名记:骑士有意再次迎回詹姆斯,希望他能在克利夫兰退役

名记:骑士有意再次迎回詹姆斯,希望他能在克利夫兰退役

懂球帝
2026-07-01 00:49:17
我捐的钱,为啥不能救我?为啥要替政府补窟窿?

我捐的钱,为啥不能救我?为啥要替政府补窟窿?

鲁八两
2026-06-30 18:50:08
当年,新中国是如何将内蒙古从“梅毒王国”里解救出来的?

当年,新中国是如何将内蒙古从“梅毒王国”里解救出来的?

阿胡
2026-03-18 11:41:24
走面风波升级,“一言不发”的冯小刚,终于不再顾及所谓的体面!

走面风波升级,“一言不发”的冯小刚,终于不再顾及所谓的体面!

摸爬滚打的烙印
2026-06-29 07:20:54
资治通鉴大智慧:说话带刺的人,再善良也要果断远离

资治通鉴大智慧:说话带刺的人,再善良也要果断远离

爱下厨的阿酾
2026-07-01 00:42:00
为执教广东队铺路?CBA最大黑马主帅确认离队,本赛季打爆京沪厦

为执教广东队铺路?CBA最大黑马主帅确认离队,本赛季打爆京沪厦

绯雨儿
2026-06-30 11:53:07
绝不退让!委内瑞拉反对派领袖誓要归国,遭当局严防死守

绝不退让!委内瑞拉反对派领袖誓要归国,遭当局严防死守

淡淡稻花香s
2026-06-30 18:35:22
“为钱玩命的傻瓜用完了!”前线军人道破真相:克里姆林宫只剩两条路?

“为钱玩命的傻瓜用完了!”前线军人道破真相:克里姆林宫只剩两条路?

荷兰豆爱健康
2026-06-28 10:15:29
苏州一股民刘某4.8元买入退市创兴,3个月后打开账户发现退市了。

苏州一股民刘某4.8元买入退市创兴,3个月后打开账户发现退市了。

财经智多星
2026-06-30 14:04:29
不宣而战,以色列发起“斩首行动”,特朗普态度转变,英法或出兵

不宣而战,以色列发起“斩首行动”,特朗普态度转变,英法或出兵

健身狂人
2026-06-30 15:31:05
6分钟翻车!阿尔巴尼亚总理怼女记者“胡说八道”,引起民众不满

6分钟翻车!阿尔巴尼亚总理怼女记者“胡说八道”,引起民众不满

新姐看世界
2026-06-29 18:48:00
前克林顿政府官员公开发声,剑指特朗普政府:必须逮捕马斯克

前克林顿政府官员公开发声,剑指特朗普政府:必须逮捕马斯克

云上乌托邦
2026-06-29 21:05:02
河南81岁菜农被博主买下所有菜后,回家路上遇车祸离世,博主自责,老人孙子力挺:爷爷因丧女抑郁多年,他做的是好事,正等待车祸调查结果

河南81岁菜农被博主买下所有菜后,回家路上遇车祸离世,博主自责,老人孙子力挺:爷爷因丧女抑郁多年,他做的是好事,正等待车祸调查结果

极目新闻
2026-06-30 17:03:39
被大佬当“玩物”、孕期注射药物百次,最美“三圣母”竟落魄至此

被大佬当“玩物”、孕期注射药物百次,最美“三圣母”竟落魄至此

青橘罐头
2026-06-28 10:00:59
比赛还剩5天,成都蓉城却先迎来坏消息,客场打青岛海牛变数大增

比赛还剩5天,成都蓉城却先迎来坏消息,客场打青岛海牛变数大增

零度眼看球
2026-06-30 06:46:11
2026-07-01 01:56:49
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
19741文章数 49712关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

体育要闻

德国足球,脸都不要了

娱乐要闻

黄晓明沦陷!羡慕周杰伦能降住昆凌

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

本地
亲子
家居
艺术
公开课

本地新闻

贵州小城的新目标:举办“村超”世界杯!

亲子要闻

未来5年稳步扩大免费教育范围,探索延长义务教育年限

家居要闻

传奇筑 日常诗

艺术要闻

18幅 现当代著名画家作品

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版