网易首页 > 网易号 > 正文 申请入驻

SFT并非必需!推理模型仅靠RL就能获得长思维链能力|清华CMU团队

0
分享至

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

DeepSeek-R1慢思考、长推理的表现,展现了训练步骤增加,会导致长CoT的涌现。

它通过模拟人类思维逐步推导答案,提升了AI大模型的推理能力和可解释性。

但长CoT的触发条件是什么?怎么做能优化它?像个黑盒,还没研究明白。

来自清华、CMU和IN.AI的研究团队,近期专门探究了长CoT在大模型中的工作机制和优化策略。

先把该研究得出的4点发现给大家呈上来:

  • SFT并非必需,但能简化训练并提高效率;
  • 推理能力随着训练计算的增加而出现,但并非总是如此;
  • 可验证奖励函数对增长CoT至关重要;
  • 纠错等核心能力基础模型天生自带,但通过RL有效地激励这些技能需要大量的计算。

这篇论文开始被网友疯转,并被感慨道:这可太酷啦!

还有网友表示,不出所料,奖励函数果然很重要

从SFT和RL两方面研究长CoT

研究团队明确表示:

我们的目标是揭开大模型中长CoT推理的神秘面纱。
通过系统分析和消融,提取关键见解,并提供实用策略来增强和稳定其性能。

团队采用了2款基础模型:

  • Llama-3.1-8B:来自Meta,是具有代表性的通用模型。
  • Qwen2.5-7B-Math:来自阿里通义,是具有代表性的数学专业模型。

同时采用了4个代表性推理基准:

MATH-500、AIME 2024、TheoremQA和MMLU-Pro-1k。

默认情况下,温度t=0.7、顶部−p值=0.95,最大输出长度=16384 tokens。

而具体过程,从SFT(监督微调)和RL(强化学习)两方面下手。

研究人员默认使用MATH的7500个训练样本提示集来提供可验证的真值答案。

SFT对长CoT的影响

团队首先探究了SFT对长CoT的影响。

通过在长CoT数据上进行SFT,模型能够学习到更复杂的推理模式。

但目前而言,短CoT更为常见,这就意味着针对其收集SFT数据相对简单。

鉴于此,团队选择用阿里通义的QwQ-32B-Preview来提炼长CoT,用阿里通义的Qwen2.5-Math-72B-Struct来提炼短CoT

具体来说,研究人员先对每个prompt的N个候选响应进行采样,然后筛选出具有正确答案的响应。

对于长CoT,使用N∈{32, 64, 128, 192, 256};对于短CoT,使用N∈{32, 64, 128, 256},(此处为了提高效率跳过了一个N)。

在每种情况下, SFT标记的数量都与N成正比。

如下图虚线所示,随着扩大SFT的token,对长CoT进行SFT,会继续提高模型准确性;而对短CoT来说,SFT带来的效益在很早就达到饱和。

譬如在MATH-500上,长CoT SFT的准确率超过70%,tokens达到3.5B时仍然没有进入瓶颈期。

相比之下,短CoT SFT的tokens从约0.25B增加到1.5B,准确率仅产生了3%的增长。

实验结果显示,长CoT SFT能够显著提高模型的性能上限。

而且,在达到更高性能的同时,还有比短CoT更高的性能拓展空间。

RL对长CoT的影响

由于业内普遍认为RL的上限高于SFT,团队将长CoT和短CoT视为针对RL的不同SFT初始化方法进行比较。

研究人员使用SFT检查点来初始化RL,并训练了四个epoch,每个prompt生成四个响应。

此外,团队把PPO和来自MATH数据集的基于规则的验证器训练拆分,作为RL的提示集。

具体结果同样在下图中显示出来:

图中实线和虚线之间的间隙表明,使用长CoT SFT初始化的模型通常可以通过RL进一步显著改进,而使用短CoT SFT初始化的模型从RL中获得的收益很小。

例如,在MATH-500上,RL可以将长CoT SFT模型绝对改进3%以上,而短CoT SFT模型在RL前后的精度几乎相同。

需要注意的是,RL并不总是能够稳定地扩展思维链的长度和复杂性。

为此,研究团队引入了一种带有重复惩罚的余弦长度缩放奖励机制,有效稳定了思维链的增长,并鼓励模型在推理过程中进行分支和回溯。

整理长CoT数据

除上述研究外,为了整理长CoT数据,研究团队比较了两种方法。

一种是通过提示短CoT模型,生成原始动作,并按顺序组合它们,以此构建长CoT轨迹

另一种是从现有的长CoT模型中提炼出长CoT轨迹——这些模型表现出涌现长CoT(emergent long CoT)。

结果表明,从涌现长CoT模式中提炼出来的模型,比构建的模式泛化得更好,并且可以用RL进一步显著改进。

在构建模式上训练的模型则不能做到这一点。

此外,由于DeepSeek-R1已经证明,在基础模型上扩展RL计算可以出现长CoT,自我验证行为有时会被模型的探索标记为紧急行为或 “顿悟时刻”。

这种模式在短CoT数据中很少见,但研究人员注意到,有时基座模型已经存在自我验证行为,而用RL强化这些行为需要严苛的条件。

如下图所示,Qwen2.5Math-7B的RL有效地提高了准确性,但没有增加基础模型输出中存在的 “recheck” 模式的频率,也没有有效地激励其他反射模式,如 “retry” 和 “alternatively”。

这表明尽管提高性能效果显著,但来自基座模型的RL不一定会激励反射模式。

四个关键发现

在系统性研究了长CoT推理的机制后,团队提出了4个关键发现。

第一,SFT并非必需,但能简化训练并提高效率。

虽然SFT并非训练长CoT的必要条件,但它能够有效地初始化模型,并为后续的RL训练提供坚实的基础。

第二,推理能力随着训练计算的增加而出现,但并非总是如此。

长CoT的出现并非必然,且朴素的RL方法并不总是能有效地延长CoT长度。

需要通过奖励塑造等技巧来稳定CoT长度的增长,团队的做法是引入了一种余弦长度缩放奖励,并加入了重复惩罚,这既平衡了推理深度,又防止了无意义的长度增加。

第三,可验证奖励函数对CoT扩展至关重要。

由于高质量、可验证数据稀缺,扩展可验证奖励函数对RL至关重要。

论文探索了利用网络提取的包含噪声解决方案的数据,并发现这种“银色”监督信号在RL中展现出巨大的潜力,尤其是在处理OOO任务(如STEM推理)时。

第四,基模型中天生存在错误修正和回溯等技能,但通过RL有效地激励这些技能需要大量的计算。

而测量这些能力的出现需要更精细的方法,需要谨慎设计RL激励。

最后,研究团队提出了几个未来的研究方向,包括:

扩大模型规模、改进RL基础设施、探索更有效的验证信号以及深入分析基础模型中的潜在能力。

这些方向有望进一步推动长CoT在大模型中的应用。

参考链接:
[1]https://arxiv.org/abs/2502.03373
[2]https://x.com/omarsar0/status/1887984076939841867

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央媒发话,房子是最大资产,2026房地产要下猛药了?

央媒发话,房子是最大资产,2026房地产要下猛药了?

毒sir财经
2026-03-24 23:51:50
伊朗警告“某地区国家”,不要怂恿美军夺岛,否则炸你们家油田

伊朗警告“某地区国家”,不要怂恿美军夺岛,否则炸你们家油田

强军路
2026-03-26 18:21:43
日媒:政府出手后,日本汽油价已降至7.71元/升

日媒:政府出手后,日本汽油价已降至7.71元/升

随波荡漾的漂流瓶
2026-03-25 15:39:49
马斯克放出Optimus最新视频,称有望在今年夏季启动量产

马斯克放出Optimus最新视频,称有望在今年夏季启动量产

华尔街见闻官方
2026-03-26 14:11:25
中方未收道歉,日本自卫官被转移,沉默24小时后,小泉进次郎发文

中方未收道歉,日本自卫官被转移,沉默24小时后,小泉进次郎发文

黑鹰观军事
2026-03-26 18:06:35
国家发改委正式批复这条新建高铁,事关西安东出大通道!

国家发改委正式批复这条新建高铁,事关西安东出大通道!

荣耀西安网
2026-03-26 18:10:49
4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

通鉴史智
2026-03-15 11:45:00
马英九基金会风波彻底失控!为何蔡正元两个词点透本质?

马英九基金会风波彻底失控!为何蔡正元两个词点透本质?

时尚的弄潮
2026-03-26 13:50:39
事关美国对伊朗动武,外媒最新爆料

事关美国对伊朗动武,外媒最新爆料

环球时报国际
2026-03-25 15:21:08
被伊朗打疼了?美国、以色列一边要求停火30天,一边密集调动特种部队!

被伊朗打疼了?美国、以色列一边要求停火30天,一边密集调动特种部队!

军武速递
2026-03-25 19:58:19
委内瑞拉代总统豁出去了!派代表团访美,关系能否破冰?

委内瑞拉代总统豁出去了!派代表团访美,关系能否破冰?

爱看剧的阿峰
2026-03-26 18:07:56
张雪峰走了,他公司所在的这栋楼高177.8米,耗资超10亿!

张雪峰走了,他公司所在的这栋楼高177.8米,耗资超10亿!

GA环球建筑
2026-03-26 01:37:19
张雪峰生前忠告:普通学生不要碰的20个专业,大家千万别忘记!

张雪峰生前忠告:普通学生不要碰的20个专业,大家千万别忘记!

教育导向分享
2026-03-25 22:28:37
美伊冲突,已经出现了3个赢家,10个输家,都是谁?

美伊冲突,已经出现了3个赢家,10个输家,都是谁?

七号说三国
2026-03-25 21:11:29
老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

小羽叨叨叨
2026-03-26 13:24:34
性商教母复出,周媛换平台直播,狡辩称没有违法,火速被封

性商教母复出,周媛换平台直播,狡辩称没有违法,火速被封

非常先生看娱乐
2026-03-26 16:57:03
克拉拉擦边香艳床戏包贝尔再演坏淫!这部网大爽得太肤浅

克拉拉擦边香艳床戏包贝尔再演坏淫!这部网大爽得太肤浅

释凡电影
2026-03-24 04:57:40
黄瓜开始上市!医生再三强调:糖尿病患者吃黄瓜,多注意这几点!

黄瓜开始上市!医生再三强调:糖尿病患者吃黄瓜,多注意这几点!

王二哥老搞笑
2026-03-26 17:50:29
等了8年,青岛这条“土豪线”终于要通了!五四广场50分钟到机场

等了8年,青岛这条“土豪线”终于要通了!五四广场50分钟到机场

苗苗情感说
2026-03-26 16:47:34
拖垮一个普通家庭,只需要一台20万的车。

拖垮一个普通家庭,只需要一台20万的车。

老陆不老
2026-03-24 20:20:23
2026-03-26 19:31:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
亲子
时尚
数码
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

上海美华妇儿医院"康复中心"完成全面升级并正式焕新启幕

皮衣+裙,高级到炸

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版