网易首页 > 网易号 > 正文 申请入驻

大模型SFT后效果≠RL潜力!港科大、阿里提出自适应冷启动新范式

0
分享至

来源:市场资讯


本文第一作者是来自香港科技大学的博士生李欣然,并由胡张广达、厦门大学沈思淇副教授、阿里集团陈庆国、徐昭、骆卫华、张凯夫和香港科技大学张军教授合作完成。

自 2025 年以来,强化学习(RL)逐渐成为了大语言模型(LLM)后训练(Post-training)阶段的默认范式。大量研究与实践表明:不依赖海量人工标注,仅靠 RL 就能激发出模型令人惊叹的复杂推理和长思维链(Long-CoT)能力,甚至赋予了模型达成超人类表现的潜力。

然而,尽管强化学习范式提供了极高的理论上限,许多研究者和开发者在复现 RL 训练时却遭遇了现实的问题:如果直接把一个普通的基座模型扔给强化学习算法,由于缺乏方向性的引导,RL 算法往往会像个无头苍蝇一样乱撞,在有限的步数内根本探索不出正确的推理路径。

为了解决这个问题,目前的标准做法是:在 RL 之前,先用少量的优质数据进行监督微调(SFT),给模型做一个「冷启动(Cold-start)」热身,以此提高 RL 阶段的效率。

但这又引出了一个极具争议的新问题:冷启动 SFT 到底要训练到什么程度?SFT 的分数越高,后续的 RL 效果就一定越好吗?

近期,来自香港科技大学、阿里巴巴以及厦门大学的研究团队,联合发表了一项已被 ICLR 2026 接收的重磅研究。他们首次揭示了 SFT 冷启动阶段的一个「致命陷阱」——冷启后表现最好的 Checkpoint,往往并不对应最大的强化学习潜力。

研究团队指出,想要模型最终在后训练整体效果达到最佳,SFT 冷启阶段就不应过度追求测试集准确率,而必须兼顾准确率与多样性(Diversity)。基于此,团队提出了一种全新的自适应早停损失函数(AESL),为大模型的 RL 训练打造了最完美的起跑线。

目前,该论文的代码已全面开源。


  • 论文标题:GETTING YOUR LLMS READY FOR REINFORCEMENT LEARNING WITH LIGHTWEIGHT SFT

  • 论文链接:https://openreview.net/pdf?id=yezWGJmODg

  • 代码主页:https://github.com/LXXXXR/AESL

一个反直觉的真相:

「好学生」反而跑不远?

在传统认知里,SFT 的目标是让模型完美模仿训练数据。损失(Loss)越低、准确率越高,说明学得越好。但研究团队发现了一个极度反直觉的现象:把 SFT 阶段评估性能最好的 Checkpoint 拿去跑 RL,最终成绩往往不是最好的,甚至会倒退!

为什么会「南辕北辙」?

研究人员指出,这主要是因为「作为 RL 冷启动的 SFT」与「单纯的 SFT」在核心目标上存在根本分歧。

在以往只依靠 SFT 的后训练范式中,目的是尽可能多地从数据集中学习,且数据集往往充足且丰富,因此传统的交叉熵(CE)损失完美契合这一目标。但在作为 RL 准备的冷启动阶段,情况发生了变化:

  • 数据量有限:过度优化会导致模型过拟合(Overfit),变成单纯「背诵」小数据集。

  • 探索与利用的失衡:RL 算法的成功高度依赖于「探索(Exploration)」与「利用(Exploitation)」的平衡。如果模型在进入 RL 阶段之前就丢失了输出的多样性,RL 阶段就会因为探索空间不足,导致最终效果大打折扣。

我们可以打个比方:基座模型就像是一个充满想象力但缺乏解题套路的孩子。SFT 冷启动的目的,是为了教他一些基本的解题格式(比如长思维链的思考模式)。但是,如果 SFT 训练过度,传统的交叉熵损失函数会强迫模型「死记硬背」演示数据中的每一个细节。模型虽然学会了套路,却丢失了原本丰富的知识分布和生成多样性。当这个「做题机器」进入 RL 阶段时,它已失去探索新路径的能力,RL 的上限就被死死锁住了。


图1:研究团队发现,随着 SFT 步数的增加,模型在验证集上的性能(黄线)还在上升,但经过 RL 训练后的最终潜力(蓝线)却早早开始下滑。

破局关键:

寻找「多样性」的黄金拐点

既然准确率不能作为 SFT 冷启动停止的标准,那我们该看什么?

研究团队将目光投向了「输出多样性」,追踪了模型在冷启动训练过程中的熵(Entropy)和 self-BLEU 分数。

奇妙的现象出现了:在 SFT 的早期,模型在学习新推理格式的同时,还保留着基座的原始知识,此时模型的多样性会达到一个峰值。而随着训练继续,模型开始过拟合,多样性迅速暴跌。

这个多样性的「黄金拐点」,恰恰就对应着模型 RL 潜力的最高点!



冷启动过程中的多样性指标变化。多样性达到顶峰的时刻,正是开启 RL 训练的最佳时机。

基于这一洞察,最简单的改进方法就是「基于多样性早停(Diversity-based Early Stopping)」。但这还不够完美,因为「一刀切」的全局早停忽略了一个事实:模型对不同 Token 和不同上下文的掌握速度是完全不同的。

AESL:深入大模型

「毛细血管」的自适应冷启动

为了实现更灵活、更极致的冷启动,研究团队改进了传统的交叉熵损失,提出了一种全新的轻量级训练目标——自适应早停损失(Adaptive Early-Stop Loss,简称 AESL)。

AESL 的核心数学表达如下:


其中的自适应权重定义为:


AESL 的核心哲学是「因材施教」:它不再盲目要求模型在所有地方都完美拟合演示数据,而是在 Token 和子序列(Subsequence)两个微观层面上,动态调节学习的力度。

  • Token 级别的调控

生成每个词时,如果模型当前预测概率已经很高,AESL 会自动降低该 Token 的损失权重。就像告诉模型:「这道题你已经会了,不用反复抄写,保留你原本的直觉吧。」这有效防止了对特定词汇的过拟合。

  • Subsequence 级别的调控

AESL 会实时计算当前生成前缀的平均置信度。如果前半句话已经非常符合目标分布,AESL 会在后续生成中放宽限制。就像走迷宫:前面走对了方向,后面就可以大胆探索;前面不确定,后面就老实跟着指示走。

通过这种精细的动态平衡,AESL 成功地让模型在「学会长思维链推理模式」和「保留基座原始探索能力」之间,找到了完美的平衡点。

以退为进:更优的 RL 后性能

研究团队在极具挑战性的数学推理任务上进行了大规模实验。选用了 Qwen2.5-7B-Instruct、Qwen2.5-Math-7B 及 Llama-3.1-8B-Instruct 作为基座,在 AIME 24/25、AMC 23、MATH-500 等榜单上进行了测试。

结果令人振奋:无论是在哪种基座模型上,使用 AESL 作为冷启动策略,其后续经过 RL 训练的最终性能,全面碾压了直接 RL、标准 CE 损失 SFT 以及现有的其他前沿方法。AESL 真正做到了「赢在起跑线」。


在 Qwen2.5 系列模型上,AESL + RL 的组合在各项数学竞赛级榜单中均取得了最高平均分。

此外,研究团队还测试了不同数据量以及不同难度数据切分下的表现。结果证明,无论数据多寡、无论数据难易,AESL 都能稳定发挥,始终提供优于传统方法的 RL 潜力。



结语:重塑我们对「后训练」的认知

在通往 AGI 的征程上,强化学习(RL)无疑是极具潜力的一条道路,因为它具有其他范式所没有的「超越人类本身能力」的潜力。

但比起传统的监督学习,RL 的过程更加复杂,特别是需要注意探索(Exploration)和利用(Exploitation)的平衡。而探索的能力,本质上来源于模型的基础能力和它产生多种「Educated Guess(有根据的猜测)」的能力,因此保持输出多样性至关重要。

ICLR 2026 的这项研究给我们敲响了警钟:多样性的丢失,甚至可能早于 RL 阶段的开始。因此,我们需要在后训练的每一个环节都对多样性保持敬畏。

AESL 的提出,不仅仅是一个损失函数的改进,更是一次对 LLM 后训练范式的认知刷新。它打破了「SFT 拟合越好越好」的迷思,证明了在冷启动阶段,「保持多样性」比「满分模仿」在后续的 RL 训练中更具长期价值。

未来,我们相信在从 SFT 到 RL 范式的转变过程中,会有更多的研究去探索这两种范式带来的根本不同。而 AESL,无疑为这场探索提供了一个绝佳的起点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
91年,我咒初中男同学将来娶个母老虎,不料十年后,我们成了夫妻

91年,我咒初中男同学将来娶个母老虎,不料十年后,我们成了夫妻

农村情感故事
2026-03-18 07:24:59
全线大涨!刚刚,伊朗重磅发声!

全线大涨!刚刚,伊朗重磅发声!

新浪财经
2026-04-06 20:39:04
伊朗威胁炸毁以色列和美军基地油气设施,中东能源命脉面临重击

伊朗威胁炸毁以色列和美军基地油气设施,中东能源命脉面临重击

桂系007
2026-04-07 21:05:33
德科拍板!巴萨两大球员今夏必走套现,拉什福德买断彻底没戏

德科拍板!巴萨两大球员今夏必走套现,拉什福德买断彻底没戏

夜白侃球
2026-04-07 11:10:14
专家警告:每天吃一根香蕉,或等于给血脂“上锁”?真相来了

专家警告:每天吃一根香蕉,或等于给血脂“上锁”?真相来了

观星赏月
2026-04-07 16:56:34
伊朗首都响起密集爆炸声

伊朗首都响起密集爆炸声

环球网资讯
2026-04-07 16:50:52
越南政坛大洗牌!第16届国会开幕,13位重量级人物“意外”落选

越南政坛大洗牌!第16届国会开幕,13位重量级人物“意外”落选

缅甸中文网
2026-04-06 13:13:38
国足又迎喜讯!24岁华裔悍将愿意归化,但提了一个条件,不算过分

国足又迎喜讯!24岁华裔悍将愿意归化,但提了一个条件,不算过分

零度眼看球
2026-04-07 06:48:41
10个“不行”的男人有8个会去p?原因竟是……

10个“不行”的男人有8个会去p?原因竟是……

性学研究僧
2026-04-07 19:45:45
医生提醒:只要血压没超过这个值,不必过度吃药,千万别害了自己

医生提醒:只要血压没超过这个值,不必过度吃药,千万别害了自己

垚垚分享健康
2026-04-06 16:55:07
假如在澳门赌场赢了600万,突然收手准备走人,会有什么下场吗?

假如在澳门赌场赢了600万,突然收手准备走人,会有什么下场吗?

壹知眠羊
2026-04-07 07:23:38
张雪母亲是一名作家,发文讲述母子故事:抵押房子贷款55万帮儿子创业,张雪骑车撞人她赔了3万多

张雪母亲是一名作家,发文讲述母子故事:抵押房子贷款55万帮儿子创业,张雪骑车撞人她赔了3万多

极目新闻
2026-04-07 15:59:36
41岁男足传奇名宿:定居广东,已是大老板,央视编导妻子气质出众

41岁男足传奇名宿:定居广东,已是大老板,央视编导妻子气质出众

揽星河的笔记
2026-04-07 15:30:34
张本智和这段采访的含金量还在上升,他评价松岛和王楚钦很到位

张本智和这段采访的含金量还在上升,他评价松岛和王楚钦很到位

李汪手工制作
2026-04-07 08:58:14
复活节的沉默:英国王室信仰天平的倾斜与文明退却

复活节的沉默:英国王室信仰天平的倾斜与文明退却

斌闻天下
2026-04-07 07:30:03
冠心病去世的人越来越多?医生强调:宁可打打牌,建议别做这6事

冠心病去世的人越来越多?医生强调:宁可打打牌,建议别做这6事

医学原创故事会
2026-04-07 00:18:03
本赛季至今,约基奇一共拿到33次三双,东契奇8次,那威少呢?

本赛季至今,约基奇一共拿到33次三双,东契奇8次,那威少呢?

兵哥篮球故事
2026-04-07 15:29:49
林彪叛逃后,周恩来嚎啕大哭,纪登奎上前劝说,他却摆手:你不懂

林彪叛逃后,周恩来嚎啕大哭,纪登奎上前劝说,他却摆手:你不懂

历史甄有趣
2026-04-06 09:15:20
评陈光标悼念陈丽华被指“哭错坟”,陈丽华是满族正黄旗

评陈光标悼念陈丽华被指“哭错坟”,陈丽华是满族正黄旗

大中国
2026-04-07 19:38:58
缅甸变天!敏昂莱上位总统,对中国意味着什么?

缅甸变天!敏昂莱上位总统,对中国意味着什么?

古事寻踪记
2026-04-07 07:16:38
2026-04-07 21:48:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2778058文章数 6474关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

台湾一些人被指准备"润" 赖清德曾称儿子在美"学功夫"

头条要闻

台湾一些人被指准备"润" 赖清德曾称儿子在美"学功夫"

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

艺术
手机
亲子
游戏
军事航空

艺术要闻

美丽风光看不尽

手机要闻

4月21日的手机圈,不敢想象会有多刺激

亲子要闻

科普|科学备孕,需要做好哪些孕前检查?

模组救场还是官方重做?GTA4重制版引发玩家激烈争论

军事要闻

美军营救飞行员出动155架飞机

无障碍浏览 进入关怀版