大模型SFT后效果≠RL潜力！港科大、阿里提出自适应冷启动新范式|算法|rl|拟合|sft|阿里巴巴集团

大模型SFT后效果≠RL潜力！港科大、阿里提出自适应冷启动新范式

2026-04-04 18:54:44　来源: 新浪财经

北京举报

分享至

来源：市场资讯

本文第一作者是来自香港科技大学的博士生李欣然，并由胡张广达、厦门大学沈思淇副教授、阿里集团陈庆国、徐昭、骆卫华、张凯夫和香港科技大学张军教授合作完成。

自 2025 年以来，强化学习（RL）逐渐成为了大语言模型（LLM）后训练（Post-training）阶段的默认范式。大量研究与实践表明：不依赖海量人工标注，仅靠 RL 就能激发出模型令人惊叹的复杂推理和长思维链（Long-CoT）能力，甚至赋予了模型达成超人类表现的潜力。

然而，尽管强化学习范式提供了极高的理论上限，许多研究者和开发者在复现 RL 训练时却遭遇了现实的问题：如果直接把一个普通的基座模型扔给强化学习算法，由于缺乏方向性的引导，RL 算法往往会像个无头苍蝇一样乱撞，在有限的步数内根本探索不出正确的推理路径。

为了解决这个问题，目前的标准做法是：在 RL 之前，先用少量的优质数据进行监督微调（SFT），给模型做一个「冷启动（Cold-start）」热身，以此提高 RL 阶段的效率。

但这又引出了一个极具争议的新问题：冷启动 SFT 到底要训练到什么程度？SFT 的分数越高，后续的 RL 效果就一定越好吗？

近期，来自香港科技大学、阿里巴巴以及厦门大学的研究团队，联合发表了一项已被 ICLR 2026 接收的重磅研究。他们首次揭示了 SFT 冷启动阶段的一个「致命陷阱」——冷启后表现最好的 Checkpoint，往往并不对应最大的强化学习潜力。

研究团队指出，想要模型最终在后训练整体效果达到最佳，SFT 冷启阶段就不应过度追求测试集准确率，而必须兼顾准确率与多样性（Diversity）。基于此，团队提出了一种全新的自适应早停损失函数（AESL），为大模型的 RL 训练打造了最完美的起跑线。

目前，该论文的代码已全面开源。

论文标题：GETTING YOUR LLMS READY FOR REINFORCEMENT LEARNING WITH LIGHTWEIGHT SFT
论文链接：https://openreview.net/pdf?id=yezWGJmODg
代码主页：https://github.com/LXXXXR/AESL

一个反直觉的真相：

「好学生」反而跑不远？

在传统认知里，SFT 的目标是让模型完美模仿训练数据。损失（Loss）越低、准确率越高，说明学得越好。但研究团队发现了一个极度反直觉的现象：把 SFT 阶段评估性能最好的 Checkpoint 拿去跑 RL，最终成绩往往不是最好的，甚至会倒退！

为什么会「南辕北辙」？

研究人员指出，这主要是因为「作为 RL 冷启动的 SFT」与「单纯的 SFT」在核心目标上存在根本分歧。

在以往只依靠 SFT 的后训练范式中，目的是尽可能多地从数据集中学习，且数据集往往充足且丰富，因此传统的交叉熵（CE）损失完美契合这一目标。但在作为 RL 准备的冷启动阶段，情况发生了变化：

数据量有限：过度优化会导致模型过拟合（Overfit），变成单纯「背诵」小数据集。

探索与利用的失衡：RL 算法的成功高度依赖于「探索（Exploration）」与「利用（Exploitation）」的平衡。如果模型在进入 RL 阶段之前就丢失了输出的多样性，RL 阶段就会因为探索空间不足，导致最终效果大打折扣。

我们可以打个比方：基座模型就像是一个充满想象力但缺乏解题套路的孩子。SFT 冷启动的目的，是为了教他一些基本的解题格式（比如长思维链的思考模式）。但是，如果 SFT 训练过度，传统的交叉熵损失函数会强迫模型「死记硬背」演示数据中的每一个细节。模型虽然学会了套路，却丢失了原本丰富的知识分布和生成多样性。当这个「做题机器」进入 RL 阶段时，它已失去探索新路径的能力，RL 的上限就被死死锁住了。

图1：研究团队发现，随着 SFT 步数的增加，模型在验证集上的性能（黄线）还在上升，但经过 RL 训练后的最终潜力（蓝线）却早早开始下滑。

破局关键：

寻找「多样性」的黄金拐点

既然准确率不能作为 SFT 冷启动停止的标准，那我们该看什么？

研究团队将目光投向了「输出多样性」，追踪了模型在冷启动训练过程中的熵（Entropy）和 self-BLEU 分数。

奇妙的现象出现了：在 SFT 的早期，模型在学习新推理格式的同时，还保留着基座的原始知识，此时模型的多样性会达到一个峰值。而随着训练继续，模型开始过拟合，多样性迅速暴跌。

这个多样性的「黄金拐点」，恰恰就对应着模型 RL 潜力的最高点！

冷启动过程中的多样性指标变化。多样性达到顶峰的时刻，正是开启 RL 训练的最佳时机。

基于这一洞察，最简单的改进方法就是「基于多样性早停（Diversity-based Early Stopping）」。但这还不够完美，因为「一刀切」的全局早停忽略了一个事实：模型对不同 Token 和不同上下文的掌握速度是完全不同的。

AESL：深入大模型

「毛细血管」的自适应冷启动

为了实现更灵活、更极致的冷启动，研究团队改进了传统的交叉熵损失，提出了一种全新的轻量级训练目标——自适应早停损失（Adaptive Early-Stop Loss，简称 AESL）。

AESL 的核心数学表达如下：

其中的自适应权重定义为：

AESL 的核心哲学是「因材施教」：它不再盲目要求模型在所有地方都完美拟合演示数据，而是在 Token 和子序列（Subsequence）两个微观层面上，动态调节学习的力度。

Token 级别的调控

生成每个词时，如果模型当前预测概率已经很高，AESL 会自动降低该 Token 的损失权重。就像告诉模型：「这道题你已经会了，不用反复抄写，保留你原本的直觉吧。」这有效防止了对特定词汇的过拟合。

Subsequence 级别的调控

AESL 会实时计算当前生成前缀的平均置信度。如果前半句话已经非常符合目标分布，AESL 会在后续生成中放宽限制。就像走迷宫：前面走对了方向，后面就可以大胆探索；前面不确定，后面就老实跟着指示走。

通过这种精细的动态平衡，AESL 成功地让模型在「学会长思维链推理模式」和「保留基座原始探索能力」之间，找到了完美的平衡点。

以退为进：更优的 RL 后性能

研究团队在极具挑战性的数学推理任务上进行了大规模实验。选用了 Qwen2.5-7B-Instruct、Qwen2.5-Math-7B 及 Llama-3.1-8B-Instruct 作为基座，在 AIME 24/25、AMC 23、MATH-500 等榜单上进行了测试。

结果令人振奋：无论是在哪种基座模型上，使用 AESL 作为冷启动策略，其后续经过 RL 训练的最终性能，全面碾压了直接 RL、标准 CE 损失 SFT 以及现有的其他前沿方法。AESL 真正做到了「赢在起跑线」。

在 Qwen2.5 系列模型上，AESL + RL 的组合在各项数学竞赛级榜单中均取得了最高平均分。

此外，研究团队还测试了不同数据量以及不同难度数据切分下的表现。结果证明，无论数据多寡、无论数据难易，AESL 都能稳定发挥，始终提供优于传统方法的 RL 潜力。

结语：重塑我们对「后训练」的认知

在通往 AGI 的征程上，强化学习（RL）无疑是极具潜力的一条道路，因为它具有其他范式所没有的「超越人类本身能力」的潜力。

但比起传统的监督学习，RL 的过程更加复杂，特别是需要注意探索（Exploration）和利用（Exploitation）的平衡。而探索的能力，本质上来源于模型的基础能力和它产生多种「Educated Guess（有根据的猜测）」的能力，因此保持输出多样性至关重要。

ICLR 2026 的这项研究给我们敲响了警钟：多样性的丢失，甚至可能早于 RL 阶段的开始。因此，我们需要在后训练的每一个环节都对多样性保持敬畏。

AESL 的提出，不仅仅是一个损失函数的改进，更是一次对 LLM 后训练范式的认知刷新。它打破了「SFT 拟合越好越好」的迷思，证明了在冷启动阶段，「保持多样性」比「满分模仿」在后续的 RL 训练中更具长期价值。

未来，我们相信在从 SFT 到 RL 范式的转变过程中，会有更多的研究去探索这两种范式带来的根本不同。而 AESL，无疑为这场探索提供了一个绝佳的起点。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.