UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解|实验|sft|token|亚马逊公司|amazon|深度思考模型

分享至

在大模型微调实践中，SFT（监督微调）几乎成为主流流程的一部分，被广泛应用于各类下游任务和专用场景。比如，在医疗领域，研究人员往往会用领域专属数据对大模型进行微调，从而显著提升模型在该领域特定任务上的表现。

然而，问题随之而来：SFT 是否会让模型 “遗忘” 原本的通用能力？过去的研究中，不少文献指出，领域微调固然能带来专用性能的提升，但代价是模型在数学推理、代码生成、指令跟随等通用 benchmark 上出现显著退化。这种现象被广泛称为 “灾难性遗忘”。然而，这一长期流传的看法或许值得重新审视。

来自 UIUC、Amazon、UT Austin 以及 University at Buffalo 的研究团队最新发布的一项工作就给出了不同的答案。研究表明，领域特定的 SFT 并不总是会严重削弱模型的通用能力。相反，在训练中采用更小的学习率，模型就可能在两方面取得平衡：

在通用任务上的能力遗忘被大幅缓解；
在目标领域上的表现依然与大学习率相当。

换句话说，遗忘问题可能更多源于训练策略的选择，而不是单单 SFT 这一范式本身。

论文标题：SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs
论文地址：https://arxiv.org/pdf/2509.20758

一句话概括：稍微更小的学习率能大幅度缓解遗忘，TALR 则是进一步平衡的利器。

实验细节：重新审视学习率对 SFT 带来的影响

实验设置

任务与数据。领域侧选择两个现实强相关的场景和领域专属数据集：MedCalc 和 ESCI。选择这两个数据集的原因在于它们代表了开源 LLM 在现实应用中表现最薄弱的场景，因此也是最有必要做 domain-specific SFT 的场合。

MedCalc（医疗推理）：10.1k 训练 / 1.05k 测试，每条样本含患者笔记与临床指令；SFT 学习的目标为 “推理过程（CoT）+ 最终答案”。指标用 Accuracy。
ESCI（电商商品多分类问题）：49k 训练 / 10k 测试，四类标签（Exact/Substitute/Complement/Irrelevant）。设置分 w/ CoT（推理 + 标签）与 w/o CoT（仅标签）两种；主指标用 Balanced Accuracy (BACC) 以应对类别不均衡。

模型与评测

选取多种规模 / 家族的开源 LLM 做实验：Qwen3-8B、Qwen2.5-7B、Qwen2.5-3B、Qwen3-4B、Gemma3-4B、Gemma3-1B 的 Instruct 模型。统一采用监督微调（SFT），核心控制变量是学习率（lr），取 1e-6 / 5e-6 / 2e-5 三档，其他训练超参遵循常规 SFT 实践。

SFT 完成后，在不同 lr 下先以目标领域指标挑选最佳 checkpoint，再用IFEval（指令跟随）/ GSM8K（数学）/ HumanEval（代码）进行 “通用能力” 评测，报告三者的均值作为总分（General performance）。这一流程贴近 “实际落地优先领域效果、随后回看通用能力” 的场景。

实验结果

实验结果如图所示。每个点表示某一 lr 下的（Domain performance，General performance）二元坐标；灰色 “Init” 星形代表微调前的模型性能。

研究发现一：更小的学习率带来更优折中

在 MedCalc 和 ESCI 上，使用更小的学习率（如 1e-6）时，模型能同时保持目标领域的强性能，并显著减轻通用能力的下降。换句话说，灾难性遗忘可以通过学习率控制来大幅度缓解。

研究发现二：对于分类问题，仅分类标签监督放宽了学习率约束

当训练目标只包含最终标签（不需要中间推理链）时，实现理想折中的学习率范围会更宽。在 ESCI (w/o CoT) 的设定下，学习率 5e-6 甚至能表现得和 1e-6 一样好，这与其他情况形成鲜明对比。

作者进一步在大规模数据集 MetaMathQA 上进行实验。MetaMathQA 是一个大规模数学推理数据集，包含395k 条训练样本。实验采用DeepSeek-Coder-7B作为基础模型。这一模型在数学推理任务上原本表现相对薄弱，因此是一个理想的测试对象。

在训练过程中，研究团队使用 MetaMathQA 进行监督微调，并将 GSM8K 作为目标领域的评测基准。结果显示，即便在如此大规模的数据条件下，结论依然保持一致：更小的学习率（在这里 5e-6) 能够在保持数学领域性能的同时（相比于大学习率 2e-5)，显著缓解模型在原来擅长的 Coding 能力的退化。换句话说，论文中提出的发现是同样适用于大规模任务与模型的普适规律。

注：这里的学习率大小都是相对的，不同 task 的能够达到最佳平衡的学习率也不同，比如 MedCalc 和 ESCI 是 1e-6，而 MetaMathQA 是 5e-6。在对应的数据集和最佳学习率下，它们都会尽可能抑制通用能力的遗忘，并且取得和更大学习率相匹敌的下游性能。

理论分析

为了更好地解释这些现象，作者团队进一步从理论分析的角度寻找了支撑性的 insight。

他们首先得到了一个关键结论：较小的学习率能够严格收紧通用性能下降的上界。换句话说，使用更小的分布更新步长意味着模型在提升目标领域表现的同时，更有保障地保留住已有的通用能力。这正好与实验中的 Finding 1 相呼应。

紧接着，团队又给出另一条理论解释：当训练目标只包含最终标签时，模型在每个样本中遇到的 “难 token” 数量减少，从而拓宽了可接受的学习率范围。这也就解释了实验中 ESCI (w/o CoT) 的现象 —— 为什么在没有推理链的情况下，较大的学习率（5e-6) 依然能够保持良好的折中效果。这对应着实验中的 Finding 2。

小结与反思

论文在实证和理论分析的基础上指出，小学习率虽然能显著减轻通用能力的下降，但并不能完全消除这一问题。在某些场景下，即便采用了更小的学习率，仍然会观察到一定程度的通用能力的性能退化。同时，较小的学习率虽然在大多数情况下领域性能与较大学习率相差无几，但在某些任务里差距依然不可忽视。这意味着，如果应用场景里必须优先保证目标领域的最高性能，研究者仍然可能选择使用较大的学习率。但随之而来的问题是：更大的学习率几乎必然带来更严重的通用性能下降。因此，开发额外的缓解策略，尤其是在大学习率条件下抑制遗忘，显得同样重要。

为此，作者团队深入探索更佳的策略。从理论分析进一步得到启发，作者发现导致遗忘的关键因素之一是hard tokens（低概率 tokens）—— 它们在训练中的更新幅度往往远大于 easy token，从而对通用能力退化有较大影响。这一观察自然引出了新的思路：可以设计 “token 自适应的 reweighting 策略”，在训练时直接降低 hard token 的损失权重，从而抑制它们对通用能力的过度侵蚀。

Token 自适应 Loss 重加权 (TALR)

方法细节

前面的理论分析已经指出，灾难性遗忘的一个重要来源在于hard token（低概率 token）。一个自然的思路是：在训练时降低这些 hard token 的权重。但问题在于，如何自动识别 hard token，并动态决定它们应该被削弱多少？如果仅仅依赖固定阈值或手工设定参数，不仅缺乏普适性，也难以适配不同模型与任务。

为了解决这个问题，作者团队提出了TALR（Token-Adaptive Loss Reweighting），即通过建立一个约束优化问题进行求解来获得自适应的权重。其核心思想是：根据每个 token 的预测概率，自适应地分配权重；置信度低（概率小）的 token → 权重更小，从而削弱这些 hard token 在训练中的过度梯度贡献。

这种方法通过建立约束优化问题实现，可以得到解析解，训练时在每个 batch 都会动态更新权重，始终与模型的置信度保持一致。

其中，τ 的选取也是自适应的，由在每个 batch 中依据序列平均损失的中位数动态确定。作者指出，这样的自适应 τ 的选取可以取得一致比较好的结果。若固定温度系数 τ 比如 τ=1，则模型会无法学习领域的知识进而在 domain performance 上表现很差。基于此，整体的算法流程如下：

实验结果

研究团队在MedCalc 基准上，系统比较了多种具有代表性的灾难性遗忘缓解策略，包括L2 正则化、LoRA、Wise-FT（模型平均）、FLOW，以及他们新提出的TALR方法。实验在两种学习率设定下展开：较小学习率 (1e-6) 和较大学习率 (5e-6)

小学习率 (1e-6).结果显示，大多数方法在这一设定下表现接近，几乎都聚集在图像右上区域。这说明单纯降低学习率本身，已经能够在保持领域性能的同时，有效缓解通用能力退化。在小学率下，TALR 与其他方法相比差距不大，但依然展现出更稳定、更平滑的折中表现。

大学习率 (5e-6).当学习率升高时，通用性能下降的幅度明显加剧，几乎所有方法的点位整体下移。在这种更具挑战性的情况下，TALR 的优势逐渐凸显：无论在 Qwen2.5-3B 还是 Qwen3-4B 模型上，TALR 都能够实现更优的 Pareto 前沿位置，在保持领域增益的同时，显著减少通用性能的损失。

小结：整体来看，当条件允许时，小学习率本身已能带来可靠的折中效果；但在必须依赖较大学习率以进一步提升领域性能时，TALR 展现出显著优势。然而，现有方法仍无法彻底消除高学习率带来的性能退化，这一现象也揭示出未来研究的重要方向 —— 如何探索更强大的缓解策略，以在大学习率下兼顾领域能力和通用性能。

Token 层面的深入分析

作者进一步从 token-level 对 SFT 进行分析，首先是计算 model 对每个训练的 token 的置信度（概率），计算如下。

多数 token 容易，少数 “难点” 成瓶颈

在更细粒度的 token 层面，研究团队进一步揭示了 SFT 过程中隐藏的现象。结果显示，对于一个只能取得不到 10% 准确率的模型，大多数训练数据中的 token 对模型来说学习难度并不大。换句话说，模型往往能够以较高置信度预测这些 token，尤其是在推理链条的中后段，一旦上下文信息积累到位，LLM 很容易继续生成后续 token。

相比较而言，性能非常差的归因于一小部分 “hard tokens”—— 即模型在预测时置信度较低的 token。这类 token 通常出现在序列的早期位置，或是与特定领域的专业概念相关。例如，在 MedCalc 数据集中，涉及临床单位换算的 token 往往被模型赋予较低概率，这可能是因为相关知识在预训练数据中覆盖不足。这些 “hard tokens” 数量稀少，但却可能成为决定性能的关键瓶颈。

统计分析进一步验证了这一趋势：从箱线图中，对于跨多个模型变体的实验，大部分 token 的概率分布上四分位接近 1，说明模型对大多数 token 的学习信心都很高。但与此同时，模型在 MedCalc 这类专用任务上的零样本表现依旧偏低，凸显了少数高难度 token 的重要性。

TALR 的训练动态：隐含 “课程式” 学习

更有趣的是，研究人员发现 TALR 在训练中自发呈现出一种类似 “课程学习（curriculum learning）” 的机制。具体来说，TALR 会减轻置信度过低 token 的梯度更新幅度，优先让模型通过置信度较高的 token 来驱动优化。随着训练逐步推进，越来越多之前被视为 “难点” 的 token 被纳入大幅度更新范围，训练过程由 “易” 到 “难”，自然形成了一种动态的学习路径。这一发现表明，TALR 不仅能在整体上缓解遗忘，还能在细节上为模型学习构建更合理的节奏，使其逐步掌握领域内的关键知识点。

结论与展望

自从 DeepSeek-R1 火了之后，业界普遍兴起了一股 “RL can solve everything” 的浪潮，很多人认为强化学习才是大模型能力提升的终极解法，而 SFT（监督微调）则显得不那么重要，甚至逐渐被忽视。事实上，这种看法忽略了一个根基性的事实：RL 的百花齐放，本质上是建立在高质量 SFT 打下的坚实基础之上的。没有强大的 SFT，RL 很难发挥出现在这样的效果。换句话说，SFT 依然是一切的基石。

在这项研究中，UIUC 和 Amazon 团队提供了实证和理论的双重证据，挑战了 “领域 SFT 会显著损害通用能力” 的普遍认知。通过系统化实验，他们发现：更小的学习率能够带来更优的性能折中，既能保持通用能力，又能提升目标领域表现。在此基础上，团队还提出了 TALR（Token-Adaptive Loss Reweighting），进一步缓解了灾难性遗忘问题。

展望未来，研究人员也指出，没有单一方法可以彻底解决 SFT 的遗忘问题。小学习率与 TALR 是有效的第一步，但更广泛的数据集、更大规模模型（如 MoE 架构）、以及更系统的理论指导，都有待深入探索。

同时，这项工作也为更好的领域适配提供了重要启发。例如在医学场景中，很多专门化的医疗 LLM 反而不如基础模型，这意味着如何在注入领域知识的同时保留基础模型的通用能力，是未来值得关注的关键方向。

此外，论文还提醒业界：SFT 在 RL 之前的 “预热” 阶段同样至关重要。如果过度 SFT，模型可能会过早稳定化，削弱探索能力，从而影响后续 RL 的效果。因此，如何在保持多样性的同时抑制遗忘，将是下一阶段值得深入研究的重要课题。

总的来说，这项研究不仅重申了 SFT 的价值，也为大模型未来的微调与适配提供了新的思路：RL 可能是显学，锦上添花；但 SFT 仍然是地基，没有它就难以稳如磐石。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.