MIT与ETH Zurich团队推出SDFT方法：让AI在学新技能时不忘旧本领|科学|实验|数学|sdft

分享至

MIT、Improbable AI Lab与ETH Zurich的研究团队在2025年1月发表了一项关于人工智能持续学习的重要研究，该论文发表于arXiv，编号为arXiv:2601.19897v1。这项研究提出了一种名为"自我蒸馏微调"(Self-Distillation Fine-Tuning, SDFT)的创新方法，有效解决了人工智能模型在学习新技能时容易忘记已掌握技能的难题。

在人工智能的世界里，有一个困扰研究者多年的问题，就像一个学生在学习新科目时会忘记之前学过的内容一样。当前的AI模型虽然在各个领域都表现出色，但它们有一个致命弱点：在学习新任务时，往往会"忘记"之前已经掌握的技能。这种现象被称为"灾难性遗忘"，就好比一个原本会弹钢琴的人在学习小提琴后，反而连简单的钢琴曲都弹不好了。

这个问题在AI领域尤其棘手，因为现实世界的应用需要AI系统能够不断学习和适应新情况，同时保持原有的能力。比如一个医疗AI助手，它需要能够学习最新的医学知识，但同时不能忘记基础的诊断技能。然而，传统的训练方法——监督微调(SFT)——虽然简单有效，但就像用橡皮擦擦掉旧字再写新字一样，新知识的写入往往会覆盖掉旧的记忆。

研究团队发现，解决这个问题的关键在于改变学习方式。他们注意到，在强化学习中，一种叫做"在线策略学习"的方法能够显著减少遗忘现象。这种方法就像让学生在真实考试环境中练习，而不是只看教科书上的标准答案。但问题是，强化学习需要明确的奖惩信号，而在很多实际应用中，我们只有专家示范，没有明确的分数标准。

于是，研究团队提出了一个巧妙的解决方案：让AI模型充当自己的老师。这听起来有些奇怪，但实际上非常聪明。他们利用了大型语言模型一个强大的能力——"情境学习"，也就是模型能够通过看几个例子就理解任务要求，而不需要修改内部参数。

SDFT的工作原理可以用一个生动的比喻来解释。设想有一个学生(AI模型)需要学习新的解题方法。传统方法是直接让学生照抄老师的标准答案，但SDFT采用了不同的策略。首先，它给学生看一个专家解题的完整过程(示范)，让学生理解解题思路。然后，当面临新题目时，学生有两个身份：一个是"教师身份"——能够看到专家示范并理解解题方法；另一个是"学生身份"——只看到题目本身。

关键的创新在于，学生身份需要解答问题，而教师身份则负责指导和纠正。通过这种方式，学生学习的不是死记硬背的答案，而是灵活的解题思路。更重要的是，因为整个过程都是基于学生自己的理解和思考，所以不会强制覆盖之前学过的内容，而是在现有基础上进行扩展。

研究团队通过大量实验验证了这种方法的有效性。他们在三个不同的技能学习任务上进行了测试：科学问答、工具使用和医学推理。结果显示，SDFT不仅在新任务上表现优异，还能很好地保持原有能力。相比之下，传统的监督微调方法在学习新技能时，模型的综合能力会明显下降。

更令人兴奋的是，研究团队还进行了一个更具挑战性的实验：让一个模型连续学习三个不同的技能。结果显示，使用SDFT的模型能够成功积累多项技能，每学会一项新技能的同时，之前掌握的技能依然保持良好状态。而使用传统方法的模型则出现了严重的技能退化，就像跷跷板一样，一头高了另一头就低了。

一、技术原理：AI如何成为自己的老师

SDFT的核心思想建立在一个重要观察之上：大型语言模型具备强大的情境学习能力。这就好比一个聪明的学生，即使没有专门训练过某项技能，也能通过观察几个例子快速理解并模仿。研究团队巧妙地利用了这一特性，设计出了一种全新的学习框架。

在这个框架中，同一个AI模型扮演两个角色。当模型面对一个新的学习任务时，它首先以"教师"身份出现。此时，模型能够看到专家的完整示范，包括题目和详细的解答过程。通过这种方式，模型能够理解专家的思路和方法，就像一个经验丰富的老师理解了标准解题步骤一样。

接着，同一个模型又转换为"学生"身份。在这种状态下，模型只能看到题目本身，需要独立思考和解答。但关键的区别在于，学生的答案会接受教师的指导和修正。这种指导不是简单的对错判断，而是一种概率分布上的引导，告诉学生哪些思路更可能是正确的。

这个过程的精妙之处在于，学生学习的内容完全来自于自己的思考和尝试，而不是被动地接受外部答案。教师的作用是提供方向性的指导，就像一个导航仪告诉你大致方向，但具体怎么走还是要你自己决定。这样一来，新知识的学习就不会简单粗暴地覆盖旧知识，而是在现有认知框架的基础上进行扩展和完善。

研究团队将这个过程表述为一个数学优化问题，但用通俗语言来说，就是让学生的思维模式尽可能接近教师的指导方向。具体操作时，模型会根据学生身份产生一个答案，然后计算这个答案与教师指导之间的差距，并据此调整模型参数。这种调整是渐进式的，就像温水煮青蛙一样，慢慢改变而不会造成剧烈冲击。

更重要的是，整个学习过程是"在线"进行的，也就是说，学生每次遇到的题目都是它自己思考产生的，而不是预设的标准题库。这确保了学习过程的自然性和连续性，避免了传统方法中可能出现的分布偏移问题。

二、从数学角度看：为什么这种方法能够有效避免遗忘

虽然SDFT看起来是一种工程技巧，但研究团队从数学理论角度证明了它的合理性。他们发现，SDFT实际上等价于一种隐含的强化学习过程，其中奖励函数是通过模型的情境学习能力自动推断出来的。

在传统的强化学习中，需要有明确的奖励信号来指导学习。比如游戏中的得分，或者机器人完成任务的成功率。但在很多实际应用中，设计合适的奖励函数非常困难。研究团队证明，SDFT通过比较学生和教师的输出分布，实际上定义了一个隐含的奖励函数：当学生的思路越接近专家示范时，奖励就越高。

这个发现非常重要，因为它解释了为什么SDFT能够避免灾难性遗忘。在强化学习的框架下，模型的更新遵循信任域原则，也就是说，新策略不会偏离当前策略太远。这就像驾驶员在高速公路上变道，不会突然大幅度转向，而是平缓地调整方向。

研究团队还验证了他们方法的两个关键假设。第一个假设是"最优性"：教师模型(带有专家示范的模型)应该能够产生高质量的答案。通过实验，他们发现在工具使用任务中，教师模型的准确率达到了100%，而且生成的推理过程在语义上完全合理，不是简单的复制粘贴。

第二个假设是"最小偏离"：教师模型应该与当前的学生模型保持合理的相似性，不能相差太远。实验结果显示，教师模型与原始模型之间的KL散度(衡量两个概率分布差异的指标)远小于传统监督微调后的模型。这意味着教师确实提供了一个既高质量又不过于激进的学习目标。

这种数学上的严谨性不仅为方法的有效性提供了理论保证，也为未来的改进指明了方向。研究团队指出，任何能够增强模型情境学习能力的改进，都有望进一步提升SDFT的效果。

三、实验验证：三个领域的全面测试

为了验证SDFT的有效性，研究团队设计了全面的实验方案，涵盖了技能学习和知识获取两大类场景。这些实验不仅测试了方法的性能，还深入分析了其背后的机制。

在技能学习方面，研究团队选择了三个具有代表性的任务。第一个是科学问答，使用的是本科化学水平的题目。这类任务需要模型理解科学概念并进行逻辑推理。第二个是工具使用，要求模型根据API说明书和用户需求，选择合适的工具并正确调用。这模拟了实际软件开发中的常见场景。第三个是医学推理，涉及临床诊断和治疗建议，要求模型具备专业医学知识。

知识获取实验则更加有趣。研究团队构建了一个关于2025年自然灾害的知识库，包含了模型训练时不存在的全新信息。他们从维基百科收集了约20万词的相关文章，然后生成了相应的问答对。这个设置模拟了现实中需要更新AI系统知识库的场景。

实验结果令人印象深刻。在所有技能学习任务中，SDFT都显著优于传统的监督微调方法。更重要的是，SDFT在学习新技能的同时，能够很好地保持原有的通用能力。研究团队使用了六个标准基准测试来评估模型的通用能力，包括常识推理、事实问答、指令遵循等。结果显示，传统方法在学习新技能后，这些通用能力都有明显下降，而SDFT的下降幅度要小得多。

在知识获取任务中，SDFT的优势更加明显。它不仅在直接相关的问题上表现出色(严格准确率89%对比传统方法的80%)，在需要推理和综合的间接问题上更是接近完美(98%的准确率)。这说明SDFT不是简单地记忆事实，而是真正理解和整合了新知识。

研究团队还进行了一个极具挑战性的连续学习实验。他们让一个模型依次学习三个不同的技能，观察每个技能的掌握情况和相互影响。结果显示，使用SDFT的模型能够稳定地积累技能，每学会一项新技能都不会显著影响之前的技能。而使用传统方法的模型则出现了严重的"摇摆"现象，学习新技能时旧技能快速退化。

四、规模效应：越大的模型效果越好

研究团队的一个重要发现是，SDFT的效果与模型规模密切相关。这个发现具有重要的实践指导意义，因为它揭示了方法的适用条件和发展潜力。

实验使用了同一模型家族的不同规模版本：30亿、70亿和140亿参数。结果显示，模型规模越大，SDFT相对于传统方法的优势就越明显。在30亿参数的小模型上，SDFT的表现甚至略逊于传统监督微调。但随着模型规模增大，优势逐渐显现。70亿参数的模型上，SDFT比传统方法高出4个百分点；而在140亿参数的模型上，这个优势扩大到了7个百分点。

这种规模依赖性的根本原因在于情境学习能力。小型模型的情境学习能力相对较弱，无法充分理解专家示范的含义，因此难以充当合格的"教师"。而大型模型具有强大的情境学习能力，能够通过观察示范准确把握专家的意图和方法，从而提供高质量的指导。

这个发现对未来的发展具有积极意义。随着计算资源的进步和模型规模的不断增大，SDFT的优势有望进一步扩大。研究团队预测，在更大规模的模型上，这种方法可能会展现出更加显著的效果。

研究团队还通过pass@k实验验证了改进的真实性。pass@k测试要求模型生成多个答案，只要其中有k个正确就算成功。这种测试能够区分真正的能力提升和简单的概率偏移。结果显示，SDFT在各种k值下都保持稳定的性能提升，证明了方法带来的是实质性的能力增强，而不是表面的统计效应。

五、特殊应用：让推理模型保持思考深度

SDFT的一个特别有价值的应用场景是训练推理模型。在实际应用中，很多数据集只包含最终答案，没有详细的推理过程。这给训练带来了挑战：如果直接使用这些简短答案进行监督微调，原本善于深度思考的模型可能会"退化"为只给简答的模型。

这个问题可以用一个生动的比喻来理解。设想一个原本习惯写详细解题步骤的学生，如果老师只给他看标准答案，不看解题过程，时间久了，这个学生可能就会放弃思考过程，变成只会写最终答案。这对于需要可解释性和推理能力的AI应用来说是灾难性的。

研究团队使用了一个专门的推理模型进行测试。这个模型原本能够生成平均4612个词的详细推理过程，准确率为31.2%。当使用传统监督微调训练后，模型的推理长度急剧缩短到3273个词，准确率也下降到23.5%。这清楚地表明了传统方法的问题：为了匹配训练数据中的简短答案，模型抑制了自己的推理能力。

相比之下，使用SDFT训练的模型不仅保持了详细的推理过程(4180个词)，准确率还显著提升到43.7%。这是因为SDFT的教师模型看到了专家示范，能够理解任务的真正要求，从而引导学生模型产生适当深度的推理，而不是简单地模仿训练数据的表面形式。

这个结果对实际应用具有重要价值。在医疗、法律、科学研究等需要可解释AI的领域，保持模型的推理能力至关重要。SDFT提供了一种在缺乏详细推理数据的情况下，仍能训练出高质量推理模型的方法。

六、核心机制分析：在线学习为什么如此重要

为了理解SDFT成功的根本原因，研究团队进行了细致的机制分析。他们对比了几种不同的学习方式，以确定性能提升的真正来源。

首先，他们验证了教师模型的质量确实很高。通过情境学习，教师模型不仅能够给出正确答案，还能生成合理的推理过程。在工具使用任务中，教师模型的成功率达到100%，手动检查显示所有推理链条都是有效和语义连贯的。

更重要的是，研究团队发现教师模型与原始模型保持了合理的相似性。衡量两个概率分布差异的KL散度显示，教师模型相对于原始模型的偏移(0.68 nats)远小于传统监督微调后的偏移(1.26 nats)。这意味着教师提供的指导是温和而渐进的，不会对原有知识造成冲击。

关键的对比实验证明了在线学习的重要性。研究团队比较了三种使用同一教师模型的训练方式：传统的监督微调、离线蒸馏和在线蒸馏(即SDFT)。结果显示，虽然任何形式的教师指导都比纯粹的监督微调要好，但只有在线蒸馏才能达到最佳效果。

这个差异的根本原因在于分布匹配。离线方法使用固定的数据集，学生模型学习的是教师在这些预设数据上的表现。但在实际应用中，学生模型面对的是自己生成的数据分布，这可能与训练数据存在偏差。在线学习则确保了训练和应用的一致性：学生模型在自己生成的数据上接受指导，因此能够更好地处理相似的情况。

这个发现呼应了强化学习领域的经典结论：在线策略学习能够避免分布偏移带来的性能下降。SDFT巧妙地将这个原则引入到了监督学习的框架中，既获得了在线学习的优势，又避免了强化学习中奖励函数设计的困难。

七、实际应用的考虑：优势、限制与未来方向

SDFT虽然在实验中表现出色，但研究团队也诚实地讨论了方法的限制和实际应用中需要考虑的因素。

首先是计算成本问题。SDFT需要在训练过程中生成在线数据，这比传统的监督微调要消耗更多计算资源。具体来说，计算量大约是传统方法的2.5倍，训练时间约为4倍。不过，研究团队指出，如果考虑到很多现有方法需要多阶段训练(先监督微调再修复遗忘问题)，SDFT的总体成本可能反而更低。

其次是方法的适用范围。SDFT的效果高度依赖于模型的情境学习能力，因此在小型模型上效果有限。此外，方法更适合于技能提升和知识扩展，对于需要根本性改变模型行为模式的任务可能不够有效。例如，将一个不生成推理过程的模型改造成详细推理模型就比较困难。

第三个需要注意的问题是"学习伪影"。由于教师模型看到了示范文本，它有时会生成带有特定格式标记的回答，如"基于上述文本..."等。学生模型可能会学会这些不必要的表达方式。研究团队提供了一个简单的解决方案：在训练时忽略回答的前几个词，但承认这只是一个工程性的修补，更优雅的解决方案有待探索。

尽管存在这些限制，研究团队对未来的发展方向充满信心。他们认为有几个值得探索的方向。首先是与强化学习的结合，SDFT可以作为强化学习的初始化方法，提供更好的起点。其次是进一步减少遗忘的技术，虽然SDFT已经大大缓解了遗忘问题，但仍有改进空间。

另一个有前景的方向是扩展到更广泛的数据源。目前的SDFT主要使用专家示范，但原则上可以扩展到用户对话、非专家数据等更多样化的学习材料。这将使方法在实际部署环境中更加实用。

最后，研究团队强调了方法的理论价值。SDFT提供了一个将情境学习能力转化为参数学习的框架，这为理解和利用大型语言模型的认知能力开辟了新途径。随着模型规模和情境学习能力的进一步提升，这类方法的潜力将更加显著。

简单来说，这项研究为AI的持续学习问题提供了一个创新而实用的解决方案。虽然还不完美，但它为构建能够不断成长而不会遗忘的AI系统迈出了重要一步。对于普通人而言，这意味着未来的AI助手将能够更好地适应我们不断变化的需求，同时保持已有的可靠能力。

Q&A

Q1：什么是自我蒸馏微调SDFT方法？

A：SDFT是让AI模型同时扮演教师和学生角色的训练方法。教师身份能看到专家示范并理解解题思路，学生身份只看题目独立思考，通过教师指导学生的方式，让模型学会新技能的同时不忘记原有能力。

Q2：SDFT方法如何解决AI学新技能忘旧技能的问题？

A：SDFT通过在线学习方式，让模型在自己产生的数据上接受指导，避免了传统方法中新知识覆盖旧知识的问题。就像温和的引导而非强制替换，让新技能在现有基础上自然扩展。

Q3：普通人能使用SDFT技术吗？

A：目前SDFT还是研究阶段的技术，主要供AI研究者和开发者使用。但随着技术成熟，未来的AI产品和服务很可能会采用类似方法，让AI助手能够持续学习新知识而不丢失原有能力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.