网易首页 > 网易号 > 正文 申请入驻

2026开年关键词:Self-Distillation,大模型真正走向持续学习

0
分享至



机器之心编辑部

2026 年刚拉开序幕,大模型(LLM)领域的研究者们似乎达成了一种默契。

当你翻开最近 arXiv 上最受关注的几篇论文,会发现一个高频出现的词汇:Self-Distillation

近年来,基础模型取得了显著的成功,为语言、视觉、机器人等领域的 AI 应用提供了强大的支持。

但在真正落地、长期使用的过程中,研究者逐渐发现:如何让模型在不断吸收新知识的同时,不丢失已有的核心能力 —— 即「持续学习」,正成为制约大模型进化的关键瓶颈。

传统的强教师依赖范式因成本与数据依赖,难以适配高频的持续进化。Self-Distillation(自蒸馏)随之成为破局点 ——通过合理的上下文引导或反馈机制,模型完全可以构建出一个比当前权重更聪明的临时自我,让模型在没有外部强教师的情况下实现内生增长。

基于这一深刻洞察,由 MIT、ETH Zurich、Meta 及斯坦福等顶尖机构组成的紧密学术圈,在 2026 年 1 月密集发布了三项研究成果。

1.Self-Distillation Enables Continual Learning



  • 论文标题:Self-Distillation Enables Continual Learning
  • 论文链接:https://www.alphaxiv.org/abs/2601.19897
  • 代码链接:https://github.com/idanshen/Self-Distillation

在持续学习领域,传统的监督微调(SFT)常因「灾难性遗忘」备受诟病,它的副作用非常明显:当你教模型学会一套新的知识,它原有的代码能力或常识推理往往会发生断崖式下跌。

研究团队提出了一种自蒸馏微调(SDFT)方法,该方法能够直接从演示中实现基于策略的学习。



SDFT 机制概览

核心机制:该方法假设预训练模型已具备强大的 ICL 潜力。在学习新知识时,首先构造包含少量专家演示(Few-shot)的上下文,诱导模型生成高质量的教师分布;随后要求模型在不带演示的情况下,通过自蒸馏去拟合这一分布。

技术突破:该方法将持续学习转化为一个策略内对齐问题。由于训练信号源于模型自身的 ICL 状态,它能最大限度地保持模型原始的概率流分布,避免参数在微调过程中产生剧烈漂移,从而解决了监督微调(SFT)中常见的灾难性遗忘。



在技能学习和知识获取任务中,SDFT 的表现一致优于 SFT:它不仅实现了更高的新任务准确率,还显著减少了灾难性遗忘。在顺序学习实验中,SDFT 使单一模型能够随时间累积多种技能而不会出现性能退化,证明了同策略蒸馏是从演示中实现持续学习的一种实用路径。

2.Reinforcement Learning via Self-Distillation



  • 论文标题:Reinforcement Learning via Self-Distillation
  • 论文链接:https://arxiv.org/pdf/2601.20802
  • 代码链接:https://github.com/lasgroup/SDPO

目前的强化学习(如 GRPO)通常只能拿到一个二值反馈,这在长程推理中会导致严重的「信用分配」问题。此外,在 GRPO 等算法中,如果模型在某组尝试中全军覆没(奖励均为 0),学习信号就会消失,导致模型进化停滞。

研究团队认为,问题的关键并不在于强化学习本身,而在于常见的二值反馈信息密度极低,无法为长逻辑链条提供精细的指导。

针对这一困境,研究团队提出了 SDPO(自蒸馏策略优化) 框架,旨在将环境中的 「富反馈」 转化为高效的学习信号



RLVR 与 RLRF 强化学习范式对比

核心机制:SDPO 引入了 富反馈(Rich Feedback) 环境。当模型生成错误答案时,环境会返回具体的报错信息(如逻辑判读)。模型将这些报错信息重新注入上下文,作为一个 「自省教师」 来重新审视并校准之前的错误尝试。

技术突破:该方法通过自蒸馏机制,将原本模糊的标量奖励转化为Token 级的密集监督信号。通过对比 「反馈后分布」 与 「初始分布」 的差异,SDPO 能精准定位导致失败的关键 Token,指引模型降低错误路径的概率,并提高修正后逻辑的置信度。



在极难任务(左图)中,SDPO(绿线)展现了极高的采样效率,仅需约1/3 的尝试次数(3× speedup)即可达到其他算法的解发现率。而在整体训练维度上,它能以更少的样本量快速收敛,在 k=1000 时已能解决70%的困难任务,显著突破了传统算法的性能瓶颈。

在 LiveCodeBench 等竞赛级编程测试中,SDPO 展现了惊人的学习效率:它仅需传统 GRPO 算法1/4 的生成样本量即可达到同等精度。它证明了即便没有外部强教师,模型也能通过利用环境反馈进行深度自省,从而打破标量奖励带来的进化僵局。

3.Self-Distilled Reasoner:

On-Policy Self-Distillation for Large Language Models



  • 论文标题:Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models
  • 论文链接:https://arxiv.org/pdf/2601.18734

在复杂推理任务中,大模型往往面临搜索空间过大奖励信号稀疏的问题。尽管强化学习能提升模型上限,但在没有外部 「强教师」 辅助的在线学习场景中,模型很难在短时间内找到通往正确答案的深层逻辑路径。

研究团队提出了 OPSD(策略内自蒸馏) 框架,通过在同一模型内部构建 「信息不对称」 来引导自我进化。



OPSD 框架概览

核心机制:该框架将模型配置为两种状态。教师策略在输入中包含 「特权信息」(如标准答案或经过验证的推理轨迹),能够产生高质量的 Token 概率分布;而学生策略则在不接触特权信息的情况下仅凭题目进行作答。

技术突破:OPSD 采用 策略内(On-Policy)采样,核心训练目标是最小化学生分布与教师分布之间的 KL 散度。这种设计强制模型在不借助外部参考的情况下,通过内生分布的对齐,学会如何从题目直接推导出具有逻辑深度的推理链路。



在 MATH 和 GSM8K 等高难度推理基准测试中,OPSD 展现了极高的学习效率:它在 Token 利用率上比传统的 GRPO 算法高出4-8 倍。实验证明,SFT 虽然能提供初始方向,但 OPSD 能够更进一步地挖掘模型内在的“推理潜力”,证明了通过特权信息诱导出的自我博弈,是实现推理能力飞跃的一条捷径。

这三篇论文核心逻辑高度一致:利用模型已有的内生能力,通过不同的上下文构造出 「信息差」,从而实现自驱动的闭环升级,Self-Distillation 正在成为大模型后训练阶段(Post-training)的标准配置。

2026 年,也许我们不再需要教模型怎么变强,只需要给它一个「持续学习」的机会。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
顶级伪装者!美国对华渗透严重,“内鬼”潜伏我国30年,国家彻查

顶级伪装者!美国对华渗透严重,“内鬼”潜伏我国30年,国家彻查

珺瑶婉史
2026-02-10 19:45:07
乌克兰选手悼念战死运动员!被国际奥委会禁止后怒了:针对乌克兰

乌克兰选手悼念战死运动员!被国际奥委会禁止后怒了:针对乌克兰

念洲
2026-02-10 09:16:50
夸美国空气香甜的杨舒平,已被美驱逐出境,如今回国下场怎么样了

夸美国空气香甜的杨舒平,已被美驱逐出境,如今回国下场怎么样了

谈史论天地
2026-02-07 13:20:03
台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

顾史
2026-01-21 21:04:39
救救美国的中产吧,他们都快要饿死了!

救救美国的中产吧,他们都快要饿死了!

走读新生
2026-01-27 21:49:52
刚刚,48家公司出现重大利好 利空消息,有没有与你相关的个股?

刚刚,48家公司出现重大利好 利空消息,有没有与你相关的个股?

股市皆大事
2026-02-10 08:45:26
一场117-119给火箭送上大礼!前3有戏,但休城需要做出一定的改变

一场117-119给火箭送上大礼!前3有戏,但休城需要做出一定的改变

篮球看比赛
2026-02-10 14:31:38
41岁女子有性瘾,每天要求37岁男友睡她,一年后男友受不了杀了她

41岁女子有性瘾,每天要求37岁男友睡她,一年后男友受不了杀了她

胖胖侃咖
2025-05-10 08:00:08
“小南国”上海所有门店集体停业:员工称数月未见老板露面,上市公司去年上半年末资产负债率已超250%

“小南国”上海所有门店集体停业:员工称数月未见老板露面,上市公司去年上半年末资产负债率已超250%

每日经济新闻
2026-02-10 11:58:08
虚假回春?上周亚军多哈首轮又退赛!

虚假回春?上周亚军多哈首轮又退赛!

网球之家
2026-02-10 13:44:20
江苏省:信长星走访慰问驻苏部队子弟兵

江苏省:信长星走访慰问驻苏部队子弟兵

中国网
2026-02-10 16:07:08
这就是赤裸裸的现实!中国电信正式员工被取消补贴了?

这就是赤裸裸的现实!中国电信正式员工被取消补贴了?

Thurman在昆明
2026-02-10 19:33:18
外卖小哥配送32杯古茗奶茶不慎打翻后自费重新下单 品牌方:帮小哥承担费用,会优化包装

外卖小哥配送32杯古茗奶茶不慎打翻后自费重新下单 品牌方:帮小哥承担费用,会优化包装

闪电新闻
2026-02-09 10:44:31
开拓者135-118横扫76人!卡马拉30分+8三分,杨瀚森取得NBA里程碑

开拓者135-118横扫76人!卡马拉30分+8三分,杨瀚森取得NBA里程碑

球场没跑道
2026-02-10 13:42:22
民进党能扳倒高金素梅?

民进党能扳倒高金素梅?

达文西看世界
2026-02-10 19:38:45
马科斯又悬了?菲律宾民调反差:信政府,却不信当官的

马科斯又悬了?菲律宾民调反差:信政府,却不信当官的

纵拥千千晚星
2026-02-10 19:37:38
罢赛1周后,41岁C罗赢了!2大诉求已获金主满足,本周末重返赛场

罢赛1周后,41岁C罗赢了!2大诉求已获金主满足,本周末重返赛场

我爱英超
2026-02-09 23:15:37
2026除夕,别再说“新年快乐”,精选20句拜年祝福语,高级不俗套

2026除夕,别再说“新年快乐”,精选20句拜年祝福语,高级不俗套

Lily美食谈
2026-02-06 23:29:15
官宣:这家券商原党委书记被查!

官宣:这家券商原党委书记被查!

金圈私话
2026-02-10 14:05:24
拉夫罗夫还在喊话,中国早已转身了:中俄印已终结,新三角该来了

拉夫罗夫还在喊话,中国早已转身了:中俄印已终结,新三角该来了

健身狂人
2026-02-10 18:45:20
2026-02-10 20:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12283文章数 142565关注度
往期回顾 全部

科技要闻

Seedance刷屏:网友们玩疯 影视圈瑟瑟发抖

头条要闻

高铁座椅间隙钻出蜥蜴女子被吓称心跳停了 12306回应

头条要闻

高铁座椅间隙钻出蜥蜴女子被吓称心跳停了 12306回应

体育要闻

NBA上演全武行,超大冲突4人驱逐!

娱乐要闻

全红婵官宣喜讯,杂志首秀太惊艳

财经要闻

雀巢中国近千经销商的“追债记”

汽车要闻

应用于190KW四驱Ultra版 方程豹钛7搭载天神之眼5.0

态度原创

亲子
家居
房产
本地
公开课

亲子要闻

放不下孩子上学的执念和恐惧?只需做到这一点就够了!

家居要闻

宁静港湾 灵动与诗意

房产要闻

海南又一千亿级赛道出现,京东、华润、中石化等巨头率先杀入!

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版