网易首页 > 网易号 > 正文 申请入驻

2026开年关键词:Self-Distillation,大模型真正走向持续学习

0
分享至



机器之心编辑部

2026 年刚拉开序幕,大模型(LLM)领域的研究者们似乎达成了一种默契。

当你翻开最近 arXiv 上最受关注的几篇论文,会发现一个高频出现的词汇:Self-Distillation

近年来,基础模型取得了显著的成功,为语言、视觉、机器人等领域的 AI 应用提供了强大的支持。

但在真正落地、长期使用的过程中,研究者逐渐发现:如何让模型在不断吸收新知识的同时,不丢失已有的核心能力 —— 即「持续学习」,正成为制约大模型进化的关键瓶颈。

传统的强教师依赖范式因成本与数据依赖,难以适配高频的持续进化。Self-Distillation(自蒸馏)随之成为破局点 ——通过合理的上下文引导或反馈机制,模型完全可以构建出一个比当前权重更聪明的临时自我,让模型在没有外部强教师的情况下实现内生增长。

基于这一深刻洞察,由 MIT、ETH Zurich、Meta 及斯坦福等顶尖机构组成的紧密学术圈,在 2026 年 1 月密集发布了三项研究成果。

1.Self-Distillation Enables Continual Learning



  • 论文标题:Self-Distillation Enables Continual Learning
  • 论文链接:https://www.alphaxiv.org/abs/2601.19897
  • 代码链接:https://github.com/idanshen/Self-Distillation

在持续学习领域,传统的监督微调(SFT)常因「灾难性遗忘」备受诟病,它的副作用非常明显:当你教模型学会一套新的知识,它原有的代码能力或常识推理往往会发生断崖式下跌。

研究团队提出了一种自蒸馏微调(SDFT)方法,该方法能够直接从演示中实现基于策略的学习。



SDFT 机制概览

核心机制:该方法假设预训练模型已具备强大的 ICL 潜力。在学习新知识时,首先构造包含少量专家演示(Few-shot)的上下文,诱导模型生成高质量的教师分布;随后要求模型在不带演示的情况下,通过自蒸馏去拟合这一分布。

技术突破:该方法将持续学习转化为一个策略内对齐问题。由于训练信号源于模型自身的 ICL 状态,它能最大限度地保持模型原始的概率流分布,避免参数在微调过程中产生剧烈漂移,从而解决了监督微调(SFT)中常见的灾难性遗忘。



在技能学习和知识获取任务中,SDFT 的表现一致优于 SFT:它不仅实现了更高的新任务准确率,还显著减少了灾难性遗忘。在顺序学习实验中,SDFT 使单一模型能够随时间累积多种技能而不会出现性能退化,证明了同策略蒸馏是从演示中实现持续学习的一种实用路径。

2.Reinforcement Learning via Self-Distillation



  • 论文标题:Reinforcement Learning via Self-Distillation
  • 论文链接:https://arxiv.org/pdf/2601.20802
  • 代码链接:https://github.com/lasgroup/SDPO

目前的强化学习(如 GRPO)通常只能拿到一个二值反馈,这在长程推理中会导致严重的「信用分配」问题。此外,在 GRPO 等算法中,如果模型在某组尝试中全军覆没(奖励均为 0),学习信号就会消失,导致模型进化停滞。

研究团队认为,问题的关键并不在于强化学习本身,而在于常见的二值反馈信息密度极低,无法为长逻辑链条提供精细的指导。

针对这一困境,研究团队提出了 SDPO(自蒸馏策略优化) 框架,旨在将环境中的 「富反馈」 转化为高效的学习信号



RLVR 与 RLRF 强化学习范式对比

核心机制:SDPO 引入了 富反馈(Rich Feedback) 环境。当模型生成错误答案时,环境会返回具体的报错信息(如逻辑判读)。模型将这些报错信息重新注入上下文,作为一个 「自省教师」 来重新审视并校准之前的错误尝试。

技术突破:该方法通过自蒸馏机制,将原本模糊的标量奖励转化为Token 级的密集监督信号。通过对比 「反馈后分布」 与 「初始分布」 的差异,SDPO 能精准定位导致失败的关键 Token,指引模型降低错误路径的概率,并提高修正后逻辑的置信度。



在极难任务(左图)中,SDPO(绿线)展现了极高的采样效率,仅需约1/3 的尝试次数(3× speedup)即可达到其他算法的解发现率。而在整体训练维度上,它能以更少的样本量快速收敛,在 k=1000 时已能解决70%的困难任务,显著突破了传统算法的性能瓶颈。

在 LiveCodeBench 等竞赛级编程测试中,SDPO 展现了惊人的学习效率:它仅需传统 GRPO 算法1/4 的生成样本量即可达到同等精度。它证明了即便没有外部强教师,模型也能通过利用环境反馈进行深度自省,从而打破标量奖励带来的进化僵局。

3.Self-Distilled Reasoner:

On-Policy Self-Distillation for Large Language Models



  • 论文标题:Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models
  • 论文链接:https://arxiv.org/pdf/2601.18734

在复杂推理任务中,大模型往往面临搜索空间过大奖励信号稀疏的问题。尽管强化学习能提升模型上限,但在没有外部 「强教师」 辅助的在线学习场景中,模型很难在短时间内找到通往正确答案的深层逻辑路径。

研究团队提出了 OPSD(策略内自蒸馏) 框架,通过在同一模型内部构建 「信息不对称」 来引导自我进化。



OPSD 框架概览

核心机制:该框架将模型配置为两种状态。教师策略在输入中包含 「特权信息」(如标准答案或经过验证的推理轨迹),能够产生高质量的 Token 概率分布;而学生策略则在不接触特权信息的情况下仅凭题目进行作答。

技术突破:OPSD 采用 策略内(On-Policy)采样,核心训练目标是最小化学生分布与教师分布之间的 KL 散度。这种设计强制模型在不借助外部参考的情况下,通过内生分布的对齐,学会如何从题目直接推导出具有逻辑深度的推理链路。



在 MATH 和 GSM8K 等高难度推理基准测试中,OPSD 展现了极高的学习效率:它在 Token 利用率上比传统的 GRPO 算法高出4-8 倍。实验证明,SFT 虽然能提供初始方向,但 OPSD 能够更进一步地挖掘模型内在的“推理潜力”,证明了通过特权信息诱导出的自我博弈,是实现推理能力飞跃的一条捷径。

这三篇论文核心逻辑高度一致:利用模型已有的内生能力,通过不同的上下文构造出 「信息差」,从而实现自驱动的闭环升级,Self-Distillation 正在成为大模型后训练阶段(Post-training)的标准配置。

2026 年,也许我们不再需要教模型怎么变强,只需要给它一个「持续学习」的机会。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

每日人物
2026-03-26 13:34:51
德黑兰街头忽然空了:巴斯基帐篷被遗弃,民兵连夜跑了,为什么?

德黑兰街头忽然空了:巴斯基帐篷被遗弃,民兵连夜跑了,为什么?

老马拉车莫少装
2026-03-24 22:55:20
女子在按摩店做理疗时被技师偷走金项链

女子在按摩店做理疗时被技师偷走金项链

新闻晨报随申Hi
2026-03-26 09:56:05
上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

黄河新闻网吕梁
2026-03-26 15:14:06
伊朗抓捕14名叛国分子

伊朗抓捕14名叛国分子

财联社
2026-03-26 20:04:13
深夜突发!一则消息,竟改变了中国能建、金开新能、华电的逻辑

深夜突发!一则消息,竟改变了中国能建、金开新能、华电的逻辑

风风顺
2026-03-26 06:44:30
首秀库拉索,国足主帅邵佳一:国家队的比赛没有友谊赛

首秀库拉索,国足主帅邵佳一:国家队的比赛没有友谊赛

澎湃新闻
2026-03-26 15:58:27
冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

澳洲红领巾
2026-03-26 12:22:58
新版《哈利·波特》黑人斯内普教授首曝光!梳脏辫戴金戒引热议,演员本人却称被死亡威胁?

新版《哈利·波特》黑人斯内普教授首曝光!梳脏辫戴金戒引热议,演员本人却称被死亡威胁?

英国报姐
2026-03-26 21:26:58
10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

孤单是寂寞的毒
2026-03-04 15:38:03
多个省级党委组织部部长调整

多个省级党委组织部部长调整

上观新闻
2026-03-26 12:48:05
为什么闲鱼很多卖家只支持自提?网友:等你碰上到手刀的就老实了

为什么闲鱼很多卖家只支持自提?网友:等你碰上到手刀的就老实了

另子维爱读史
2026-03-22 22:34:48
原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

证券时报e公司
2026-03-26 22:23:23
游戏交易变陷阱,广州警方:涉嫌诈骗未成年人,12人被刑拘

游戏交易变陷阱,广州警方:涉嫌诈骗未成年人,12人被刑拘

极目新闻
2026-03-26 22:22:23
刘晓庆外甥否认吃绝户!怒斥刘晓庆造谣,承认有矛盾希望私下解决

刘晓庆外甥否认吃绝户!怒斥刘晓庆造谣,承认有矛盾希望私下解决

萌神木木
2026-03-26 13:31:02
全新塞纳实车曝光!2.4T混动+超250马力

全新塞纳实车曝光!2.4T混动+超250马力

沙雕小琳琳
2026-03-26 01:58:11
新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社
2026-03-26 10:06:18
3月30日执行!不用再买墓地,国家将正式放开殡葬新抉择

3月30日执行!不用再买墓地,国家将正式放开殡葬新抉择

青梅侃史啊
2026-03-26 20:21:55
调查发现:若50岁前没患这4种疾病,以后患癌的几率或微乎其微?

调查发现:若50岁前没患这4种疾病,以后患癌的几率或微乎其微?

医学科普汇
2026-03-26 20:55:03
马英九亲自下场后,蓝营大佬集体回应,台媒体人:罪在马英九

马英九亲自下场后,蓝营大佬集体回应,台媒体人:罪在马英九

DS北风
2026-03-25 18:50:17
2026-03-27 02:56:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
时尚
本地
房产
公开课

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

400万人爱过的女孩,被黄谣网暴180天后

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版