网易首页 > 网易号 > 正文 申请入驻

名师一定出高徒?清华团队最新揭秘:别再迷信大模型蒸馏免费午餐

0
分享至



本文由清华大学 THUNLP 实验室联合上海科技大学、伊利诺伊大学厄巴纳-香槟分校、中国人民大学等多家机构研究者合作完成。

蒸馏的免费午餐,真的好吃吗?

当下的大模型后训练(Post-training)pipeline 中,On-Policy Distillation(OPD)已经成为了明星技术。从 Qwen3、MiMo 到 GLM-5,业界纷纷采用 OPD 并报告了巨大的性能提升。相比于强化学习(RL)稀疏的结果奖励,OPD 提供了密集的 Token 级别监督信号,看起来就像是一顿「免费的午餐」。

但如果你亲手跑过 OPD,你可能会遇到一个反直觉现象:为什么我换了一个更强的 Teacher,Student 的性能反而毫无提升,甚至出现了倒退?

大模型时代的蒸馏,早就不是简单的「大力出奇迹」了。

清华大学团队最新的一项研究,系统性地解剖了 On-Policy 蒸馏的黑箱。这篇论文不仅揭示了决定蒸馏成败的两大先决条件,还深挖了 Token 级别的对齐机制,并给出了拯救失败蒸馏的实用配方。



  • 论文链接:https://arxiv.org/abs/2604.13016
  • 代码库:https://github.com/thunlp/OPD
  • Thread https://x.com/HBX_hbx/status/2044464414829777354

现象篇:为什么「名师」出不了「高徒」?

在常规认知中,Teacher 模型的分数越高,蒸馏效果应该越好。但研究团队通过严谨的对比实验,发现了控制 OPD 命运的两个核心法则:

法则一:思维模式一致性(Thinking-Pattern Consistency)

研究者让弱 Base 模型 Qwen3-1.7B-Base 向两个能力相近的 Teacher 学习:一个是 Qwen3-4B (Non-thinking) ,另一个是只经过 GRPO 训练的 Qwen3-4B-Base-GRPO。结果发现,由于学生也是 Base 模型,它与经过 GRPO 强化的 Base Teacher 的 thinking pattern 更近(初始 Overlap Ratio 更高),最终的蒸馏效果取得了显著提升。如果早期思维模式错配,后续很难完全弥补。



法则二:高分 ≠ 新知识(Higher scores ≠ new knowledge)

如果老师和学生思维模式一致,且老师分数更高,蒸馏就一定管用吗?

研究者在 DeepSeek 和 Qwen 两个 family 里都看到同样的现象:同 pipeline、同 recipe、只是更大一点的 teacher,提升非常有限;反而是经过额外 RL post-training 的 teacher,能恢复更多 teacher-student gap。比如在 DeepSeek family 里,经过 RL 的 Skywork-OR1-Math-7B gap recovery 是16.9%,而同 pipeline 的 DeepSeek-R1-Distill-7B 只有5.3%;在 Qwen family 里,这个差距甚至达到58.6%对15.6%。

这说明如果老师只是同一条 pipeline、同一种数据和 recipe 下做得更大,它在学生眼里可能只是「同一类分布的不同尺度版本」,并不会提供多少新的可迁移信号。



最狠的实验,是把学生「蒸馏回去」

研究者做了一个堪称极端的「反向蒸馏」实验:用 RL 后的 JustRL-1.5B 做学生,让它反过来向自己 RL 之前的 checkpoint R1-Distill-1.5B 学习;同时再拿一个更大、分数也更高的同家族 R1-Distill-7B 来做对照。

结果很意外:向 7B 学习和向 1.5B 学习,效果几乎一样 —— 都让学生的能力倒退回了前 RL 的水平,并且下降曲线非常相近!这说明,7B 虽然分数高,但它相较于 1.5B 只是参数规模带来的红利,并没有提供 Student 更多可学习的信息。OPD 并不是在简单地「学习高分」,而是在主动提取并复刻老师的思维模式。



机制篇:Token 级别的显微镜,看到了什么?

当 OPD 成功或失败时,在 Token level 到底发生了什么?

研究者监控了训练全过程的动态指标,发现了一个极为清晰的规律:成功的蒸馏,是一场高概率 Token 的「双向奔赴」。

在成功的 OPD 中,Student 和 Teacher 的前 k 个预测 Token 的重叠率(Overlap Ratio)会从 72% 稳步攀升到 91% 以上,同时两者的熵差距(Entropy Gap)迅速缩小。而在失败的 OPD 中,这些指标从头到尾基本无变化。



更重要的是的发现是:「重叠区域」即是全部。



研究者把蒸馏目标拆开,做了一组剥离实验。他们发现,那些被师生共同看好的高概率 Token 是整个优化的核心引擎,贡献了主要梯度和优势。如果只对这些 Overlap Token 计算损失,蒸馏性能几乎不打折扣!而那些非重叠的 Token 对优化几乎毫无贡献。

处方篇:两招拯救「无可救药」的蒸馏

如果手头只有思维模式不契合的 teacher,是不是就束手无策了?基于上述现象和机制,研究者给出了两剂「对症下药」的药方:

1. 教师 Rollout 上进行 Off-Policy 冷启动(Cold Start)

既然一上来就直接 On-Policy Distillation 容易发生思维方式的不匹配,那就先用 Off-Policy 强行对齐。在开始 OPD 之前,先让 Student 在 Teacher 生成的 rollout 上进行一轮轻量级的 SFT。这能直接拉高初始的 Overlap Ratio ,在随后的 OPD 训练就能丝滑启动,最终收敛的性能上限超越纯 OPD baseline。



2. 与教师对齐的提示词(Teacher-aligned Prompts)

既然 teacher 的策略是在某类 post-training prompt 上被塑造出来的,那就尽量让 OPD 看到更接近 teacher 训练分布的 prompt,包括模板层面的对齐和内容层面的对齐。论文发现,这确实能进一步提升 accuracy 和 overlap growth;但代价是 student entropy 会降得更快,所以最好和一部分 OOD 的 prompt 混用,避免过早发生熵坍塌。



Template 对齐



Content 对齐

探讨与反思:OPD 真的能无限 Scaling 吗?

免费的密集奖励信号确实很诱人,但研究者发现奖励信号的质量会随着轨迹深度急剧衰减。

在长达 15K token 的响应中,研究者观察到了清晰的「从后向前的熵崩塌」:随着生成的深入,Student 的前缀越来越偏离 Teacher 熟悉的分布,导致 Teacher 在后半段给出的奖励变成了纯粹的噪音,进而引发整个训练的坍塌。这说明 OPD 目前很难直接扩展到长思维链或 agentic 多轮场景。密集监督与监督可靠性之间存在根本性张力。



此外,全局有用的奖励,不代表局部能被有效优化。失败 teacher 给出的全局 reward 其实并不弱,区分正确 / 错误 rollout 的 AUROC 甚至和成功 teacher 相近,这说明失败不是因为 reward 信号本身没有信息量,而是因为 reward 的局部优化几何结构出了问题 —— 全局有信息,局部却平坦。



写在最后:关于「更强」与「更可学」

我们习惯了去寻找一个更大的模型来提取知识,想当然认为越强的教师教的越好。但这篇论文给出的答案是:未必。在 OPD 里,更强不自动等于更会教。高分不自动等于新知识。大模型也不只是把能力「灌」给小模型,它更像是在传递一种思维路径、一种局部偏好的组织方式。

所以真正的问题,不是「teacher 有多强」,而是:

  • 它和 student 说的是不是同一种语言?
  • 它带来的东西,是不是 student 还没真正学会的东西?
  • 它给出的监督,能不能在 student 当前所在的位置上,变成有用的梯度?

而这,也许正是这篇论文最有价值的地方:它没有再给 OPD 增加一个新 trick,而是第一次比较系统地告诉我们 ——为什么有些 teacher 能教会学生,为什么有些 teacher 只是在「看起来更强」。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
纳斯达克100指数涨幅从1.5%缩减至0.6%,触及盘中低点

纳斯达克100指数涨幅从1.5%缩减至0.6%,触及盘中低点

每日经济新闻
2026-06-29 22:08:14
刘烨儿子久违现身,16岁诺一身高超180,过了容貌尴尬期变更帅了

刘烨儿子久违现身,16岁诺一身高超180,过了容貌尴尬期变更帅了

潋滟晴方DAY
2026-06-28 13:01:32
梅洛:维尼修斯是世界杯小组赛第二好球员,他在姆巴佩之上

梅洛:维尼修斯是世界杯小组赛第二好球员,他在姆巴佩之上

懂球帝
2026-06-29 11:26:17
16.99万 !沃尔沃新车正式上市

16.99万 !沃尔沃新车正式上市

科技堡垒
2026-06-27 11:22:35
王曼昱降维打击!张本美和轰出11-0并定下四强目标,蒯曼一日双胜

王曼昱降维打击!张本美和轰出11-0并定下四强目标,蒯曼一日双胜

排球黄金眼
2026-06-29 11:21:37
6月29日人民币对美元中间价调贬9个基点

6月29日人民币对美元中间价调贬9个基点

证券时报
2026-06-29 09:42:03
好恐怖的天伦之乐!女子晒家庭聚会,面和心不和被演绎得淋漓尽致

好恐怖的天伦之乐!女子晒家庭聚会,面和心不和被演绎得淋漓尽致

林林先生
2026-06-13 10:25:06
彻底堵死投机客,广州打响了第一枪!

彻底堵死投机客,广州打响了第一枪!

米宅
2026-06-29 07:23:34
工信部批深蓝极狐L3而未批问界,给非华为方案两年翻盘时间

工信部批深蓝极狐L3而未批问界,给非华为方案两年翻盘时间

三农老历
2026-06-28 15:43:52
“我穿的还是长裤”,浙江一女主播还没走出小区门口,就遇到“攻击”…...身上现多处伤痕……

“我穿的还是长裤”,浙江一女主播还没走出小区门口,就遇到“攻击”…...身上现多处伤痕……

新浪财经
2026-06-29 10:42:06
范乔丹执行球选!队记透露已取消交易限制 休媒盼能100%健康回归

范乔丹执行球选!队记透露已取消交易限制 休媒盼能100%健康回归

颜小白的篮球梦
2026-06-29 20:57:24
世界杯:巴西vs日本、德国vs巴拉圭、荷兰vs摩洛哥,三场解析!

世界杯:巴西vs日本、德国vs巴拉圭、荷兰vs摩洛哥,三场解析!

生活新鲜市
2026-06-29 19:11:55
同样拍四渡赤水,把《四渡》和43年前古月版放一起看,差别出来了

同样拍四渡赤水,把《四渡》和43年前古月版放一起看,差别出来了

手工制作阿歼
2026-06-29 13:31:37
普京:将确保国家人民安全,领土不受侵犯

普京:将确保国家人民安全,领土不受侵犯

看看新闻Knews
2026-06-29 09:02:24
这一次我为日本点赞!

这一次我为日本点赞!

安安说
2026-06-29 10:58:11
我爸97看起来才60,长寿秘诀不是多走路多吃保健品,而是这四件事

我爸97看起来才60,长寿秘诀不是多走路多吃保健品,而是这四件事

蝉吟槐蕊
2026-06-28 05:16:03
不就是肖像权比例嘛!弗洛伦蒂诺亲自下场,负责维尼修斯续约谈判

不就是肖像权比例嘛!弗洛伦蒂诺亲自下场,负责维尼修斯续约谈判

穆里尼奥主义者
2026-06-29 21:16:57
世界杯第19比赛日前瞻:巴西有办法赢日本,荷兰遇打法相克摩洛哥

世界杯第19比赛日前瞻:巴西有办法赢日本,荷兰遇打法相克摩洛哥

云隐南山
2026-06-29 18:21:23
重创:乌克兰摧毁俄罗斯库班炼油厂!50公里外可见浓烟

重创:乌克兰摧毁俄罗斯库班炼油厂!50公里外可见浓烟

项鹏飞
2026-06-28 21:24:24
大宝贝和黄教主及大佬的瓜!

大宝贝和黄教主及大佬的瓜!

八卦疯叔
2026-06-29 09:50:03
2026-06-29 22:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13390文章数 142684关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

小米SU7加速向左偏减速向右偏 车主维权近1年4S店松口

头条要闻

小米SU7加速向左偏减速向右偏 车主维权近1年4S店松口

体育要闻

他和伊朗队,再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

万达广场批量易主 多位投资人正式入局

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

数码
亲子
房产
旅游
公开课

数码要闻

珂芝三模矮轴机械键盘i98上市,首发价329 / 369元

亲子要闻

兄弟俩的卷尺糖

房产要闻

你敢想?海口房地产投资,暴跌5成!

旅游要闻

四季皆景光雾山,山水文脉两相欢丨四川安逸如画

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版