网易首页 > 网易号 > 正文 申请入驻

复旦提出简单指标,找出推理蒸馏中真正有教学价值的数据

0
分享至



什么样的思维链,能「教会」学生更好地推理?


许多人都有这样的学习体验:内容过于熟悉,难以带来新的收获;内容过于陌生,又往往超出理解能力,难以消化吸收。

类似的现象同样出现在大语言模型的推理蒸馏中。来自能力更强的教师模型的思维链,可能过于晦涩,学生模型难以掌握其推理模式;而与学生认知相近的教师模型,其推理轨迹又常常缺乏新信息,难以带来实质提升。

因此,要获得理想的蒸馏效果,关键在于为不同学生模型选择恰好合适的数据,在「熟悉」与「陌生」之间找到最佳平衡。然而,现有基于概率的筛选或度量方法(如 Perplexity)难以刻画这种细粒度的适配关系。

那么,是否存在一种直观且易于计算的数据适配度指标,能够量化这种平衡?

来自复旦大学和上海人工智能实验室的研究者提出了一种简单而有效的度量方法,Rank-Surprisal Ratio (RSR):



RSR 从学生模型的视角出发,综合考虑样本的信息量与对齐程度,旨在找出那些既足够「新」,又未超出学生认知边界的推理数据。

在大规模蒸馏实验中,RSR 与学生模型后训练性能的相关性高达 0.86,并且可以直接用于筛选推理轨迹以及选择教师模型,无需实际训练即可找到更合适的思维链数据。



  • 论文链接:https://arxiv.org/pdf/2601.14249
  • 代码链接:https://github.com/UmeanNever/RankSurprisalRatio

反直觉的现象


长思维链(CoT)的生成被普遍认为是大模型推理能力的核心。相应地,包含长思维链的推理轨迹常被视为高质量的监督信号,可以用于有监督微调(SFT)训练学生模型,或助力强化学习的冷启动。

但越来越多的实验呈现出一个反直觉现象:教师模型越强,学生模型未必学得越好。

在这篇工作中,作者系统性地构建了 11 个 teacher(教师模型)× 5 个 student(学生模型)的蒸馏实验,覆盖从 4B 到 671B 的主流推理模型。结果显示:

  • teacher 的参数规模、推理准确率与 student 的推理提升相关性很弱;
  • 同一个 teacher 的数据在不同 student 上的训练效果差异显著;
  • 跨模型家族的 teacher(如 GPT-OSS → Qwen)往往效果更差;
  • 推理数据是否「适合」当前 student 是关键。



表一:蒸馏实验结果,在多个数学 benchmark 上评测 student 模型使用 teacher 数据训练后的性能。

现有数据筛选方法的问题

当前主流的数据筛选或评估方法,大多依赖一个信号:student 模型生成该数据的概率(perplexity /log-likelihood/surprisal),认为 student 觉得「自然」的数据就更容易学。



但问题在于:

  • 太「自然」的推理数据,往往信息增量有限;
  • 真正有价值的推理数据,恰恰是 student 尚未充分掌握的部分。

这就引出了论文试图解决的核心矛盾 ——Informative Alignment Challenge:如何在提供新知识的 informativeness 与符合学生当前认知的 alignment 之间取得平衡?

关键洞察

「绝对陌生 (Absolute unfamiliarity) + 相对熟悉 (Relative familiarity)」的推理数据最有学习价值

面对看似难以兼顾的「熟悉 - 陌生」的平衡,作者从 token 级别重新审视 student 的预测分布,提出一个直观、但之前被忽略的视角:

  • Informativeness 关注的是当前 token 在概率层面的绝对陌生度,可由 Surprisal(−log p / 负对数似然)刻画;
  • Alignment 关注的是当前 token对比其它候选 token 的相对熟悉度,可由 Rank(在词表预测中的名次)衡量。

在这一视角下,一个 token 可以同时满足:

  • 被 student 生成的概率不高(informative)
  • 但在候选词表中排名靠前(aligned)

因此,informativeness 与 alignment 并非天然冲突。恰恰是同时满足这两点的 token,构成了最适合 student 学习的推理数据。



图一:Rank-Surprisal Ratio 的设计动机 —— 合适的推理数据应当兼顾 informativeness 与 alignment

直观的指标:Rank-Surprisal Ratio


基于前文在 token 级别的观察,以及相关仿真分析与数学推导,论文提出了一个形式上极其简洁的样本级指标:



直觉解释:

  • 分子(Rank)越小,表示当前样本越符合 student 的行为模式,对齐程度(alignment)越高;
  • 分母(Surprisal)越大,表示当前样本提供的信息量越充分,信息性(informativeness)越强;
  • RSR 越小 → 信息量与对齐程度的平衡越好。

在实现上:

  • 仅需对 student 进行一次前向计算;
  • 不依赖 verifier 或额外测试数据;
  • 融合了 rank clipping 与 surprisal 加权平均机制,在极端情况下具有更好的数值稳定性。

实验:与训练效果的相关性

作者将 RSR 与多种已有指标进行了对比,包括 teacher 模型及训练数据的若干统计量、常用的数据质量评估方法、基于概率的指标,以及其他基于 student 模型计算的指标。

实验结果在 5 个 student 模型上高度一致:RSR 与 student 模型后训练性能的 Spearman 相关系数平均达到 0.86,显著高于其它指标。



表二:不同指标与模型后训练推理性能之间的相关性

在实际场景中的应用

场景 1:Trajectory Selection (选择最合适的推理轨迹数据)

  • 在该场景中,针对训练集中的每一道题目,作者从多个 teacher 模型生成的 33 条候选思维链中,依据不同指标选择一条最合适的推理轨迹,从而构建用于训练 student 的推理数据集。
  • 实验结果表明,基于 Rank-Surprisal Ratio 筛选得到的数据,在不同 student 模型上训练后均取得了最优的推理性能,优于其它方法。



表三:不同数据筛选方法的后训练性能

场景 2:Teacher Selection(选择最合适的教师模型)

  • 在该场景中,作者仅使用每个 teacher 模型生成的 200 条推理轨迹来估计其与不同 student 的适配程度,从而模拟实际蒸馏前的 teacher 选择过程。
  • 实验结果显示,RSR 能稳定选出接近 oracle(真实最优)的 teacher 模型,整体表现优于其它方法。



表三:不同 teacher 模型选择方法的表现

结语

这项工作重新审视了推理蒸馏中一个看似简单却难以回答的的问题:什么样的推理轨迹能「教会」student 更好地推理。通过将 token 的 相对熟悉度(rank) 与 绝对信息量(surprisal) 结合,Rank-Surprisal Ratio 给出了一个直观、易于计算、且在大规模实验中被验证有效的答案。

更重要的是,RSR 并不依赖额外的评估数据或验证器,而是直接从 student 的视角出发刻画数据价值。这使它不仅是一个分析工具,也具备作为实际数据工程指标的潜力。

向前看,这种「informative alignment」的视角或许可以进一步扩展到:

  • 更通用的 reasoning 任务(如 code、tool use);
  • 推理轨迹的重写与合成,而不仅是选择;
  • 以及与 On-policy Distillation、RL 结合的动态数据调度。

当推理模型的瓶颈逐渐从「规模」转向「数据的高效利用」,理解哪些思维过程真正具有教学价值,可能将成为下一阶段 post-training 的关键问题。

作者介绍

杨宇铭,复旦大学自然语言处理实验室博士生,导师为张奇教授。本科毕业于复旦大学数学系,硕士毕业于密歇根大学统计学系。博士阶段前曾在微软担任数据科学家。研究方向为自然语言处理与大语言模型,作为第一作者或共同第一作者在 ACL、EMNLP、NeurIPS 等顶级会议发表多篇论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张兰不听劝,又晒孙子孙女,小玥儿太像大S,外套7000元 个子很高

张兰不听劝,又晒孙子孙女,小玥儿太像大S,外套7000元 个子很高

有范又有料
2026-01-27 15:42:10
内娱的"下限"又被刷新了!葛晓倩再曝料张雨绮,荒唐的事不止一件

内娱的"下限"又被刷新了!葛晓倩再曝料张雨绮,荒唐的事不止一件

秋姐居
2026-01-27 11:34:34
“上午立春春节暖,下午立春倒春寒”,2026立春在几点?有啥说法

“上午立春春节暖,下午立春倒春寒”,2026立春在几点?有啥说法

老特有话说
2026-01-28 16:44:22
第一集就重口拉满,这部新剧太生猛啦

第一集就重口拉满,这部新剧太生猛啦

来看美剧
2026-01-28 19:46:29
贝嫂巴黎风光受勋,全家喜气洋洋!谁还提大布啊,老娘独美!

贝嫂巴黎风光受勋,全家喜气洋洋!谁还提大布啊,老娘独美!

新欧洲
2026-01-28 21:34:21
什么是牢A的“三通一达”?解释清楚了!

什么是牢A的“三通一达”?解释清楚了!

雪中风车
2026-01-27 19:50:37
渗透军政界身居高位,国家抓捕的4大卧底,给我国造成重大损失

渗透军政界身居高位,国家抓捕的4大卧底,给我国造成重大损失

甜柠聊史
2026-01-27 14:12:52
中美“必有一战”?英专家:美国早想“核平”中国,只是怕打不赢

中美“必有一战”?英专家:美国早想“核平”中国,只是怕打不赢

荷兰豆爱健康
2026-01-29 00:35:16
49条航线“熔断”当天!日航再传噩耗:约7000人滞留,外交部说准

49条航线“熔断”当天!日航再传噩耗:约7000人滞留,外交部说准

通鉴史智
2026-01-28 14:49:00
这才是真正的斩杀线,70年来,黄金涨了130倍,美元贬值了99.3%

这才是真正的斩杀线,70年来,黄金涨了130倍,美元贬值了99.3%

月满大江流
2026-01-14 11:54:30
欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

我是盲流
2026-01-22 11:37:44
baby投靠古天乐疑隐婚!与黄晓明划清界限,香港复出背后藏豪门靠山

baby投靠古天乐疑隐婚!与黄晓明划清界限,香港复出背后藏豪门靠山

八卦王者
2026-01-27 14:56:22
马德兴:邵佳一主动把国脚数据发回俱乐部,还与斯卢茨基面谈

马德兴:邵佳一主动把国脚数据发回俱乐部,还与斯卢茨基面谈

懂球帝
2026-01-28 16:46:07
日本31岁孕妇在自家玄关被乱刀砍死,一尸两命!凶手犯案前曾送玩偶偷藏GPS定位…

日本31岁孕妇在自家玄关被乱刀砍死,一尸两命!凶手犯案前曾送玩偶偷藏GPS定位…

东京新青年
2026-01-28 18:40:56
关系藏不住了?华晨宇殷秀梅手挽手下班引发热议,恶心的一幕出现

关系藏不住了?华晨宇殷秀梅手挽手下班引发热议,恶心的一幕出现

娱说瑜悦
2026-01-28 15:50:27
0-2爆冷!澳网乱套了,4号种子出局,王欣瑜太可惜,4强对阵曝光

0-2爆冷!澳网乱套了,4号种子出局,王欣瑜太可惜,4强对阵曝光

体育就你秀
2026-01-28 12:43:12
史上最心酸换防:8名国军无人区死守4年,见解放军一句话全连泪崩

史上最心酸换防:8名国军无人区死守4年,见解放军一句话全连泪崩

鉴史录
2026-01-28 06:54:16
00后整顿家庭纠纷效率有多高?网友:只看文字就有很爽的感觉哦

00后整顿家庭纠纷效率有多高?网友:只看文字就有很爽的感觉哦

带你感受人间冷暖
2026-01-26 00:10:10
美国林肯号航母逼近伊朗海域!以色列发动14次空袭

美国林肯号航母逼近伊朗海域!以色列发动14次空袭

项鹏飞
2026-01-26 16:22:25
面馆免费续面后续,同行站出来怒骂,市监局已介入,这下彻底老实

面馆免费续面后续,同行站出来怒骂,市监局已介入,这下彻底老实

离离言几许
2026-01-27 21:22:35
2026-01-29 01:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12209文章数 142552关注度
往期回顾 全部

教育要闻

湖南省监狱管理局回应:艺术类能参与部分专业性工作

头条要闻

俄总统助理:泽连斯基若愿与普京会晤 可来莫斯科

头条要闻

俄总统助理:泽连斯基若愿与普京会晤 可来莫斯科

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

从万科退休20天后,郁亮疑似失联

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

时尚
旅游
教育
房产
亲子

想年前用3周“刷新”好状态?做第一点就够

旅游要闻

普陀:城市亲水公园美丽景色等你来解锁

教育要闻

初中数学不难,难的是肯动脑

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

亲子要闻

促排期间可以吃什么长卵泡?amh低怎么办怎么调理?

无障碍浏览 进入关怀版