让大模型既能答对题，又能保持思维多样性|数学|轨迹|推理|实验|新论文

分享至

这项由中国科学技术大学与美团联合开展的研究，于2026年4月发布在预印本平台arXiv上，论文编号为arXiv:2604.10688。参与机构还包括南京大学、复旦大学和华中科技大学。感兴趣的读者可通过该编号查阅完整论文。

**当AI变成"应试机器"，我们该怎么办？**

假设你有一位家庭教师，每次辅导你解题时，不管题目难不难、你犯的是什么错，他都用同样的方式、同样的力度纠正你。时间久了，你会发现自己越来越擅长用固定的套路解某类题，但一遇到稍有变化的题型就彻底懵圈——因为你的思维被"驯化"成了单一模式。现如今，大型语言模型（也就是ChatGPT、DeepSeek这类AI）在训练过程中正面临着类似的困境。研究团队注意到，现有的AI训练方法在让模型"答对题"的同时，悄悄扼杀了它的思维多样性。这篇论文提出的SCOPE框架，正是为了解决这个看似矛盾的难题。

**一、AI训练中的"偏科"现象：越练越死板**

要理解这个问题，先得了解AI是怎么学习的。大语言模型学习推理的过程，有点像学生参加模拟考试。AI自己先做一道题，然后根据最终答案对不对来打分，并以此调整自己的思考习惯。这种方法叫做"在线强化学习"，是目前训练AI推理能力的主流方式。

然而，这种只看最终对错的评分方式有一个大问题：AI每次做题都要写很长的推理过程，但得分只在最后给出，所以AI很难搞清楚推理过程中哪一步功劳最大、哪一步拖了后腿。这就像你参加了一场接力赛，最后成绩出来了，却不知道是哪个队员跑得最快、哪个队员拖了时间。

为了解决这个"功劳归属"难题，研究者引入了一种叫做"在线蒸馏"（On-Policy Distillation，简称OPD）的方法。这就好比给AI配了一位"老师模型"——一个能力更强的AI。当学生AI自己做题时，老师AI会实时跟踪每一个字、每一个词的生成，给出细粒度的指导信号，而不仅仅是在最后说"对"或"错"。这种方式让训练更高效、更精准。

但是，现有的在线蒸馏方法存在一个被忽视的假设：老师AI对所有题目、所有时刻的指导都同样可靠。这个假设，在现实中根本站不住脚。

**二、发现问题的两个实验：老师也会"发懵"，学生越练越"偏科"**

研究团队在正式提出解决方案之前，先做了两个关键实验，揭示了现有方法的两个致命缺陷。

第一个问题叫做"多样性退化"。研究团队在Qwen2.5-7B模型上做了实验：只强化AI自己做对的题目（一种叫做"正样本强化"的方法），结果发现一个吊诡的现象——在只做一次尝试时，AI的正确率从63.2%提升到了74.1%，看起来进步明显。但当给AI32次尝试机会、只要有一次答对就算成功时，成功率却从93.7%暴跌到了84.9%。这意味着AI虽然在单次表现上变好了，但它的思维空间却收窄了，"旁门左道"的解题路径被一条条掐断。

用一个比方来说：一个学生原本会用三种不同的方法解同一道数学题，经过强化训练后，他只记住了最常用的那种方法，另外两种方法虽然也正确，但因为不常用而被遗忘。这样的学生在考试时，一旦遇到需要灵活变通的题目，就会束手无策。研究团队随后在DeepSeek-R1-Distill-Qwen-1.5B上用在线蒸馏方法重复实验，发现了同样的悲剧：单次正确率提升了，但多次尝试的成功率从76.5%降到了75.0%。两种主流方法都会导致同样的"思维单一化"。

第二个问题叫做"纠错低效"。当AI做了一道错题时，可以让老师AI来纠正它。但研究团队发现，一旦学生AI的推理过程本身就是乱糟糟的，老师AI读完这些混乱的"思考过程"后，自己也会陷入困惑，给出的纠正信号就成了噪音。

为了验证这一点，研究团队从DeepMath数据集里抽取了2000道题，让学生模型（DeepSeek-R1-Distill-Qwen-1.5B）生成错误的推理过程，然后用老师模型（Skywork-OR1-MATH-7B）来评估这些错误推理过程。他们用一个叫"困惑度"（PPL）的指标来衡量老师读完学生推理过程后有多困惑——困惑度越高，说明老师越看不懂。

接着，他们做了一个"截断实验"：把学生的错误推理过程截断到不同长度（截去20%、40%、60%、80%），让老师从这个不完整的地方接着往下推理，看看能不能得出正确答案。结果令人印象深刻：那些让老师感到困惑度最低的推理前缀（Q1组，平均困惑度1.36），在截断20%时的纠错成功率高达64.9%；而让老师最困惑的前缀（Q4组，平均困惑度2.38），同样条件下成功率只有45.4%，差距高达19.4个百分点。当截断比例增加到80%时，即便是最"友好"的前缀，纠错成功率也跌到了35.8%左右，而最混乱的前缀更是只有28.6%。

这说明什么？当学生AI的推理过程本身逻辑混乱，老师AI就像是被塞进了一篇充满错误的作文里，硬要从中间接着写下去，结果只能越写越偏。在这种情况下，强迫学生AI去模仿老师"困惑"状态下给出的信号，无异于用噪音来纠正错误。

**三、SCOPE框架：像聪明的老师一样区别对待不同作业**

基于这两个发现，研究团队提出了SCOPE（Signal-Calibrated On-Policy Distillation Enhancement，信号校准在线蒸馏增强）框架。这个框架的核心思想可以用一个聪明老师的工作方式来类比。

一位真正有经验的老师，不会对所有作业一视同仁。对于学生做对了的题目，老师会想：这道题他做对了，但用的是最笨的方法还是最巧妙的方法？如果是笨方法，要多鼓励他继续探索更好的路径；如果是他最擅长的常规方法，就不必过度强化。对于学生做错了的题目，老师会先看看：这个错误我能看懂是哪里出了问题吗？如果能看懂，就给出精准的纠正；如果学生的逻辑已经乱成一锅粥，老师自己也不知道从哪里说起，那这道题就先搁置，不要强行纠正，以免越纠越乱。

SCOPE框架把AI的每次推理过程（称为"轨迹"）按照最终对错分成两条路径来处理，这叫做"结果驱动的分组分支"。在每次训练中，AI对同一道题生成多个推理过程，然后用验证器判断哪些是正确的（放入"正确集合"），哪些是错误的（放入"错误集合"）。

对于错误轨迹，SCOPE采用"老师困惑度加权蒸馏"。老师AI读完这条错误推理后，如果自己的困惑度很低（说明还能看懂学生在想什么，只是结论错了），那就给这条轨迹分配高权重，让老师的纠正信号充分影响学生。反之，如果老师读完后困惑度极高（说明学生的推理已经乱到老师也不知道如何纠正），那就把这条轨迹的权重压低，几乎忽略老师的信号，避免把噪音传递给学生。

对于正确轨迹，SCOPE转而使用"学生困惑度加权最大似然"。不依靠老师的指导，而是直接强化学生自己做对的推理过程。但关键在于，并非所有做对的推理过程都同等对待。如果某条正确推理对学生来说是"轻而易举"的（学生的困惑度很低，说明这是他的熟练套路），就分配较低权重，不必过度强化这种他已经掌握的路径。反之，如果某条正确推理对学生来说比较"意外"（困惑度较高，说明这是一条不寻常的解题路径），就分配较高权重，鼓励学生把这种"旁门左道"的正确方法也纳入自己的武器库。

在数学实现上，权重的计算方式相当精巧。对于错误轨迹，老师困惑度越低，权重越高，具体通过对老师困惑度取倒数后在同组内做softmax归一化得到。对于正确轨迹，学生困惑度越高，权重越高，通过对学生困惑度直接做softmax归一化得到。两种权重都在同一道题的多条推理过程组内进行归一化，这样可以自动适应不同题目之间的难度差异，避免简单题和难题的权重分布不可比。这套双路径自适应加权机制被研究团队称为DPAW（Dual-Perspective Adaptive Weighting，双视角自适应加权）。

整个SCOPE的目标函数把两条路径整合在一起：对于同一道题，正确轨迹的加权最大似然损失和错误轨迹的加权蒸馏损失共同构成总损失，在整个数据集上取期望进行优化。

**四、实验结果：六大数学竞赛题库的全面检验**

研究团队在六个高难度数学推理基准上测试了SCOPE，包括MATH500、AIME24（2024年美国数学邀请赛）、AIME25（2025年美国数学邀请赛）、AMC2023（2023年美国数学竞赛）、Minerva和OlympiadBench（奥林匹克竞赛题库）。

测试采用了两个不同的学生-老师配对：第一组是DeepSeek-R1-Distill-Qwen-1.5B（学生）配Skywork-OR1-Math-7B（老师），第二组是Qwen3-1.7B-Base（学生）配Qwen3-8B-Instruct（老师）。所有模型都在DeepMath数据集上训练，并与三种基线方法（GRPO强化学习、离线知识蒸馏KD、在线蒸馏OPD）进行比较。

评估指标分两种：Avg@32代表给AI32次机会时的平均正确率，衡量AI的稳定表现；Pass@32代表32次中至少一次正确的比率，衡量AI的能力上限和思维多样性。

在第一组实验（DeepSeek-R1-Distill-Qwen-1.5B）中，SCOPE在Avg@32上全面领先。在AIME24上，标准OPD达到40.2%，而SCOPE提升到42.7%，相对提升6.22%。在AIME25上，SCOPE达到30.4%，比OPD的28.9%相对提升5.19%。在AMC23上提升更为明显，从75.9%提升到80.9%，相对提升6.59%。在OlympiadBench上，SCOPE从44.9%提升到49.7%，相对提升高达10.69%。综合六个基准，SCOPE的平均Avg@32达到55.2%，比OPD的52.3%相对提升5.54%，比GRPO的49.6%提升更多。

在Pass@32指标上，SCOPE同样全面占优。这一点在第二组实验（Qwen3-1.7B-Base这个原始基础模型）上体现得尤为突出。GRPO让这个基础模型的Pass@32几乎没有提升甚至在部分基准上退步，KD则导致严重下降，OPD有所改善，但SCOPE实现了最强的提升。以AIME25为例，基础模型Pass@32为20.7%，GRPO提升到24.5%，OPD提升到29.7%，SCOPE则达到35.6%，相对于OPD提升了19.87%。这充分说明SCOPE在保持甚至提升思维多样性方面的独特优势。

从训练动态来看，三种方法呈现出截然不同的曲线。GRPO的策略熵（衡量AI思维多样性的指标）随着训练持续下降，这直接导致了Pass@32的劣化。OPD和SCOPE都能维持较高的策略熵，说明它们不会过度压缩AI的思维空间。但OPD在准确率上的提升很快遇到瓶颈并停滞，而SCOPE的Avg@32则持续稳健上升，始终领先。在Pass@k的扩展曲线上，GRPO和OPD都在k增大时表现出收益递减，而SCOPE的曲线保持良好的上升趋势，在k=32时仍有明显优势。

**五、消融实验：每一个设计都有其存在的理由**

为了验证SCOPE每个组件的必要性，研究团队做了一系列"拆零件"实验，在AIME24和AIME25上测试移除或反转各个组成部分的效果。

移除整个DPAW加权机制后，退化为均匀权重的版本，AIME24的Avg@32从42.7%降到39.9%，AIME25的Pass@32从50.9%大幅跌到45.7%。这说明忽视信号质量差异的均匀加权策略确实会造成显著的性能损失。

单独移除学生引导权重（即对正确轨迹不再按困惑度加权），AIME24的Pass@32从77.9%跌到74.1%，这直接验证了"放大非常规正确路径"对保持思维多样性的关键作用。把学生引导权重的方向反过来（高困惑度轨迹反而给低权重），Pass@32也从77.9%降到77.1%，进一步证明权重方向的正确性至关重要。

单独移除老师引导权重（即对错误轨迹不再按老师困惑度加权），AIME24的Avg@32从42.7%降到41.8%，AIME25的Pass@32也有所下降。把老师引导权重方向反过来（老师越困惑越给高权重，相当于主动学习噪音），情况更为严重：AIME24的Avg@32暴跌到38.6%，甚至低于不用任何加权的版本。这个结果极为有力地证明：如果不加甄别地让学生模仿老师在混乱前缀下的输出，不仅没有帮助，反而会大幅降低性能。

**六、计算代价：多了多少开销？**

任何新方法都要面对"值不值得"的考量。研究团队坦诚地列出了每步训练的时间分解。GRPO的每步总时间约459秒，OPD约227.5秒，SCOPE约641.9秒。SCOPE比GRPO慢约40%，主要多出的时间是老师模型打分（200秒），而基础的生成、旧策略概率计算、奖励计算、模型更新等步骤与GRPO相差无几。

研究团队指出，目前的实现是"同步架构"——轮流进行生成和老师打分，二者没有重叠。如果改用"异步架构"（让老师打分和下一批生成同时进行），理论上时间开销可以与GRPO持平。换句话说，SCOPE目前的时间代价很大程度上是工程实现上的优化空间，而非方法本身的固有缺陷。

**七、权重温度的影响：松紧要适度**

研究团队还测试了权重计算中温度参数τ的影响。τ=0.5时权重分布过于尖锐，过度集中在极端困惑度的样本上，反而引入了极端样本的噪声，整体性能不如τ=1.0。τ=2.0时权重分布过于平坦，几乎退化为均匀权重，失去了自适应加权的意义，重新陷入了均匀OPD的种种问题。τ=1.0在AIME24、AIME25和AMC23三个基准上均表现最好，成为默认配置。

归根结底，SCOPE所做的事情说起来并不复杂：在AI训练这个"模拟考试"的过程中，针对做错的题目，只在老师能看懂学生哪里错了的时候才让学生认真学老师的纠正；针对做对的题目，优先让学生把那些"运气好走对了弯路"的非常规解法也学扎实，而不是一遍遍重复已经熟练的套路。两件事合在一起，让AI既能稳定答对题，又能保持开阔的思维空间，不至于越练越"偏科"。

这项研究的意义，在于它揭示了一个被长期忽视的问题：训练数据的信号质量并非均匀的，不同推理轨迹对模型的价值天差地别。盲目地一视同仁，不仅效率低下，还会积累训练噪音，最终导致模型能力的全面萎缩。SCOPE提供的这套分类处理、按质加权的思路，有望成为未来大模型训练流程中的一个标准化组件，帮助下一代AI在更少的计算资源下达到更高的推理能力和更强的灵活性。对于任何对大语言模型训练感兴趣的读者，通过arXiv:2604.10688都能找到完整的方法细节和实验数据。

Q&A

Q1：SCOPE框架是什么，和普通的AI训练方法有什么区别？

A：SCOPE是一种针对大语言模型推理训练的双路径自适应框架。普通训练方法对所有推理过程一视同仁，不管老师AI自己是否能看懂学生的错误推理，都强制让学生去模仿老师的信号。SCOPE的区别在于把推理过程按对错分成两条路径：对于错误推理，只在老师AI困惑度低（能看懂错在哪里）时才强化老师的纠正信号；对于正确推理，优先强化那些不寻常的解题路径，避免思维单一化。

Q2：Pass@32和Avg@32这两个指标分别衡量什么？

A：Avg@32是给AI模型32次作答机会后，所有答案的平均正确率，反映模型的稳定性和整体水平。Pass@32则是32次中至少有一次答对的比率，反映模型的能力上限和思维多样性。如果一个模型Pass@32很低，说明它的思维已经被"训练"得很单一，即使多给机会也很难覆盖到不同的解题路径。SCOPE的一个重要优势就在于同时提升了这两项指标。

Q3：为什么让AI模型学习老师的纠正信号有时候反而有害？

A：当学生AI的推理过程本身逻辑混乱时，老师AI被迫从这段混乱内容接着往下想，就像被强制从一篇错误百出的作文中间接着续写，老师自己也会陷入困惑，给出的下一步预测会变得杂乱无章。如果强迫学生AI去模仿老师在这种"困惑状态"下的输出，等于是把噪音当信号来学习，不仅没有纠正错误，反而会让模型越训练越混乱。SCOPE通过老师困惑度加权，主动把这类有害信号的权重压到接近零来规避这个问题。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.