普林斯顿大学发现AI学习"最佳时机"：PACED框架让机器学习更聪明|数学|实验|新论文

普林斯顿大学发现AI学习"最佳时机"：PACED框架让机器学习更聪明

2026-03-23 17:20:55　来源: 科技行者

北京举报

分享至

这项由普林斯顿大学、康奈尔大学、哥伦比亚大学和爱荷华州立大学联合进行的研究发表于2026年3月，论文编号为arXiv:2603.11178v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们想学会一项新技能时，是不是总有那种"刚刚好"的感觉？太简单的练习让人感觉在浪费时间，太难的内容又让人摸不着头脑，而那些处于"恰到好处"难度的练习，往往能让我们进步最快。俄国心理学家维果茨基把这个甜蜜点称为"最近发展区"。现在，计算机科学家们发现，人工智能模型在学习时也有类似的规律。

研究团队注意到一个普遍存在的问题：现有的大语言模型训练方法就像一个不会因材施教的老师，对所有问题都花费同样的精力。无论是学生早已掌握的简单问题，还是完全超出能力范围的超难题目，训练过程都会投入相同的计算资源。这种"一刀切"的做法导致了巨大的计算浪费，同时也影响了学习效果。

为了解决这个问题，研究团队开发了一个名为PACED的新框架，全称是"基于能力感知的知识蒸馏"。这个框架的核心思想就像一位经验丰富的私人教练，能够精准判断学生当前的能力水平，然后将训练重点放在那些既不太简单也不太困难的问题上。

PACED框架的工作原理基于一个重要发现：在知识蒸馏过程中，梯度信号的信噪比在通过率的两个极端处都会消失。当学生模型完全无法解决某个问题时（通过率接近0），梯度虽然很大，但方向混乱，就像在黑暗中胡乱摸索；当学生已经完全掌握某个问题时（通过率接近1），梯度信号几乎为零，就像已经到达目的地却还在原地踏步。

基于这个理论观察，研究团队推导出了一个数学上优雅的权重函数，叫做Beta核心权重，形式为w(p) = p^α(1-p)^β，其中p是学生的通过率，α和β是可调参数。这个函数的美妙之处在于它会在通过率的两端自动给出零权重，而在中间区域给出最高权重，恰好对应学生的最近发展区。

实验验证是任何理论的试金石。研究团队设计了两个独立的实验设置来验证PACED的效果。第一个设置是传统的知识蒸馏，让较小的Qwen3-8B模型向较大的Qwen3-14B模型学习，使用前向KL散度作为损失函数。第二个设置是自蒸馏，让Qwen2.5-Math-7B-Instruct模型向自己的冻结副本学习，使用反向KL散度。

实验结果令人印象深刻。在第一个设置中，使用PACED框架训练的模型在MATH-500测试集上获得了94.0%的准确率，相比基础模型的86.5%提升了7.5个百分点。在更具挑战性的AIME 2025竞赛题目上，改进更是达到了14.8个百分点。同时，模型在MMLU基准测试上的遗忘现象几乎可以忽略不计，仅有0.2%的轻微下降。

在自蒸馏设置中，效果同样显著。MATH-500的准确率从83.9%提升到93.7%，增幅达到9.8个百分点。AIME测试的改进更加明显，2024年题目提升了12.0个百分点，2025年题目提升了13.6个百分点。这些结果表明PACED不仅适用于不同规模模型间的知识转移，也能在同一模型的自我改进中发挥作用。

研究团队还探索了一个有趣的现象：前向KL散度和反向KL散度在知识蒸馏中扮演着不同但互补的角色。前向KL散度更擅长模式覆盖，帮助学生模型学习教师模型的广泛知识；反向KL散度则专注于模式寻找，帮助学生模型巩固高置信度的解答。基于这个观察，他们设计了一个两阶段的训练计划：先用前向KL进行探索性学习，再用反向KL进行巩固性训练。这种方法在MATH-500/AIME 2024/AIME 2025测试中分别取得了9.1/15.2/16.7个百分点的提升，代表了该研究中的最强结果。

为了深入理解PACED的工作机制，研究团队进行了详细的消融研究。他们发现Beta核心权重中的参数α和β的选择会影响性能和遗忘之间的平衡。当α=1, β=2时，权重函数向更困难的问题倾斜，能获得最高的推理性能，但会略微增加遗忘；相反，当α偏大β偏小时，性能会有所下降但遗忘更少。默认的α=β=1提供了最佳的整体平衡。

通过率估计的稳健性也得到了验证。即使在样本数较少的情况下（每个问题只用4次推理而不是标准的8次），PACED仍然能保持良好的性能，这证明了Beta核心权重的平滑特性能够有效抵抗估计噪声。

理论分析为PACED的有效性提供了坚实基础。研究团队证明了在有界误差的情况下，Beta核心权重具有极小极大鲁棒性，即使真实的信噪比偏离Beta模型达到e^±δ的倍数，最坏情况下的效率损失也只有O(δ?)。对于moderate的误差范围（δ ≤ 0.3，即信噪比在35%范围内），总体效率仍能超过91%。

梯度方差分析揭示了PACED成功的另一个关键原因。非均匀权重虽然会因为有效批量大小的减少而增加方差，但如果能够巧妙地降低那些高方差样本的权重，总体上仍能实现方差的净减少。Beta核心权重恰好做到了这一点：它在极端通过率处给予接近零的权重，而这些位置正是梯度方差最大的地方。

从实际应用的角度来看，PACED框架具有几个显著优势。它只需要学生模型的推理结果来估计通过率，不需要修改模型架构，也不需要额外的梯度计算。整个框架与损失函数无关，可以轻松集成到现有的训练流程中。此外，权重的计算是封闭形式的，不需要复杂的在线优化。

研究团队还提供了一个数据驱动的参数选择方法。通过分析最近发展区内通过率的分布，可以使用矩匹配方法自动确定最优的α和β参数。这种方法让PACED能够适应不同的数据集和模型能力分布，进一步提高了其实用性。

PACED与现有方法的比较显示了其优越性。相比于简单的硬过滤方法，PACED的平滑权重函数能够更好地处理边界样本。相比于AKL等令牌级自适应方法，PACED的问题级权重能够彻底避免那些不合适的训练样本，而不仅仅是在问题内部调整学习强度。

从更广阔的视角来看，PACED代表了个性化学习在人工智能领域的一次重要尝试。它将教育学中的最近发展区理论成功地转化为可操作的技术框架，这种跨学科的融合为未来的研究提供了新的思路。

当然，PACED也有一些局限性。通过率估计需要额外的推理开销，虽然这个成本可以通过各种策略来缓解，比如使用较少的采样次数或者分阶段筛选。此外，当前的研究主要集中在数学推理任务上，在其他类型的任务上的表现还需要进一步验证。

总的来说，PACED框架为知识蒸馏领域带来了一个既有理论基础又有实用价值的重要贡献。它不仅在技术上实现了显著的性能提升，更重要的是为我们理解和改进人工智能学习过程提供了新的视角。这项研究表明，通过仔细分析学习过程中的信息流动和优化目标，我们可以设计出更加高效和智能的训练方法。

Q&A

Q1：PACED框架是什么？

A：PACED是一个智能训练框架，它会根据AI模型的当前能力水平，自动调整训练重点。就像一个会因材施教的老师，它会让模型重点练习那些既不太简单也不太困难的问题，从而提高学习效率。

Q2：PACED框架的训练效果有多好？

A：实验显示PACED能让模型在数学推理任务上获得显著提升。比如在MATH-500测试中，准确率从86.5%提升到94.0%，在AIME竞赛题目上更是提升了14.8个百分点，同时几乎不会出现知识遗忘现象。

Q3：Beta核心权重函数是如何工作的？

A：Beta核心权重函数w(p) = p^α(1-p)^β会根据学生模型的通过率p来分配训练权重。当通过率接近0或1时权重接近0，在中间区域权重最大。这样可以让模型专注于最有学习价值的问题，避免在太简单或太难的问题上浪费计算资源。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.