网易首页 > 网易号 > 正文 申请入驻

普林斯顿大学发现AI学习"最佳时机":PACED框架让机器学习更聪明

0
分享至


这项由普林斯顿大学、康奈尔大学、哥伦比亚大学和爱荷华州立大学联合进行的研究发表于2026年3月,论文编号为arXiv:2603.11178v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们想学会一项新技能时,是不是总有那种"刚刚好"的感觉?太简单的练习让人感觉在浪费时间,太难的内容又让人摸不着头脑,而那些处于"恰到好处"难度的练习,往往能让我们进步最快。俄国心理学家维果茨基把这个甜蜜点称为"最近发展区"。现在,计算机科学家们发现,人工智能模型在学习时也有类似的规律。

研究团队注意到一个普遍存在的问题:现有的大语言模型训练方法就像一个不会因材施教的老师,对所有问题都花费同样的精力。无论是学生早已掌握的简单问题,还是完全超出能力范围的超难题目,训练过程都会投入相同的计算资源。这种"一刀切"的做法导致了巨大的计算浪费,同时也影响了学习效果。

为了解决这个问题,研究团队开发了一个名为PACED的新框架,全称是"基于能力感知的知识蒸馏"。这个框架的核心思想就像一位经验丰富的私人教练,能够精准判断学生当前的能力水平,然后将训练重点放在那些既不太简单也不太困难的问题上。

PACED框架的工作原理基于一个重要发现:在知识蒸馏过程中,梯度信号的信噪比在通过率的两个极端处都会消失。当学生模型完全无法解决某个问题时(通过率接近0),梯度虽然很大,但方向混乱,就像在黑暗中胡乱摸索;当学生已经完全掌握某个问题时(通过率接近1),梯度信号几乎为零,就像已经到达目的地却还在原地踏步。

基于这个理论观察,研究团队推导出了一个数学上优雅的权重函数,叫做Beta核心权重,形式为w(p) = p^α(1-p)^β,其中p是学生的通过率,α和β是可调参数。这个函数的美妙之处在于它会在通过率的两端自动给出零权重,而在中间区域给出最高权重,恰好对应学生的最近发展区。

实验验证是任何理论的试金石。研究团队设计了两个独立的实验设置来验证PACED的效果。第一个设置是传统的知识蒸馏,让较小的Qwen3-8B模型向较大的Qwen3-14B模型学习,使用前向KL散度作为损失函数。第二个设置是自蒸馏,让Qwen2.5-Math-7B-Instruct模型向自己的冻结副本学习,使用反向KL散度。

实验结果令人印象深刻。在第一个设置中,使用PACED框架训练的模型在MATH-500测试集上获得了94.0%的准确率,相比基础模型的86.5%提升了7.5个百分点。在更具挑战性的AIME 2025竞赛题目上,改进更是达到了14.8个百分点。同时,模型在MMLU基准测试上的遗忘现象几乎可以忽略不计,仅有0.2%的轻微下降。

在自蒸馏设置中,效果同样显著。MATH-500的准确率从83.9%提升到93.7%,增幅达到9.8个百分点。AIME测试的改进更加明显,2024年题目提升了12.0个百分点,2025年题目提升了13.6个百分点。这些结果表明PACED不仅适用于不同规模模型间的知识转移,也能在同一模型的自我改进中发挥作用。

研究团队还探索了一个有趣的现象:前向KL散度和反向KL散度在知识蒸馏中扮演着不同但互补的角色。前向KL散度更擅长模式覆盖,帮助学生模型学习教师模型的广泛知识;反向KL散度则专注于模式寻找,帮助学生模型巩固高置信度的解答。基于这个观察,他们设计了一个两阶段的训练计划:先用前向KL进行探索性学习,再用反向KL进行巩固性训练。这种方法在MATH-500/AIME 2024/AIME 2025测试中分别取得了9.1/15.2/16.7个百分点的提升,代表了该研究中的最强结果。

为了深入理解PACED的工作机制,研究团队进行了详细的消融研究。他们发现Beta核心权重中的参数α和β的选择会影响性能和遗忘之间的平衡。当α=1, β=2时,权重函数向更困难的问题倾斜,能获得最高的推理性能,但会略微增加遗忘;相反,当α偏大β偏小时,性能会有所下降但遗忘更少。默认的α=β=1提供了最佳的整体平衡。

通过率估计的稳健性也得到了验证。即使在样本数较少的情况下(每个问题只用4次推理而不是标准的8次),PACED仍然能保持良好的性能,这证明了Beta核心权重的平滑特性能够有效抵抗估计噪声。

理论分析为PACED的有效性提供了坚实基础。研究团队证明了在有界误差的情况下,Beta核心权重具有极小极大鲁棒性,即使真实的信噪比偏离Beta模型达到e^±δ的倍数,最坏情况下的效率损失也只有O(δ?)。对于moderate的误差范围(δ ≤ 0.3,即信噪比在35%范围内),总体效率仍能超过91%。

梯度方差分析揭示了PACED成功的另一个关键原因。非均匀权重虽然会因为有效批量大小的减少而增加方差,但如果能够巧妙地降低那些高方差样本的权重,总体上仍能实现方差的净减少。Beta核心权重恰好做到了这一点:它在极端通过率处给予接近零的权重,而这些位置正是梯度方差最大的地方。

从实际应用的角度来看,PACED框架具有几个显著优势。它只需要学生模型的推理结果来估计通过率,不需要修改模型架构,也不需要额外的梯度计算。整个框架与损失函数无关,可以轻松集成到现有的训练流程中。此外,权重的计算是封闭形式的,不需要复杂的在线优化。

研究团队还提供了一个数据驱动的参数选择方法。通过分析最近发展区内通过率的分布,可以使用矩匹配方法自动确定最优的α和β参数。这种方法让PACED能够适应不同的数据集和模型能力分布,进一步提高了其实用性。

PACED与现有方法的比较显示了其优越性。相比于简单的硬过滤方法,PACED的平滑权重函数能够更好地处理边界样本。相比于AKL等令牌级自适应方法,PACED的问题级权重能够彻底避免那些不合适的训练样本,而不仅仅是在问题内部调整学习强度。

从更广阔的视角来看,PACED代表了个性化学习在人工智能领域的一次重要尝试。它将教育学中的最近发展区理论成功地转化为可操作的技术框架,这种跨学科的融合为未来的研究提供了新的思路。

当然,PACED也有一些局限性。通过率估计需要额外的推理开销,虽然这个成本可以通过各种策略来缓解,比如使用较少的采样次数或者分阶段筛选。此外,当前的研究主要集中在数学推理任务上,在其他类型的任务上的表现还需要进一步验证。

总的来说,PACED框架为知识蒸馏领域带来了一个既有理论基础又有实用价值的重要贡献。它不仅在技术上实现了显著的性能提升,更重要的是为我们理解和改进人工智能学习过程提供了新的视角。这项研究表明,通过仔细分析学习过程中的信息流动和优化目标,我们可以设计出更加高效和智能的训练方法。

Q&A

Q1:PACED框架是什么?

A:PACED是一个智能训练框架,它会根据AI模型的当前能力水平,自动调整训练重点。就像一个会因材施教的老师,它会让模型重点练习那些既不太简单也不太困难的问题,从而提高学习效率。

Q2:PACED框架的训练效果有多好?

A:实验显示PACED能让模型在数学推理任务上获得显著提升。比如在MATH-500测试中,准确率从86.5%提升到94.0%,在AIME竞赛题目上更是提升了14.8个百分点,同时几乎不会出现知识遗忘现象。

Q3:Beta核心权重函数是如何工作的?

A:Beta核心权重函数w(p) = p^α(1-p)^β会根据学生模型的通过率p来分配训练权重。当通过率接近0或1时权重接近0,在中间区域权重最大。这样可以让模型专注于最有学习价值的问题,避免在太简单或太难的问题上浪费计算资源。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
霍尔木兹海峡封锁再升级,油价持续猛涨,石油危机将要重演?|商业微史记

霍尔木兹海峡封锁再升级,油价持续猛涨,石油危机将要重演?|商业微史记

界面新闻
2026-03-31 11:26:11
3月30日立即执行!不用再买墓地了,国家正式放开殡葬新选择

3月30日立即执行!不用再买墓地了,国家正式放开殡葬新选择

混沌录
2026-03-31 17:03:15
清明将至,俗话说:“坟头三不动,一动穷三代”今年应如何祭祖?

清明将至,俗话说:“坟头三不动,一动穷三代”今年应如何祭祖?

磊子讲史
2026-03-20 16:07:07
外交部: 近日中方有三艘船舶 过航霍尔木兹海峡

外交部: 近日中方有三艘船舶 过航霍尔木兹海峡

每日经济新闻
2026-03-31 16:03:47
重庆一隧道发生爆炸事故,致4人死亡

重庆一隧道发生爆炸事故,致4人死亡

界面新闻
2026-03-31 08:29:34
鲁山舅舅娶亡姐大结局!新华社通报调查结果,这次终于真相大白了

鲁山舅舅娶亡姐大结局!新华社通报调查结果,这次终于真相大白了

离离言几许
2026-03-30 22:39:30
郑钦文喊球童拿毛巾事件引外网球迷批评:现在球员这么懒吗?

郑钦文喊球童拿毛巾事件引外网球迷批评:现在球员这么懒吗?

篮球看比赛
2026-03-31 12:39:38
茅台提价首日:i茅台供不应求,多批次“光速”被抢光!

茅台提价首日:i茅台供不应求,多批次“光速”被抢光!

新浪财经
2026-03-31 09:17:44
你敢信吗?太湖底下有2.3米厚的淤泥,可上面才盖着不到1.9米的水

你敢信吗?太湖底下有2.3米厚的淤泥,可上面才盖着不到1.9米的水

甜柠聊史
2026-03-29 05:31:07
亚历山大狂砍47+5无缘今日最佳,对不起,你碰上暴走创纪录的文班

亚历山大狂砍47+5无缘今日最佳,对不起,你碰上暴走创纪录的文班

体育新角度
2026-03-31 17:38:07
6月起,网约车司机超8小时长时间工作将结束

6月起,网约车司机超8小时长时间工作将结束

半岛官网
2026-03-31 09:30:28
失联两个多月的28岁川大博士确认遇难,生前就读的意大利大学发文哀悼,姐姐不敢将噩耗告知高龄爷爷奶奶

失联两个多月的28岁川大博士确认遇难,生前就读的意大利大学发文哀悼,姐姐不敢将噩耗告知高龄爷爷奶奶

极目新闻
2026-03-31 19:05:12
2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

谈史论天地
2026-03-25 09:57:09
1980年邓小平说:毛主席的错误,要毫不含糊地批评,但要实事求是

1980年邓小平说:毛主席的错误,要毫不含糊地批评,但要实事求是

帝哥说史
2026-02-25 06:30:03
英国首相:无论谁施压 英国不会被卷入中东的战争

英国首相:无论谁施压 英国不会被卷入中东的战争

财联社
2026-03-31 17:39:05
退休人员乐开花!2026年养老金调整方向敲定,尤其是这类人更受益

退休人员乐开花!2026年养老金调整方向敲定,尤其是这类人更受益

社保小达人
2026-03-30 10:20:07
国足0-2仅1小时,韩媒幸灾乐祸!一国脚跟对方交换球衣,名字曝光

国足0-2仅1小时,韩媒幸灾乐祸!一国脚跟对方交换球衣,名字曝光

侃球熊弟
2026-03-31 17:12:06
澄清!从年入百万不够花,到被罚1.2亿,闫学晶税务核查结论已出

澄清!从年入百万不够花,到被罚1.2亿,闫学晶税务核查结论已出

情感大头说说
2026-03-31 16:31:09
玄武门之变,李渊为什么不调兵镇压李世民?他调了,但根本压不住

玄武门之变,李渊为什么不调兵镇压李世民?他调了,但根本压不住

千秋文化
2026-02-11 21:36:18
东欧局势大逆转!罗马尼亚铁了心对抗,俄罗斯表态关系彻底清零!

东欧局势大逆转!罗马尼亚铁了心对抗,俄罗斯表态关系彻底清零!

无情有思可
2026-03-31 19:14:00
2026-03-31 19:52:50
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7825文章数 556关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

张雪机车订单已排到6月"禁止"新手购买820RR 销售回应

头条要闻

张雪机车订单已排到6月"禁止"新手购买820RR 销售回应

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

家居
房产
游戏
公开课
军事航空

家居要闻

新婚爱巢 甜蜜情趣拉满

房产要闻

14亿!电竞巨头出手,海棠湾“超级运动综合体”来了!

梦幻西游旭旭宝宝斩获第一天科女衣,紫禁之巅惊现140无级别惨案

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:即使霍尔木兹海峡仍关闭 也愿意结束战争

无障碍浏览 进入关怀版