网易首页 > 网易号 > 正文 申请入驻

中科院和新加坡国大联手:让AI学会"聪明偷懒"

0
分享至

这项由中国科学院自动化研究所基础模型研究中心联合新加坡国立大学、腾讯等机构开展的研究发表于2026年,论文编号为arXiv:2604.02288v1。有兴趣深入了解的读者可以通过该编号查询完整论文。这项突破性研究解决了一个困扰AI训练领域的难题:如何让大型语言模型既能快速学会复杂推理,又能保持长期稳定的学习效果。


当前的AI训练就像教学生做数学题,面临着两难选择。传统的奖励式训练方法就像给学生打分数——答对了就给高分,答错了就给低分。这种方法很稳定,就像一位严格但公正的老师,能让学生稳步提升。但问题是这种方法太粗糙了,就好比老师只会说"这道题做错了",但不会指出具体哪一步出了问题,学生学习起来自然比较慢。

为了解决这个问题,研究人员开发了一种叫做"自蒸馏"的方法。这就像让学生自己当老师,在知道正确答案的情况下,重新审视自己的解题过程,逐步纠正每一个细节错误。这种方法确实能让学生快速改进,因为它提供了非常具体的指导——不仅知道哪里错了,还知道每一步应该怎么做。然而,这种方法有个致命缺陷:随着训练时间延长,学生会变得越来越不稳定,甚至出现严重的学习倒退。

研究团队深入分析后发现,自蒸馏方法的不稳定性源于两个根本问题。首先是"好学生也被过度纠正"的问题。当一个学生已经把题目做对了,却还要求他按照另一个同样正确但方法不同的答案来调整自己的解题思路,这就会造成混乱。就像两个厨师都能做出美味的红烧肉,但如果强迫一个厨师完全按照另一个厨师的方法来做,反而可能破坏他原本的手艺。

其次是"老师能力下降"的问题。在自蒸馏过程中,AI既是学生也是老师。随着训练进行,"学生AI"和"老师AI"的能力差距逐渐缩小,老师提供的指导变得越来越模糊和不确定。这就像一个刚学会开车的人去教另一个新手,指导质量自然会大打折扣。

基于这些洞察,研究团队提出了一种巧妙的解决方案:样本路由策略优化方法(SRPO)。这个方法的核心思想是"因材施教"——对于不同类型的学习情况,采用最适合的指导方式。

具体来说,SRPO就像一个智能的学习管理系统。当AI成功解决了一个问题时,系统会使用传统的奖励式方法给予鼓励和强化,就像对优秀学生说"做得很好,继续保持"。这样既不会造成混乱,又能稳固正确的学习成果。

但当AI犯错时,系统会立即切换到详细的逐步纠错模式。这时就像请来了一位经验丰富的老师,不仅告诉学生答案是错的,还会具体指出每一个步骤的问题所在,并演示正确的解决方法。这种针对性的指导能够快速帮助AI改正错误。

更巧妙的是,研究团队还开发了一套"信心评估机制"。由于在训练后期,AI老师的指导质量会下降,系统会自动检测这些指导的可靠程度。当发现指导内容不够确定时,系统会降低这些建议的权重;而对于那些明确、可靠的指导,系统会给予更高的重视。这就像学生学会了判断老师建议的质量,对于模糊不清的建议保持谨慎,对于明确有用的建议重点吸收。

研究团队在五个不同的基准测试中验证了这种方法的效果,涵盖了化学、物理、生物、材料科学和工具使用等多个领域。测试使用了两种不同规模的AI模型:40亿参数和80亿参数的Qwen3模型。

实验结果令人印象深刻。在80亿参数的模型上,SRPO方法将平均准确率提升到了77.4%,相比传统奖励方法的74.0%提升了3.4个百分点,相比纯自蒸馏方法的71.1%提升了6.3个百分点。在40亿参数的模型上,改进效果更加显著,平均准确率达到74.2%,分别比两种基准方法提升了4.5和7.5个百分点。

更重要的是,SRPO成功地结合了两种方法的优势。在训练初期,它展现出与自蒸馏方法相当的快速学习能力;而在长期训练中,它保持了传统奖励方法的稳定性,避免了性能倒退的问题。

研究还发现了一个有趣的现象:随着训练进行,需要详细纠错的错误样本逐渐减少,而能够直接给予奖励的正确样本越来越多。这意味着SRPO能够自动调节两种学习模式的比重,在早期更多地进行纠错,在后期更多地进行强化,实现了一种自适应的学习策略。

在计算效率方面,SRPO也表现出色。虽然在训练初期由于需要更多的详细指导而稍微增加了计算开销,但随着训练进行,这种开销逐渐减少。在长期训练中,SRPO的每步计算时间比传统方法减少了多达17.2%。

此外,研究团队还发现SRPO训练出的AI在回答问题时保持了适中的详细程度。传统奖励方法容易产生过于冗长的答案,而纯自蒸馏方法则容易产生过于简短的答案,这种过度简化可能会丢失重要的推理步骤。SRPO很好地平衡了这两个极端,生成的答案既不啰嗦也不过于简略。

这项研究的意义不仅仅在于技术层面的突破,更在于它提供了一种新的思路来理解AI学习。就像人类教育中需要因材施教一样,AI训练也需要根据不同情况采用最合适的方法。SRPO证明了通过智能地组合不同的学习策略,可以获得比单独使用任何一种策略更好的效果。

从更广泛的角度来看,这项研究为未来开发更强大、更可靠的AI系统提供了重要启示。随着AI系统变得越来越复杂,如何有效地训练它们成为了关键挑战。SRPO展示的"智能路由"思想可能会在更多场景中得到应用,帮助我们构建既高效又稳定的AI学习系统。

研究团队也指出了未来的发展方向。他们希望将这种方法扩展到能够提供更丰富反馈信息的环境中,让AI能够从更多样化的学习信号中受益。这可能会进一步提升AI的学习效率和最终性能。

说到底,这项研究解决了AI训练中的一个根本矛盾:快速学习与长期稳定之间的取舍。通过巧妙的设计,研究团队证明了我们不必在速度和稳定性之间做出选择,而是可以同时拥有两者的优势。这种"既要又要"的解决方案,为AI技术的进一步发展开辟了新的可能性。对于普通人来说,这意味着未来的AI助手将能够更快地学会新技能,同时保持长期稳定可靠的性能,为我们的日常生活和工作提供更好的支持。有兴趣深入了解技术细节的读者可以通过arXiv:2604.02288v1查询完整的研究论文。

Q&A

Q1:SRPO方法是如何解决AI训练中速度和稳定性矛盾的?

A:SRPO采用"因材施教"的策略,对AI做对的题目用传统奖励方法鼓励,对做错的题目用详细纠错方法指导。这样既保持了快速学习能力,又避免了长期训练中的不稳定问题,就像给不同水平的学生安排最适合的教学方式。

Q2:样本路由策略优化方法相比传统方法提升了多少性能?

A:在五个基准测试中,SRPO将80亿参数模型的平均准确率提升到77.4%,比传统GRPO方法高出3.4个百分点,比自蒸馏SDPO方法高出6.3个百分点。同时还将计算成本降低了17.2%,实现了性能和效率的双重提升。

Q3:为什么自蒸馏方法在长期训练中会变得不稳定?

A:自蒸馏方法的不稳定主要源于两个问题:一是对已经正确的答案进行过度纠正,造成学习混乱;二是随着训练进行,AI老师的指导质量逐渐下降,提供的建议越来越模糊不确定,最终导致学习效果倒退。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
单方一味,只需一味中药,这9种病皆可用

单方一味,只需一味中药,这9种病皆可用

环京快爆
2026-04-14 10:52:47
堕落的“清纯女星”酒井法子,这张腿间蝴蝶背后,隐藏着的故事

堕落的“清纯女星”酒井法子,这张腿间蝴蝶背后,隐藏着的故事

七阿姨爱八卦
2026-03-29 10:12:33
兑现目标!37岁奥运冠军退役5个月减肥40斤 网友惊呼:变美认不出

兑现目标!37岁奥运冠军退役5个月减肥40斤 网友惊呼:变美认不出

我爱英超
2026-04-14 10:44:22
感人!欧冠外援:成都蓉城堪比皇马,这是我效力过的最好球队!

感人!欧冠外援:成都蓉城堪比皇马,这是我效力过的最好球队!

邱泽云
2026-04-15 21:18:44
英媒:两艘货船模糊目的地信息后经霍尔木兹海峡驶向伊朗

英媒:两艘货船模糊目的地信息后经霍尔木兹海峡驶向伊朗

新京报
2026-04-15 07:16:06
抢走王朔,睡遍京圈,定居国外9年的“坏种”徐静蕾,成最终赢家

抢走王朔,睡遍京圈,定居国外9年的“坏种”徐静蕾,成最终赢家

日落于西
2026-04-15 16:04:57
这跟不穿有啥区别?张萌开叉到胃,文咏珊副乳松弛,张天爱大又挺

这跟不穿有啥区别?张萌开叉到胃,文咏珊副乳松弛,张天爱大又挺

嫹笔牂牂
2026-04-16 07:31:11
2026斯坦福AI指数报告:美国AI投资规模是中国的23倍,但AI模型基本没差距了

2026斯坦福AI指数报告:美国AI投资规模是中国的23倍,但AI模型基本没差距了

钛媒体APP
2026-04-14 12:08:36
知名主播因新政策要求,无奈直播露脸,取关粉丝数量多达百万

知名主播因新政策要求,无奈直播露脸,取关粉丝数量多达百万

新游戏大妹子
2026-04-14 13:05:06
时速385公里!西十高铁提速试验目标达成

时速385公里!西十高铁提速试验目标达成

快科技
2026-04-16 08:59:07
最严芯片法案来了,美国越卡,中国越涨

最严芯片法案来了,美国越卡,中国越涨

南风窗
2026-04-14 14:51:27
王博被驱逐!三大核心缺席广厦惜败山西 布朗空砍41分

王博被驱逐!三大核心缺席广厦惜败山西 布朗空砍41分

醉卧浮生
2026-04-15 21:51:38
从282群的录屏看,就是陈某汐!网友:全红婵说活着就好,我悟了

从282群的录屏看,就是陈某汐!网友:全红婵说活着就好,我悟了

开成运动会
2026-04-14 18:32:59
为什么说东大压根就不想打仗?

为什么说东大压根就不想打仗?

阿龙聊军事
2026-04-10 20:32:26
农民把10头猪赶到无人岛,12年后再次登岛,眼前画面让他不敢信

农民把10头猪赶到无人岛,12年后再次登岛,眼前画面让他不敢信

白云故事
2026-01-22 17:30:05
这张照片是2014年张雪峰和他的妻子李丽婧,在清华大学拍的结婚照

这张照片是2014年张雪峰和他的妻子李丽婧,在清华大学拍的结婚照

喜欢历史的阿繁
2026-04-11 06:47:10
辛巴谈与辉同行优思益赔付:不喜欢董宇辉 但他行代赔付在法律上没问题

辛巴谈与辉同行优思益赔付:不喜欢董宇辉 但他行代赔付在法律上没问题

快科技
2026-04-14 11:39:06
李小冉一开口全网笑翻,老公徐佳宁在家捶胸:就不该让她上节目

李小冉一开口全网笑翻,老公徐佳宁在家捶胸:就不该让她上节目

老吴教育课堂
2026-04-16 00:56:38
《三国第一部:争洛阳》定档暑期7月10日

《三国第一部:争洛阳》定档暑期7月10日

万达电影
2026-04-15 13:21:01
美联航收购美航:史无前例的航空业超级合并

美联航收购美航:史无前例的航空业超级合并

新浪财经
2026-04-15 21:15:32
2026-04-16 09:32:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8009文章数 561关注度
往期回顾 全部

科技要闻

39.98万!小鹏GX预售“纯电增程同价”

头条要闻

1万名美军参与封锁霍尔木兹 林肯号航母距伊朗200公里

头条要闻

1万名美军参与封锁霍尔木兹 林肯号航母距伊朗200公里

体育要闻

三球准绝杀戴大金链:轰30+10自我救赎

娱乐要闻

谢娜现身环球影城,牵手女儿温馨有爱

财经要闻

油轮被困波斯湾1个多月 船员饱受煎熬

汽车要闻

空间丝毫不用妥协 小鹏GX首发评测

态度原创

游戏
艺术
亲子
旅游
军事航空

《逃离塔科夫》前开发者:再多资金也救不了糟糕产品

艺术要闻

郑丽文平底鞋争议未平,马英九书法引热议。

亲子要闻

南方家长注意!华南汛期提前、潮湿加码,这种“呼吸道杀手”正全年潜伏

旅游要闻

太震撼了!西安秦岭脚下,居然藏着这么大规模的古民居建筑群!

军事要闻

封锁霍尔木兹海峡后 美释放双重信号

无障碍浏览 进入关怀版