网易首页 > 网易号 > 正文 申请入驻

AI大语言模型训练的"熵值困境":中科大团队如何让机器学习更稳定

0
分享至


这项由中国科学技术大学吴俊康、黄科欣、吴建灿、张安、王祥和何向南等研究者组成的团队开展的研究,发表于2025年1月的arXiv预印本平台,论文编号为arXiv:2509.22611v1。对于想要深入了解技术细节的读者,可以通过该编号在arXiv平台查询完整论文内容。

当我们谈论人工智能的训练过程时,可以把它想象成教一个学生解数学题的过程。学生刚开始时会尝试各种不同的方法,这种"试错"的多样性在AI领域被称为"熵值"。就像学生需要保持足够的好奇心去探索不同解题思路,但又不能毫无章法地胡乱尝试一样,AI系统在学习过程中也面临着一个微妙的平衡问题。

中科大团队发现,现有的AI训练方法存在一个严重问题:要么让AI过早地固定在某种思维模式上(就像学生只会一种解题方法,遇到稍微不同的题目就束手无策),要么让AI的思路过于发散(像一个注意力完全无法集中的学生,什么都想试但什么都做不好)。这种现象在AI训练的专业术语中分别被称为"熵值崩塌"和"熵值爆炸"。

研究团队通过深入分析发现,这个问题的根源在于现有训练方法使用的"基准线"设定方式。这就好比老师在评判学生作业时,总是用班级平均分作为标准。当某个学生表现特别突出时,这个平均分就会被拉高,导致其他原本表现还不错的学生突然被判定为"不及格",从而打击了他们的学习积极性。

为了解决这个问题,研究团队提出了一种名为"分位数优势估计"(Quantile Advantage Estimation,简称QAE)的新方法。这种方法的核心思想是,不再使用简单的平均分作为评判标准,而是根据题目的难易程度采用不同的评判策略。

具体来说,这种新方法就像一位聪明的老师:当面对特别困难的题目时,只要学生能做出正确答案,哪怕过程不够完美,老师也会给予鼓励和正面反馈;而当面对相对简单的题目时,老师会将注意力集中在那些仍然出错的地方,帮助学生纠正错误。这种差异化的反馈机制确保了学习过程既不会过于保守,也不会过于激进。

研究团队通过数学理论分析证明,这种新方法能够为AI的学习过程提供"双向安全保障"。简单来说,就是为AI的探索行为设置了上下边界:既防止AI过早地停止尝试新方法,也防止AI的尝试过于混乱无序。这就像给一辆汽车安装了既能防止急刹车又能防止油门失控的安全系统。

为了验证这种新方法的效果,研究团队在多个数学推理任务上进行了实验。他们使用了不同规模的AI模型,包括80亿参数、140亿参数和300亿参数的版本,分别在2024年和2025年的美国数学邀请赛(AIME)以及2023年美国数学竞赛(AMC)的题目上进行测试。

实验结果令人振奋。采用新方法训练的AI模型在解题准确率上获得了显著提升。以80亿参数的模型为例,在AIME 2024的测试中,准确率从原来的39.69%提高到48.23%,提升幅度达到21.5%。更重要的是,这种改进不是以牺牲其他性能为代价的——模型在处理多次尝试求解的能力(专业术语称为pass@16)上保持了原有水平。

研究团队还发现了一个有趣的现象:使用新方法训练的AI模型具有天然的"节约"特性。大约80%的训练样本会被自动分配为零优势值,这意味着只有约20%的样本真正参与了模型的参数更新。这种现象类似于帕累托法则(也就是常说的"二八定律"),说明新方法能够自动识别并专注于最有价值的学习样本,从而提高了训练效率。

从技术实现的角度来看,这种新方法的优势在于其简单性和通用性。研究团队只需要对现有训练算法进行一行代码的修改——将计算平均值的函数替换为计算分位数的函数。这种"一行代码解决大问题"的优雅性使得该方法可以很容易地集成到现有的各种AI训练框架中。

研究团队通过详细的分析发现,传统方法在处理训练过程中的"负优势样本"(也就是那些表现不佳的尝试)时存在系统性问题。当模型遇到一些异常出色的表现时,这些表现会拉高整体的期望值,导致许多原本还可以接受的尝试被错误地标记为"失败案例",从而受到惩罚。这就像一个班级里突然转来了几个学霸,导致原本成绩中等的学生突然被认为是"差生"一样不合理。

新方法通过引入分位数机制有效解决了这个问题。分位数是一种更加稳健的统计量,不容易被极端值影响。举个例子,如果我们要了解一个城市居民的收入水平,使用中位数(50%分位数)比使用平均数更能反映真实情况,因为少数富豪的超高收入不会影响中位数的计算。

在具体的训练动态分析中,研究团队观察到了一个两阶段的学习过程。第一阶段是"协同增长期",AI模型的探索性(通过观察某些特殊标记词汇的使用频率来衡量)和问题解决能力同时提升。第二阶段是"解耦平台期",传统方法在这个阶段会出现性能停滞,而新方法则能够继续保持改进。这种现象表明,新方法在训练的后期阶段仍能有效地指导AI进行有价值的学习。

研究团队还进行了细致的消融实验来验证方法中各个组成部分的作用。他们发现,根据不同的训练配置(比如梯度裁剪的强度),新方法会自动调整其行为模式。当训练过程容易出现"熵值爆炸"时,方法会更多地抑制负向更新;当训练过程倾向于"熵值崩塌"时,方法则会更多地促进正向探索。这种自适应性证明了新方法的稳健性。

从计算效率的角度来看,新方法带来的额外计算成本几乎可以忽略不计。计算分位数的复杂度与计算平均值相当,而且由于大约80%的样本被自动过滤掉,实际的参数更新计算量反而减少了。这意味着新方法不仅提高了训练效果,还在一定程度上提高了训练效率。

研究团队特别强调,他们的方法与现有的其他改进技术是兼容的。无论是针对特定token的处理技术,还是序列级别的优化方法,都可以与新方法结合使用,进一步提升训练效果。这种兼容性使得该方法具有很强的实用价值。

在理论分析方面,研究团队提供了严格的数学证明,展示了新方法在"一阶软最大更新"条件下的双向熵值安全性。这个证明表明,在低成功率的情况下,新方法能够将熵值变化限制在最小范围内(防止爆炸);在高成功率的情况下,新方法能够确保熵值变化达到最大范围(防止崩塌)。这种理论保证为方法的可靠性提供了坚实基础。

值得注意的是,研究团队将其方法的成功归因于"基准线设计"而非传统的"token级别调整"。这一观点为AI训练领域提供了新的研究方向,表明有时候解决复杂问题的关键不在于设计更复杂的机制,而在于重新思考问题的根本假设。

从实际应用的角度来看,这种新方法对于开发更强大的AI数学推理系统具有重要意义。随着AI在教育、科研、工程等领域的应用越来越广泛,提高AI的数学推理能力将直接影响这些应用的效果。新方法的成功实施为这一目标的实现提供了有力工具。

研究团队在论文中也坦诚地讨论了当前工作的局限性和未来发展方向。他们指出,目前的方法使用固定的分位数参数,未来可以考虑根据训练进度动态调整这个参数,或者根据模型的实时状态(如成功率、熵值、梯度方差等)自动选择最优参数。另外,如何将这种思想推广到其他类型的强化学习算法(如PPO)中也是一个值得探索的方向。

说到底,这项研究的核心价值在于它揭示了一个简单而深刻的道理:有时候,最有效的解决方案不是增加系统的复杂性,而是重新审视和改进系统的基础组件。就像建筑师发现,与其设计复杂的支撑结构,不如使用更好的基础材料一样,AI训练领域也可能从重新思考基本假设中获得突破性进展。

这种"化繁为简"的研究思路对整个AI领域都有启发意义。在追求更大模型、更复杂算法的潮流中,有时候一个看似微小的改进可能产生出人意料的巨大效果。对于普通人来说,这项研究的成果可能最终体现在更智能、更稳定的AI助手和教育工具中,让我们在日常生活和工作中能够得到更可靠的AI支持。

未来,随着这种训练方法的推广和进一步完善,我们有理由期待AI系统在数学推理、逻辑分析、问题解决等方面表现出更强的能力,同时保持更好的稳定性和可靠性。这不仅将推动AI技术本身的发展,也将为教育、科研、工程等众多领域带来更强大的智能工具支持。

Q&A

Q1:什么是熵值崩塌和熵值爆炸,为什么这两种现象对AI训练有害?

A:熵值崩塌是指AI过早地固定在某种思维模式上,就像学生只会一种解题方法,遇到新题目就束手无策。熵值爆炸则是AI的思路过于发散,像注意力无法集中的学生什么都想试但什么都做不好。这两种现象都会严重影响AI的学习效果和性能稳定性。

Q2:分位数优势估计方法与传统的平均值方法相比有什么具体优势?

A:分位数方法就像一位聪明的老师,会根据题目难度采用不同的评判策略:对困难题目,只要答对就给鼓励;对简单题目,重点纠正错误。而传统的平均值方法容易被极端情况影响,就像班级平均分被学霸拉高后,原本不错的学生也被误判为差生。

Q3:这种新方法的训练效率如何,是否会增加计算成本?

A:新方法不仅不会增加计算成本,反而在某些方面提高了效率。它具有天然的"节约"特性,约80%的训练样本会被自动过滤,只有20%真正参与参数更新。而且只需要修改一行代码就能实现,计算复杂度与原方法相当。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股三大指数均跌超2%,全市场下跌个股超4400只

A股三大指数均跌超2%,全市场下跌个股超4400只

界面新闻
2026-02-02 15:23:15
30岁男子上厕所猝死,妻子见状哭倒,留下3个孩子,最大才12岁

30岁男子上厕所猝死,妻子见状哭倒,留下3个孩子,最大才12岁

离离言几许
2026-02-01 19:50:11
包头牧民称22头骆驼被狼咬死,最大的有1200多斤损失惨重,当地:正调查处理

包头牧民称22头骆驼被狼咬死,最大的有1200多斤损失惨重,当地:正调查处理

极目新闻
2026-02-02 16:28:52
越来越多孩子得白血病?医生坦言:家里4样东西是祸根,趁早扔了

越来越多孩子得白血病?医生坦言:家里4样东西是祸根,趁早扔了

DrX说
2025-11-19 14:42:09
炸裂!这大瓜保真?台媒扒赵薇底裤 内幕惊人 彻底藏不住了

炸裂!这大瓜保真?台媒扒赵薇底裤 内幕惊人 彻底藏不住了

小娱乐悠悠
2026-02-01 11:58:14
立陶宛、乌克兰议员组团窜台,国民党访团抵京,萧旭岑通告全球

立陶宛、乌克兰议员组团窜台,国民党访团抵京,萧旭岑通告全球

小陆搞笑日常
2026-02-03 00:22:15
中国第一地级市为什么是苏州?难道深圳不是广东的地级市?

中国第一地级市为什么是苏州?难道深圳不是广东的地级市?

混沌录
2026-02-01 22:28:21
无视使馆警告,任性赴日游,这场暴雪让国人付出惨痛代价

无视使馆警告,任性赴日游,这场暴雪让国人付出惨痛代价

诺诺谈史
2026-02-02 15:42:06
四川3名副部级干部职务调整

四川3名副部级干部职务调整

荥经生活网
2026-02-02 18:28:46
金价急跌之下,银行密集提示风险!部分实物金全线售罄

金价急跌之下,银行密集提示风险!部分实物金全线售罄

新浪财经
2026-02-02 08:37:03
傅作义原本拟授上将,毛主席没点头,最终周总理亲自找傅说明原因

傅作义原本拟授上将,毛主席没点头,最终周总理亲自找傅说明原因

历史龙元阁
2026-01-05 08:55:07
小鹏机器人首秀摔了,这一跤,照出了它跟跑的这些年

小鹏机器人首秀摔了,这一跤,照出了它跟跑的这些年

澎湃新闻
2026-02-02 15:25:05
斯大林中风倒地后,为何医生不敢治?长时间无人扶?

斯大林中风倒地后,为何医生不敢治?长时间无人扶?

真猫爷的渔场
2026-01-17 21:14:12
许家印为保命爆出三大靠山!百亿房东浮出水面,抱得美人归引热议

许家印为保命爆出三大靠山!百亿房东浮出水面,抱得美人归引热议

诗意世界
2025-09-26 10:31:06
德约科维奇解释:为何纳达尔出现在澳网决赛现场让他感觉有点怪

德约科维奇解释:为何纳达尔出现在澳网决赛现场让他感觉有点怪

网球之家
2026-02-02 23:58:16
团灭!明家犯罪集团11人被执行死刑,枪毙一枪没打死,会补枪吗?

团灭!明家犯罪集团11人被执行死刑,枪毙一枪没打死,会补枪吗?

军武次位面
2026-02-02 17:43:16
上映两天票房仅596万,离开陈思诚后,他真的带不动票房

上映两天票房仅596万,离开陈思诚后,他真的带不动票房

小霍霍
2026-01-31 18:38:25
谁能想到,北京五环外那片曾经的庄稼地,竟成了容纳几十万人口的

谁能想到,北京五环外那片曾经的庄稼地,竟成了容纳几十万人口的

阿离家居
2026-02-02 19:40:20
或许,所有人都低估了特朗普的惊天阴谋

或许,所有人都低估了特朗普的惊天阴谋

刘胜军经济学大局观
2026-02-01 23:54:55
央媒怒批、坑害老百姓!臭名昭著的四大相声演员,各个难以原谅

央媒怒批、坑害老百姓!臭名昭著的四大相声演员,各个难以原谅

东方不败然多多
2026-02-02 15:37:59
2026-02-03 03:20:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7098文章数 548关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

房产
艺术
教育
时尚
家居

房产要闻

狂卖1548亿后,海南又上演疯狂抢地!

艺术要闻

2026年,中国最值得期待的20个新建筑

教育要闻

俞敏洪说“一大半老师不合格”?别急着骂,先听他说完

裤子+靴子:今年冬天最经典搭配,松弛又时髦!

家居要闻

现代几何彩拼 智焕童梦居

无障碍浏览 进入关怀版