网易首页 > 网易号 > 正文 申请入驻

NVIDIA突破:AI实现数学推理的迭代优化能力

0
分享至


在人工智能飞速发展的今天,让机器解决复杂数学问题一直是个巨大挑战。这项由NVIDIA公司联合多家顶尖研究机构共同完成的研究发表于2026年2月,论文编号为arXiv:2602.09000v1。研究团队开发了一种名为"迭代组相对策略优化"(iGRPO)的全新训练方法,首次让AI系统学会像人类一样反复思考和改进数学解答。

当我们遇到复杂的数学题时,很少有人能一次性给出完美答案。更常见的情况是,我们先写出一个初步解答,然后仔细检查,发现问题后进行修改,如此反复直到得到满意的结果。然而,传统的AI训练方法却没有模拟这种自然的思维过程,而是要求机器一次性给出最终答案。

研究团队意识到了这个问题的根源。他们发现,尽管大型语言模型在数学推理方面已经取得了显著进展,但仍然经常产生错误或不一致的解答。问题在于现有的强化学习训练框架缺乏自我反思和改进的机制。就像一个学生总是匆忙交卷,从不检查和修改自己的答案一样,这些AI系统缺少了人类解决问题时最关键的环节。

为了解决这个问题,研究团队设计了一种两阶段的训练方法。这种方法的核心思想非常直观:首先让AI生成多个初步解答,从中选出最好的一个,然后以这个最佳解答为基础,训练AI生成更好的改进版本。这就像一个学生先快速写出几种可能的解题思路,选择其中最有希望的一个,然后在这个基础上仔细完善,写出最终的完美答案。

这种训练方法的巧妙之处在于创造了一个自我提升的循环。随着训练的进行,AI系统生成的初步解答质量越来越高,这些高质量的解答又成为进一步改进的更好起点。就像一个学生通过不断练习,不仅提高了初次解题的水平,也培养了检查和改进答案的能力。

研究团队在多个权威数学竞赛数据集上验证了这种方法的效果。结果令人印象深刻:在美国数学邀请赛(AIME)等高难度数学竞赛中,使用新方法训练的AI系统准确率达到了85.62%和79.64%,创造了新的最高纪录。这相当于在最具挑战性的数学竞赛中,AI的表现已经达到了顶尖人类学生的水平。

更重要的是,这种改进不需要额外的计算资源。研究团队巧妙地将原本用于生成单一答案的计算量重新分配到两个阶段:一半用于生成初步解答,一半用于改进这些解答。这意味着在相同的计算成本下,新方法能够显著提升AI的数学推理能力。

一、让AI学会"三思而后行":两阶段训练的奥秘

传统的AI训练就像让学生在考试中必须一次性写出答案,不允许任何修改或检查。而人类解决复杂问题的过程却完全不同,我们会自然地进行多轮思考和改进。研究团队的创新就在于模拟了这种人类的自然思维过程。

新方法的第一阶段被称为"探索性草稿生成"。在这个阶段,AI系统会针对同一个数学问题生成多个不同的解答尝试。就像一个学生面对难题时,会在草稿纸上尝试多种不同的解题思路。系统会评估这些不同尝试的质量,然后选出其中最有希望的那个解答作为基础。

第二阶段被称为"条件化改进"。系统会将第一阶段选出的最佳解答作为参考,在此基础上生成改进版本。这个过程就像学生拿着自己的初稿,仔细检查其中的错误和不足,然后写出更完善的最终答案。关键在于,系统不是简单地复制初稿,而是学会了如何在现有基础上进行真正的改进和完善。

这种两阶段方法的精妙之处在于创造了一个动态的自我提升循环。在训练初期,第一阶段生成的解答质量可能不高,但随着训练的深入,这些初步解答变得越来越好,从而为第二阶段提供了更好的改进起点。这就像一个学生通过不断练习,不仅提高了首次解题的水平,也培养了检查和改进答案的敏锐直觉。

研究团队还发现了一个有趣的现象:这种训练方法能够延缓AI系统的"熵坍塌"。简单来说,就是系统在训练过程中能够保持更长时间的探索性,不会过早地固化在某种特定的解题模式上。这让AI保持了更强的灵活性和创造性,能够处理更多样化的数学问题。

更令人惊讶的是,这种方法的效果并不局限于特定类型的AI系统。研究团队将同样的训练框架应用到不同规模和架构的模型上,从7亿参数的小型模型到140亿参数的大型模型,都观察到了显著的性能提升。这表明这种自我改进的训练机制具有很强的通用性。

二、从理论到实践:技术细节的深度解析

为了更好地理解这种方法的工作原理,我们可以把整个训练过程想象成一个精心设计的学习系统。这个系统不是简单地告诉AI什么是对的或错的,而是教会它如何从自己的尝试中学习和改进。

在技术实现上,研究团队基于一种叫做"组相对策略优化"(GRPO)的强化学习方法进行改进。这种方法的优势在于不需要单独训练一个价值评估网络,从而大大简化了训练过程。就像不需要请一位专门的老师来评分,而是让学生们互相比较学习一样。

新方法的核心在于如何构造训练数据。对于每一个数学问题,系统首先生成多个候选解答,然后使用奖励函数对这些解答进行评分。这里的奖励函数相对简单:如果答案正确就得1分,错误就得0分。虽然评分标准看似粗糙,但通过群体比较的方式,系统能够学到更细致的解题技巧。

接下来的关键步骤是构造"增强提示"。系统会将原始问题和选出的最佳解答拼接在一起,形成一个新的输入。这就像告诉学生:"这里有一道题,这是一个不错的解答思路,现在请你写出一个更好的版本。"这种设计让AI学会了在已有基础上进行改进的能力。

在数学推导方面,研究团队证明了这种方法具有"渐进式条件改进"的特性。随着训练的进行,第一阶段选出的最佳解答质量单调递增,这为第二阶段提供了越来越好的改进起点。这种正反馈循环确保了整个系统的持续提升。

特别值得注意的是,这种方法在计算效率上的优势。传统方法可能需要生成16个解答,而新方法将这16次生成机会分配给两个阶段:8次用于探索,8次用于改进。总的计算量保持不变,但解题质量显著提升。这就像用同样的时间,通过更好的时间分配策略获得了更好的结果。

研究团队还详细分析了训练动态。他们发现,使用新方法训练的AI系统在训练过程中能够保持更高的策略熵值,这意味着系统在更长时间内保持了探索不同解题策略的能力,而不是过早地收敛到某种固定模式。

三、实验验证:在数学竞赛中的卓越表现

为了验证新方法的有效性,研究团队设计了一系列严格的对比实验。他们选择了多个具有代表性的数学推理基准测试,包括美国数学邀请赛(AIME)、数学竞赛(MATH)、以及其他权威的数学问题集。

在实验设计上,研究团队特别注意确保比较的公平性。他们在完全相同的计算预算下比较新旧方法的性能,确保观察到的改进确实来自于算法本身而不是额外的计算资源。这就像在相同的时间限制下比较两种不同的学习策略一样。

实验结果令人印象深刻。在8B参数的Nemotron模型上,新方法将平均准确率从41.08%提升到45.04%,实现了近4个百分点的显著改进。在7B参数的DeepSeek模型上,准确率从68.29%提升到69.87%。虽然基础性能已经很高的模型改进幅度相对较小,但这种一致性的提升表明了方法的鲁棒性。

最引人注目的成果出现在大规模训练实验中。研究团队使用OpenReasoning-Nemotron-7B模型,在包含9400个问题的AceReason-Math数据集上进行训练。训练完成后的模型在AIME24和AIME25测试中分别达到了85.62%和79.64%的准确率,创造了新的最高纪录。

这些数字背后的意义非常重大。AIME是美国最具挑战性的高中数学竞赛之一,能够在这样的竞赛中达到80%以上的准确率,意味着AI系统已经达到了顶尖人类学生的水平。要知道,这些问题往往需要深度的数学洞察和复杂的推理链。

研究团队还进行了细致的消融实验来分析各个组件的贡献。他们发现,这种两阶段的训练方法不仅适用于GRPO,也能够显著改进其他类似的强化学习算法,如DAPO和GSPO。这表明所提出的自我反馈机制具有很好的通用性。

特别有趣的是,研究团队还测试了使用生成式判断器(如GPT-5)代替简单的正确/错误判断的效果。结果显示,更细致的奖励信号能够进一步提升性能,平均准确率额外提升了约1个百分点。这为未来的改进方向提供了有价值的指导。

在计算效率分析中,研究团队证实了他们的理论预期。新方法的峰值内存使用量与传统方法几乎相同(54.93GB vs 54.93GB),而训练吞吐量仅有小幅下降(从0.41样本/秒降至0.34样本/秒)。总的训练时间增加约13%,但考虑到显著的性能提升,这个额外开销是完全可以接受的。

四、深入机理:为什么这种方法如此有效

要理解这种训练方法为什么如此有效,我们需要深入分析人类和机器在解决复杂问题时的根本差异。人类在面对困难数学题时,很自然地会采用迭代改进的策略:先有一个大致的思路,然后逐步完善细节,发现错误后及时修正。

传统的AI训练方法却没有模拟这种自然的问题解决过程。它们要求模型在看到问题后直接生成最终答案,就像要求学生在考试中不允许打草稿或修改一样。这种训练方式忽略了思维过程中最宝贵的部分:反思和改进。

新方法的突破在于引入了"动态自我条件化"的概念。与传统的情境学习(使用固定的示例作为参考)不同,这里的参考示例是由模型自己生成的,并且会随着训练的进行而不断改善。这创造了一个自我强化的学习循环。

从神经科学的角度来看,这种方法更接近人脑的工作方式。人脑在解决复杂问题时会激活多个相关的神经网络,它们之间相互协调,通过多轮迭代达成最终的解决方案。新的训练方法通过两阶段设计模拟了这种协调过程。

研究团队通过熵分析发现了一个重要现象:新方法能够有效延缓"模式坍塌"。在传统训练中,AI系统往往会快速收敛到某种固定的解题模式,失去了探索其他可能性的能力。而新方法让系统在更长时间内保持了多样性和创造性。

这种效果的产生有其深层的数学原理。研究团队证明,在二元奖励(正确/错误)的情况下,第一阶段选出的最佳解答的期望奖励会随着模型性能的提升而单调增长。这确保了训练过程中条件化信号的质量会持续改善。

另一个关键因素是"引导式探索"。第一阶段的多次尝试不是随机的,而是在当前策略指导下的有目的探索。这就像一个有经验的登山者会在多条可能的路径中选择最有希望的一条,然后在这个基础上寻找最佳的攀登路线。

实验数据还揭示了一个有趣的现象:这种方法在处理长推理链问题时效果尤其显著。对于需要多步推理的复杂数学题,传统方法很容易在某个步骤出错而导致整个解答失败。而新方法通过第一阶段的探索,更容易找到一个大致正确的推理框架,然后在第二阶段中完善细节。

五、实际应用与未来展望

这项研究的意义远不止于在数学竞赛中取得好成绩。它为AI系统学习复杂推理技能提供了一种全新的范式,这种范式可能会对多个领域产生深远影响。

在教育领域,这种技术可能会催生更智能的数学辅导系统。这样的系统不仅能够解答数学问题,还能展示思考过程,帮助学生理解如何从初步想法发展到完整解答。学生可以看到AI是如何识别和纠正错误的,从而学会这种宝贵的自我检查技能。

在科学研究中,这种迭代改进的方法可能有助于自动化假设生成和验证过程。研究人员可以让AI系统生成初步的研究思路,然后引导它们完善这些想法,形成更严谨的研究方案。这种人机协作的研究模式可能会大大加速科学发现的进程。

工程设计领域也可能从这种技术中受益。复杂工程问题的解决往往需要多轮设计、测试和改进。AI系统如果能够学会这种迭代设计的思维方式,就能够成为工程师更有价值的助手。

从技术发展的角度看,这项研究为大语言模型的训练提供了新的思路。目前大多数模型的训练都专注于单轮对话或单次生成,而忽略了多轮思考和改进的能力。未来的AI系统可能会更多地采用这种迭代训练的方法。

研究团队也指出了当前方法的一些限制。例如,第一阶段的选择机制相对简单,只是基于奖励分数进行选择。未来可能需要更复杂的选择策略,能够考虑解答的多样性和互补性,而不仅仅是单一的质量分数。

另一个有待改进的方面是奖励函数的设计。目前使用的二元奖励(正确/错误)虽然简单有效,但可能无法捕捉到解答过程中的微妙差异。研究团队已经展示了使用更复杂的生成式判断器的潜力,这为未来的改进提供了方向。

计算效率也是需要持续关注的问题。虽然新方法在相同计算预算下表现更好,但绝对的计算需求仍然不低。如何进一步优化这种训练过程,使其能够在更有限的资源下运行,是一个重要的实践问题。

从长远来看,这种自我改进的训练方法可能会成为AI系统的标准配置。就像人类学习过程中的反思和改进是不可或缺的一样,未来的AI系统也可能会内置这种迭代优化的能力。

说到底,这项研究最大的价值在于它揭示了一个重要的原理:让AI更像人类一样思考,不是要让它们变得不理性或情绪化,而是要让它们学会人类思维中最有价值的部分——持续的自我反思和改进能力。当我们的AI助手能够像人类一样"三思而后行"时,它们就能够在更多复杂的现实问题中为我们提供真正有价值的帮助。

这种技术的发展也提醒我们,AI的进步不一定要依赖更大的模型或更多的数据,有时候更好的训练方法和更深刻的洞察能够带来意想不到的突破。正如这项研究所展示的,通过模拟人类自然的学习过程,我们可以让AI在相同的资源约束下实现显著更好的性能。

未来,当我们面对需要复杂推理的问题时,我们的AI助手将不再是只会给出单一答案的工具,而是能够与我们一起思考、一起改进解决方案的智能伙伴。这种合作关系将开启人工智能应用的新纪元。

Q&A

Q1:iGRPO是什么技术?

A:iGRPO是"迭代组相对策略优化"的简称,由NVIDIA研究团队开发的一种AI训练方法。它让AI学会像人类一样分两步解决数学问题:先生成多个初步解答并选出最好的,再基于这个最佳解答生成改进版本。这种方法模拟了人类反复思考和完善答案的自然过程。

Q2:这种方法需要更多计算资源吗?

A:不需要。研究团队巧妙地将原本的计算量重新分配:如果传统方法生成16个解答,新方法就用8次生成初步解答,8次生成改进版本,总计算量保持不变。实验显示训练时间只增加约13%,但数学推理准确率显著提升。

Q3:iGRPO在数学竞赛中表现如何?

A:表现非常出色。在美国数学邀请赛AIME24和AIME25中,使用iGRPO训练的AI系统分别达到了85.62%和79.64%的准确率,创造了新的最高纪录。这个成绩已经达到了顶尖人类学生的水平,要知道这些都是最具挑战性的高中数学竞赛题目。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
TVB御用邪花日本遇车祸!雪地打滑险被撞下河!惊呼:以为要死掉

TVB御用邪花日本遇车祸!雪地打滑险被撞下河!惊呼:以为要死掉

我爱追港剧
2026-02-12 21:55:22
广东一女子外卖点到关停一年多的“僵尸店”,骑手到店扑空,平台竟判定骑手“超时未送达”,对其罚款10元

广东一女子外卖点到关停一年多的“僵尸店”,骑手到店扑空,平台竟判定骑手“超时未送达”,对其罚款10元

大象新闻
2026-02-11 16:45:09
博主吐槽被拒载于是自己买车载狗,看到当事狗后,网友集体反水:你知道的,我很少站司机这边除了这次!

博主吐槽被拒载于是自己买车载狗,看到当事狗后,网友集体反水:你知道的,我很少站司机这边除了这次!

爱宠物
2026-02-12 21:48:37
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
人民币在朝鲜的购买力,到底有多强?一位中国游客的震撼之旅

人民币在朝鲜的购买力,到底有多强?一位中国游客的震撼之旅

番外行
2026-02-11 14:19:41
广东一公园凌晨4点公放“恭喜发财”音乐,有市民在睡梦中被吵醒!公园:线路出现故障

广东一公园凌晨4点公放“恭喜发财”音乐,有市民在睡梦中被吵醒!公园:线路出现故障

广东吃喝玩乐
2026-02-12 12:06:24
万科两年亏损1300多亿,如今再看万宝之争,难道没有其他原因?

万科两年亏损1300多亿,如今再看万宝之争,难道没有其他原因?

林小明商业评说
2026-02-10 11:10:30
望月海辉:我非常想参加世界杯,但我的水平想入选日本队很难

望月海辉:我非常想参加世界杯,但我的水平想入选日本队很难

懂球帝
2026-02-12 18:06:07
该地要发展,要驻军部队撤离,个别人言语不当,军政委没惯着对方

该地要发展,要驻军部队撤离,个别人言语不当,军政委没惯着对方

混沌录
2026-02-13 00:10:13
你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

带你感受人间冷暖
2026-01-29 00:10:05
贝林厄姆突然摊牌!皇马全队沉默,22 岁核心一句话引爆更衣室

贝林厄姆突然摊牌!皇马全队沉默,22 岁核心一句话引爆更衣室

奶盖熊本熊
2026-02-13 07:00:26
这跟不穿有啥区别?格莱美红毯女星穿衣大胆,连美国网友都无语了

这跟不穿有啥区别?格莱美红毯女星穿衣大胆,连美国网友都无语了

梦醉为红颜一笑
2026-02-10 14:52:10
统一贴出“便民告示”!上海600多家便利店全面恢复代收水电煤费用

统一贴出“便民告示”!上海600多家便利店全面恢复代收水电煤费用

上观新闻
2026-02-12 21:21:04
李亚鹏突然提到十年前最难时给黄晓明发短信,不到一分钟收到回复

李亚鹏突然提到十年前最难时给黄晓明发短信,不到一分钟收到回复

百态人间
2026-02-10 15:25:10
赛季报销?爵士官宣全明星贾伦-杰克逊将接受膝盖手术 刚加盟3场

赛季报销?爵士官宣全明星贾伦-杰克逊将接受膝盖手术 刚加盟3场

醉卧浮生
2026-02-13 00:15:14
高市早苗大获全胜之后,我们一些人真该好好反思

高市早苗大获全胜之后,我们一些人真该好好反思

少年一白
2026-02-11 02:54:53
为什么他们可以闻到身上的穷酸味?看完网友评论我真的破防了

为什么他们可以闻到身上的穷酸味?看完网友评论我真的破防了

夜深爱杂谈
2026-01-15 21:07:43
韩莹老公真敢说:孙颖莎像马龙,王曼昱像樊振东,王曼昱打硬实力,孙颖莎前三板更强

韩莹老公真敢说:孙颖莎像马龙,王曼昱像樊振东,王曼昱打硬实力,孙颖莎前三板更强

好乒乓
2026-02-12 12:38:05
花1580买的“永久”服务,5年后100块没人要!厂家套路太深了!

花1580买的“永久”服务,5年后100块没人要!厂家套路太深了!

沙雕小琳琳
2026-02-12 00:32:34
金正恩同志教大家如何赢了又赢!

金正恩同志教大家如何赢了又赢!

微微热评
2026-02-12 12:44:23
2026-02-13 07:51:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1838文章数 161关注度
往期回顾 全部

科技要闻

于东来的两次告别背后:创始人为何总是“退而不休”

头条要闻

中方提出要求 立陶宛新总理"认错":能改

头条要闻

中方提出要求 立陶宛新总理"认错":能改

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科?

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

游戏
手机
亲子
数码
家居

《约会大作战:莲反乌托邦》豪华版39.6元 临时工出错?

手机要闻

三星Galaxy S26+芯片有别,2月26日发布会见分晓!

亲子要闻

孩子最渴望听到父母说的五句话

数码要闻

YouTube应用正式登陆Apple Vision Pro 支持8K视频播放

家居要闻

本真栖居 爱暖伴流年

无障碍浏览 进入关怀版