网易首页 > 网易号 > 正文 申请入驻

阿里DAMO院携手南洋理工大学,让AI数学推理告别"梯度消失"困扰

0
分享至


这项由阿里巴巴DAMO院与南洋理工大学、新加坡科技设计大学联合开展的研究发表于2025年9月,研究人员包括来自DAMO院的冷思聪、王静、张昊等学者,以及南洋理工大学的陆维、孙爱新、卢时坚等专家。这项名为"MMR1:通过方差感知采样和开放资源增强多模态推理"的研究,为解决AI多模态推理训练中的关键技术难题提供了新的解决方案。有兴趣深入了解的读者可以通过论文编号arXiv:2509.21268v1查询完整论文。

在AI发展的浪潮中,让机器能够像人类一样进行复杂的数学推理一直是个巨大挑战。就像教小孩学数学一样,AI需要通过大量练习来掌握解题技巧,但在这个过程中经常遇到一个叫"梯度消失"的技术难题。想象你在教孩子做数学题时,如果每次给的练习题都太简单或太难,孩子就很难从中学到东西。AI也面临类似问题——当训练数据的奖励差异太小时,AI就像遇到了学习瓶颈,进步缓慢甚至停滞不前。

这个问题在使用强化学习训练AI时尤为突出。强化学习就像给AI设置一个奖惩机制,做对题目就给奖励,做错就不给或给负奖励。但现有的训练方法GRPO(群体相对策略优化)有个致命弱点:当AI对同一类题目的表现过于一致时,奖励之间的差异就会变得很小,导致学习信号微弱,就像老师给学生的反馈太模糊,学生无法从中获得有效指导。

研究团队针对这个核心问题,开发了一套名为"方差感知采样"(VAS)的创新训练策略。这个方法的核心思想很像一位经验丰富的老师挑选练习题的智慧。优秀的老师知道,最有效的练习题应该是那些学生有时能做对、有时会做错的题目,因为这类题目能提供最丰富的学习信息。

具体来说,研究团队设计了一个"方差促进评分"(VPS)系统,这个系统就像一个智能的题目筛选器。它会评估每个训练题目的"教学价值"——那些能产生不同结果的题目会被认为更有价值。这个评分系统包含两个关键组成部分:结果方差评分(OVS)和轨迹多样性评分(TDS)。

结果方差评分关注的是AI对某个题目的答题结果是否有足够的变化。如果AI对一道题总是答对或总是答错,这道题的教学价值就不高。但如果AI有时能答对、有时会答错,说明这道题正好处在AI的学习边界上,最适合用来训练。这就像游戏中的难度设置,太简单的关卡玩家会觉得无聊,太难的关卡会让玩家放弃,只有难度适中的关卡才能让玩家在挑战中不断进步。

轨迹多样性评分则关注AI解题过程的多样性。即使对同一道题,AI可能会采用不同的解题思路和步骤。就像同一道数学题可以用多种方法求解一样,AI如果能在解题过程中展现出多样性,说明它正在探索不同的推理路径,这对学习来说是非常有价值的。

有了这套评分系统,研究团队就能智能地选择训练数据了。他们的训练策略是将每个训练批次分成两部分:一部分根据VPS评分来选择那些最有教学价值的题目,另一部分则随机选择题目以保证训练的全面性。这种混合策略既确保了训练的针对性,又避免了过度专注于某类题目而忽略其他内容。

为了验证这套方法的有效性,研究团队不仅开发了算法,还精心构建了大规模的训练数据集。他们收集了约160万个长链式思考数据用于初始训练,这些数据包含了详细的解题步骤和推理过程。同时,他们还构建了约1.5万个用于强化学习的问答对,涵盖了数学、科学、图表分析等多个领域。

数据的质量控制也体现了研究团队的用心。他们使用先进的AI模型来生成和验证答案,确保训练数据的准确性。对于数学问题,他们特别关注难度分布,将问题分为简单、中等和困难三个级别,优先保留中等和困难的问题用于训练,因为这些问题更能锻炼AI的推理能力。

在理论分析方面,研究团队提供了严格的数学证明来支撑他们的方法。他们证明了奖励方差与策略梯度幅度之间存在正相关关系,这意味着通过增加奖励方差确实能够增强学习信号。这个理论基础为他们的方法提供了坚实的科学依据。

实验结果令人印象深刻。研究团队在多个标准测试集上评估了他们的方法,包括MathVerse、MathVista、MathVision、LogicVista和ChartQA等知名基准。结果显示,采用他们方法训练的模型在几乎所有测试中都取得了最佳性能。特别值得注意的是,即使是较小的3B参数模型也能与一些7B参数的竞争对手相媲美,这说明他们的方法不仅有效,而且高效。

研究团队还进行了详细的消融实验来分析各个组件的贡献。结果表明,方差感知采样策略确实能够显著改善训练效果,而且其中的两个评分组件——结果方差评分和轨迹多样性评分——各自都有重要作用,它们的结合产生了最佳效果。

在训练效率方面,采用方差感知采样的模型展现出更强的梯度信号和更稳定的训练过程。研究团队监测了训练过程中的关键指标,发现使用他们方法的模型梯度幅度更大、裁剪频率更高,这些都表明训练过程更加高效和稳定。

为了展示模型的实际推理能力,研究团队提供了详细的案例分析。以一道几何题为例,他们的模型能够系统地分析问题、制定解题计划、逐步执行计算,并在过程中进行自我验证和纠错。这种结构化的推理过程体现了模型在复杂问题解决方面的强大能力。

研究团队还分析了训练过程中方差促进评分的动态变化。他们发现,随着训练的进行,高分题目的分布会逐渐稳定,这表明模型正在识别并专注于那些最有学习价值的题目。同时,评分系统也会适应性地调整,确保始终能够选择到合适的训练数据。

除了算法创新,这项研究的另一个重要贡献是向学术界开放了大量高质量的训练资源。研究团队不仅发布了他们精心构建的数据集,还开源了完整的训练代码和预训练模型。这种开放的态度为整个研究社区提供了宝贵的资源,有助于推动多模态推理技术的进一步发展。

在超参数敏感性分析中,研究团队发现他们的方法对于关键参数的选择相当稳健。混合比例、更新频率、采样数量等关键参数在合理范围内都能保持良好的性能,这说明该方法具有良好的实用性和可操作性。

值得一提的是,这项研究不仅解决了技术问题,还为未来的研究指明了方向。通过深入分析梯度消失问题的根源并提出有效解决方案,研究团队为多模态推理领域的发展做出了重要贡献。他们的工作表明,通过巧妙的数据选择策略,可以显著提升强化学习的效果,这个思路也可能被应用到其他AI训练任务中。

尽管取得了显著成果,研究团队也坦诚地指出了当前方法的局限性。虽然方差感知采样能够缓解梯度消失问题,但并不能完全解决多模态强化学习中的所有训练不稳定性问题。此外,计算方差促进评分需要额外的计算开销,虽然可以通过调整更新间隔等方式来缓解。

展望未来,研究团队认为这项工作开启了多个有前景的研究方向。他们建议将方差感知采样扩展到更广泛的领域,探索其与不同奖励设计的结合,以及与更先进的强化学习算法的整合。这些后续研究有望进一步提升训练效率和模型性能。

说到底,这项研究就像给AI的数学学习过程装上了一个智能导师系统。这个导师不仅知道如何挑选最有价值的练习题,还能动态调整教学策略,确保AI能够高效地掌握复杂的推理技能。通过解决梯度消失这个核心技术难题,研究团队为AI在数学推理、科学分析等复杂任务上的应用铺平了道路。

更重要的是,他们开放共享的态度为整个AI研究社区提供了宝贵资源。其他研究者可以在此基础上继续创新,推动多模态AI技术向更高水平发展。这种协作精神正是科技进步的重要推动力,也让我们对AI未来在教育、科研等领域的应用充满期待。这项研究不仅是技术上的突破,更是为AI赋予更强推理能力迈出的重要一步。

Q&A

Q1:什么是方差感知采样,它是如何解决AI训练问题的?

A:方差感知采样是一种智能的训练数据选择策略,就像经验丰富的老师挑选练习题一样。它会优先选择那些AI有时能答对、有时会答错的题目进行训练,因为这类题目能提供最丰富的学习信息,从而解决强化学习中的梯度消失问题。

Q2:阿里巴巴DAMO院开发的MMR1模型在数学推理方面表现如何?

A:MMR1模型在多个标准测试中都取得了最佳性能,7B参数版本平均得分达到58.4,超越了所有同类模型。更令人惊喜的是,3B参数的小版本也能与许多7B参数的竞争对手相媲美,显示出极高的训练效率。

Q3:这项研究对普通人有什么实际意义?

A:这项研究让AI在数学解题、图表分析等复杂推理任务上更加智能和可靠,未来可能应用于智能教育、科研辅助等领域。研究团队还开源了代码和数据,为整个AI社区提供了宝贵资源,有助于推动相关技术的快速发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
詹姆斯43000分里程碑:41岁创历史首人纪录 无愧最长的河

詹姆斯43000分里程碑:41岁创历史首人纪录 无愧最长的河

醉卧浮生
2026-02-23 09:10:33
只落后中国1名!韩国队开冬奥总结会 柳承敏狂批:这1点让人羞愧

只落后中国1名!韩国队开冬奥总结会 柳承敏狂批:这1点让人羞愧

风过乡
2026-02-23 09:01:06
杨瀚森11+12+3+2帽:创G联赛生涯第二低 无缘率混音19分逆转

杨瀚森11+12+3+2帽:创G联赛生涯第二低 无缘率混音19分逆转

醉卧浮生
2026-02-23 09:21:12
北京一栋老楼原拆原建,不到6个月新房交付!业主负担成本几十万元,60多平现在挂出1200万元

北京一栋老楼原拆原建,不到6个月新房交付!业主负担成本几十万元,60多平现在挂出1200万元

每日经济新闻
2026-02-22 13:21:24
“上了高速,发现全是聪明人”!还有人带了一锅饭……

“上了高速,发现全是聪明人”!还有人带了一锅饭……

极目新闻
2026-02-23 08:54:39
曝库里球鞋合同进入三选一!安踏名列其中 或与克莱另类重聚

曝库里球鞋合同进入三选一!安踏名列其中 或与克莱另类重聚

罗说NBA
2026-02-23 09:06:10
宇树去年卖了5500台机器人,深挖后发现:买主根本不是普通人

宇树去年卖了5500台机器人,深挖后发现:买主根本不是普通人

离离言几许
2026-02-22 20:45:23
邓家佳翻车!2026年唯一公开发“LNY”的中国明星,评论区沦陷

邓家佳翻车!2026年唯一公开发“LNY”的中国明星,评论区沦陷

萌神木木
2026-02-22 15:20:15
哈登20+9吞加盟首败!骑士负残阵雷霆无缘8连胜 乔22分5断

哈登20+9吞加盟首败!骑士负残阵雷霆无缘8连胜 乔22分5断

罗说NBA
2026-02-23 04:46:37
谷爱凌发布会落泪:刚得知外婆去世,我向她保证过会勇敢

谷爱凌发布会落泪:刚得知外婆去世,我向她保证过会勇敢

澎湃新闻
2026-02-22 23:24:28
多国声援乌克兰战争4周年,罗马教皇拒绝美国250周年国庆邀请

多国声援乌克兰战争4周年,罗马教皇拒绝美国250周年国庆邀请

史政先锋
2026-02-22 21:35:51
米兰冬奥夺冠后才懂:谷爱凌与刘美贤,根本不是一路人!

米兰冬奥夺冠后才懂:谷爱凌与刘美贤,根本不是一路人!

春深似海水
2026-02-22 19:16:01
京东上的假货,为何如此招摇?

京东上的假货,为何如此招摇?

呦呦鹿鸣
2026-02-22 21:20:32
起底谷爱凌外婆冯国珍:北京退休干部,她铺就谷爱凌中国人的底色

起底谷爱凌外婆冯国珍:北京退休干部,她铺就谷爱凌中国人的底色

安宁007
2026-02-23 00:48:59
皇马球员辱华风波升级!多位明星名人是皇马球迷,网友呼吁发声

皇马球员辱华风波升级!多位明星名人是皇马球迷,网友呼吁发声

萌神木木
2026-02-22 16:04:33
被婆家宠着是啥体验?网友:终于看到正能量的博主了

被婆家宠着是啥体验?网友:终于看到正能量的博主了

解读热点事件
2026-02-01 00:05:06
堵疯了!广东进入堵车“炼狱”,20公里走5小时,比蜗牛爬还慢…

堵疯了!广东进入堵车“炼狱”,20公里走5小时,比蜗牛爬还慢…

火山詩话
2026-02-23 05:58:25
女子申请五笔网贷,400元要分36期,被“迷你贷”压垮,停止还款逾期1000天

女子申请五笔网贷,400元要分36期,被“迷你贷”压垮,停止还款逾期1000天

大风新闻
2026-02-22 16:38:04
澳洲医疗技术逆天! 华人全身血液抽干, 心跳停止, 40分钟后重生! 全球仅10例, 只有澳洲能做

澳洲医疗技术逆天! 华人全身血液抽干, 心跳停止, 40分钟后重生! 全球仅10例, 只有澳洲能做

澳微Daily
2026-02-22 14:06:29
4-1!哲凯赖什双响,1.3亿巨头伤退,阿森纳大胜,甩开曼城5分

4-1!哲凯赖什双响,1.3亿巨头伤退,阿森纳大胜,甩开曼城5分

我的护球最独特
2026-02-23 02:41:35
2026-02-23 11:44:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7289文章数 550关注度
往期回顾 全部

科技要闻

腾讯字节,“火拼”漫剧

头条要闻

海湖庄园被击毙男子身份确认:21岁美国人 曾发布画作

头条要闻

海湖庄园被击毙男子身份确认:21岁美国人 曾发布画作

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

谷爱凌奶奶去世,谷爱凌泪奔

财经要闻

结婚五金迈入10万大关 年轻人结婚更难了

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

时尚
数码
教育
亲子
房产

今年春天一定要拥有的针织,这样穿减龄又好看!

数码要闻

英国硬盘价格高得让人飞到美国购买:跨越半个地球竟省一大笔钱

教育要闻

福耀科技大学,揭牌首个境外机构

亲子要闻

自从有了俩双胞胎,我这家庭地位直线下降啊

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

无障碍浏览 进入关怀版