网易首页 > 网易号 > 正文 申请入驻

ICLR 2026|MathForge:用难题驱动强化学习,提升大模型数学推理

0
分享至

来源:市场资讯

(来源:机器之心)


代彦琪(个人主页:https://yanqidai.github.io/),现为人大高瓴四年级直博生、南洋理工大学访问学生,师从卢志武教授与张含望教授,主要研究方向为多模态大模型和强化学习。预计于 2027 年 6 月毕业,目前正积极寻求工业界发展机会。

在大模型数学推理的强化学习中,一个看似简单、却长期没有被认真回答的问题是:模型在训练时,到底应该更重视哪些题目?

太容易的题,模型往往已经掌握,继续训练带来的收益有限;完全不会的题,在当前阶段又很难提供有效的正向学习信号。真正最值得投入训练预算的,往往是那些更难,但并非不可学的问题。

围绕这一点,中国人民大学高瓴人工智能学院联合阿里巴巴高德、厦门大学和大连理工大学的研究团队提出 MathForge:从算法和数据两端同时发力,让大模型在强化学习过程中更有效地攻克难题,从而显著提升数学推理能力。


  • 论文题目:Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

  • 论文地址:https://arxiv.org/abs/2601.20614

  • 代码仓库:https://github.com/AMAP-ML/MathForge

一、为什么现有方法还不够「重视难题」?

近年来,基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)的方法,已经成为提升大模型数学推理能力的重要路线。它不依赖额外训练奖励模型,而是直接通过规则检查答案是否正确,因此在数学这类“答案可验证”的任务上非常自然、也非常高效。

但这篇工作指出,现有方法对「难题」的忽视,实际上来自两个层面。

第一,是算法层面。

当前广泛使用的 GRPO,本质上是在同一道题生成的一组回答之间做相对比较,再决定更新方向和更新幅度。问题在于,这种机制并不会天然让模型更关注难题。相反,论文通过理论分析指出:GRPO 的更新强度会更偏向中等难度题,而对过难和过易题的更新反而会被压低。

这意味着在同一个训练批次中,那些真正能暴露模型短板、但又不是完全学不会的「难而可学」问题,未必能得到足够大的训练信号。模型最该花精力去学的题,不一定真的被重点学到了。

第二,是数据层面。

已有的数学推理数据增强方法,常见做法要么是从头生成新的题目和答案,要么只是对原题做简单重述。前者往往很难保证答案质量,尤其是高难度竞赛数学题;后者虽然提升了表述多样性,却没有真正提高了题目的内在难度。

二、MathForge:从算法

和数据两端同时「锻造」模型

为了解决上面这两个问题,论文提出了一个双轮驱动框架 MathForge。它由两个核心部分组成:

  • DGPO:Difficulty-Aware Group Policy Optimization,难度感知的组策略优化

  • MQR:Multi-Aspect Question Reformulation,多方面问题改写

一个解决「怎么学」,一个解决「学什么」。

1. DGPO:让「更难但可学」的题真正被学到

DGPO 的核心思想,并不是一句简单的「给难题更高权重」,而是一个非常清晰的两步过程:先平衡,再重加权。

第一步,是 DGAE(Difficulty-balanced Group Advantage Estimation,难度平衡的组优势估计)。

作者发现,GRPO 中对优势的归一化方式会带来对不同难度问题的更新幅度的不平衡。具体来讲,GRPO 的优化目标如下:


在不考虑梯度剪裁的情况下,GRPO 的策略梯度如下:


把 GRPO 的梯度拆开来看,会发现优势项的符号决定更新方向,而优势项的绝对值决定更新幅度。所以,一道题对参数更新的整体影响,可以用组内所有回答优势绝对值之和来近似理解。

作者在下方的定理 1 中证明:在使用二值正确性奖励的情况下,GRPO 对单道题的总更新幅度与


代表这道题的回答正确率。

代表轨迹采样次数,

成正比,其中


这个函数在=0.5时最大,而当接近 0 或 1 时都会下降。直观上,这意味着中等难度的问题更主要地推动参数更新,而特别容易和比较困难的问题,更新都会被压小。

其中最值得注意的是那些困难但可答对的题目:它们正确率不高,但并不是完全不会做。作者认为这类题其实最有训练价值,因为它们恰好暴露了模型尚未掌握、但已经接近掌握的能力边界。

为此,DGAE 用平均绝对偏差(MAD)替代了原先的标准差归一化,其组相关优势的计算方式如下:


作者在下方的定理 2 中证明:在不依赖必须使用二值正确性奖励的情况下,DGAE 对每道题的总更新幅度为相等的定值 。这让不同题目的更新幅度变得更加平衡,不再天然偏向中等难度题。


第二步,是 DQW(Difficulty-aware Question-level Weighting,难度感知的问题级别加权)。

在更新幅度被拉平之后,DQW 再根据题目当前的平均正确率来估计难度,对那些更难、但仍有有效学习信号的问题赋予更高权重。具体的权重计算方式如下:


2. MQR:把问题改得更难,但答案不变

如果说 DGPO 回答的是「怎么学」,那么 MQR 回答的就是「学什么」。

MQR 不满足于对原题做浅层重述,而是系统性地从三个方向提升题目难度,同时严格保持原始标准答案不变。核心指令如下:


第一种是 Background。

给原题加入看似相关、但实际上会带来干扰的信息背景,让模型必须在更复杂的叙述里抓住真正关键的数学条件。

第二种是 Term。

给题目中的核心概念引入新的抽象术语,让模型不能只靠熟悉的表面表达来作答,而必须真正理解定义和结构。

第三种是 Sub-Problem。

把原题中的一个关键数值条件改造成一个需要先求解的小问题,再返回主问题。这会显著增加推理链条长度,也更考验模型的多步推理和跨领域推理能力。

构造数据时有一个严格的限制条件是:所有改写后的题目都必须保持原始 gold answer 不变。

这意味着,MQR 不是在重新造一套不稳定的新题,而是在尽量不破坏数学本质和标准答案的前提下,系统性地把同一道题改得更难、更有挑战性。这样既保证了训练信号的可靠性,也降低了额外数据构造的成本和难度。

三、实验结果:更难的训练,

带来更强、更稳、更泛化的推理

实验结果非常清楚地说明了一点:更难的问题,确实更值得学。

如表 1 所示,在主实验设置下,无论是只使用 DGPO,还是只使用 MQR,都能明显超过强基线 GRPO;而当两者结合成完整的 MathForge 后,效果进一步达到最好,相比 GRPO 带来了超过 4.5 个点的平均提升。更重要的是,这个优势并不是只在单一对比下成立,而是在与多种已有强化学习优化方法比较时,依然保持了最强的整体表现。


进一步地,如表 2 所示,MathForge 在不同大小、不同类型的基础模型上都保持了稳定收益。从较小模型到 7B 级模型,它都能带来大约 3 到 4.5 个点的平均提升。这说明它并不是依赖某一个特定 backbone 的「技巧性调参」,而是一种更普适的训练原则。


在算法分析上,如表 3 所示,DGPO 的两个关键设计也都被验证是必要的:DGAE 负责先把不同难度问题的更新强度拉平,DQW 再把训练重点推向更难但可学的问题,两者是互补关系,而不是可有可无的附加项。与此同时,如表 4 所示,DGPO 还可以与多种现有强化学习方法直接结合,并继续带来额外收益,说明它并不是一个封闭替代方案,而更像是一种可插拔的通用增强机制。



更值得注意的是,这种「按难度组织学习」的思路并不只适用于文本数学任务。如表 5 所示,论文还把 DGPO 应用到了多模态数学推理场景中,结果同样比 GRPO 有超过 2 个点的提升。这说明 MathForge 所强调的,并不是某个特定数据集上的偶然技巧,而可能是一种更广泛适用的后训练思路:不同问题不应该被一视同仁,训练预算应该优先留给更难、但仍有学习价值的问题。


从数据角度看,MQR 的效果也并不只是「样本变多了」。如表 6 和表 7 所示,论文专门控制了总训练量后发现,使用 MQR 改写后的数据依然优于只用原始数据的训练版本;三种改写策略单独使用时都有效,组合起来效果最好。这意味着 MQR 真正带来的,是更有价值的训练样本,而不是简单的样本堆叠。更细致的难度分析还表明,这三类改写后的问题整体都比原题更难,其中把关键条件改造成子问题的方式最能拉高推理难度。



在训练动态方面,如图 1 所示,对于 DGPO 来说,模型不仅更准,而且输出还更简短,说明它学到的不是更冗长的推理,而是更高效的推理路径。


如图 2 所示,对于 MQR 来说,模型在训练阶段的准确率变得更低,但最终测试表现却反而更好,呈现出非常直观的「train harder, test better」现象。也就是说,更难的数据确实在逼着模型形成更强的泛化能力,而不是只在容易题上反复刷分。


四、总结

MathForge 真正回答了一个非常关键的问题:在强化学习里,哪些题最值得学?

答案不是最简单的题,也不是完全不会的题,而是那些更难、但仍然可学的问题。DGPO 负责让模型在训练中真正重视这类问题,MQR 负责稳定地产生这类问题。两者结合,最终把「更难的训练」转化成了「更强的推理」。

从这个意义上说,MathForge 的价值不只是把数学推理结果再往前推了一步,更重要的是它提供了一种非常清晰的训练观:不是所有样本都应该被平等对待,真正高价值的学习,往往发生在难而可学的边界地带。

这也正是这篇工作的标题想表达的核心:Harder Is Better。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
难怪美国一点不慌,原来真有内鬼输血!1200吨战略物资被悄悄贱卖

难怪美国一点不慌,原来真有内鬼输血!1200吨战略物资被悄悄贱卖

起喜电影
2026-04-26 03:31:05
1995年,在北京蜗居13年的吴德病逝,留下三行遗嘱令人落泪

1995年,在北京蜗居13年的吴德病逝,留下三行遗嘱令人落泪

蒋南强读历史
2026-04-26 09:30:06
性能力与寿命关系被发现!男性40岁后,睾酮越高,死亡风险越低

性能力与寿命关系被发现!男性40岁后,睾酮越高,死亡风险越低

药师说健康
2025-12-05 09:47:10
17中13轰43分!历史首人!6换2大交易捡到宝了

17中13轰43分!历史首人!6换2大交易捡到宝了

世界体育圈
2026-04-26 12:44:24
王思雨颁奖笑成花儿!获金球奖励成关键之王 大方展示金牌超飒

王思雨颁奖笑成花儿!获金球奖励成关键之王 大方展示金牌超飒

颜小白的篮球梦
2026-04-26 07:31:42
畸形母爱毁星二代:母乳12年同床15年荒唐事

畸形母爱毁星二代:母乳12年同床15年荒唐事

看尽落尘花q
2026-04-25 14:10:18
悲喜两重天!蓉城4-0冲冠,津门虎4-2破咒,中超一夜改写历史

悲喜两重天!蓉城4-0冲冠,津门虎4-2破咒,中超一夜改写历史

宝哥精彩赛事
2026-04-26 13:32:38
没有不透风的墙!沈腾和林允的瓜未必是假的、站姐关站跑路

没有不透风的墙!沈腾和林允的瓜未必是假的、站姐关站跑路

琴声飞扬
2026-01-20 14:25:10
马宁抢镜亚冠决赛!指示主裁罚下沙特球员 霸气伸指+喝退对方质疑

马宁抢镜亚冠决赛!指示主裁罚下沙特球员 霸气伸指+喝退对方质疑

我爱英超
2026-04-26 06:11:19
外国人挤爆北京车展,全球汽车进入中国时间

外国人挤爆北京车展,全球汽车进入中国时间

汽车公社
2026-04-26 08:35:08
伊朗副议长:穆杰塔巴下令霍尔木兹海峡不得恢复战前状态

伊朗副议长:穆杰塔巴下令霍尔木兹海峡不得恢复战前状态

财联社
2026-04-26 07:40:26
往事悠悠:七十年代随父母下放到农村,那段经历我记忆深刻

往事悠悠:七十年代随父母下放到农村,那段经历我记忆深刻

草根情感故事茶社
2026-04-25 13:22:28
穆杰塔巴敦促“伊朗南边邻国”认清形势

穆杰塔巴敦促“伊朗南边邻国”认清形势

环球网资讯
2026-04-26 06:43:08
胡金秋:我想在CBA赛场打到父子同台

胡金秋:我想在CBA赛场打到父子同台

新浪财经
2026-04-26 13:49:37
这就是赤裸裸的现实!公交集团的退休工资,估计是普通人天花板了

这就是赤裸裸的现实!公交集团的退休工资,估计是普通人天花板了

朗威谈星座
2026-04-26 09:49:40
最新:乌克兰收复扎波罗热要塞并构建立足点!再推进15公里

最新:乌克兰收复扎波罗热要塞并构建立足点!再推进15公里

项鹏飞
2026-04-25 22:56:08
醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

芹姐说生活
2026-04-19 15:52:53
得寸进尺?切尔西允许埃斯特旺不做手术 后者坚持回巴西做康复

得寸进尺?切尔西允许埃斯特旺不做手术 后者坚持回巴西做康复

雪狼侃体育
2026-04-26 14:01:25
一天4大瓜炸穿内娱!陈晓狠撕陈妍希,出轨插足塌房全齐活

一天4大瓜炸穿内娱!陈晓狠撕陈妍希,出轨插足塌房全齐活

阿废冷眼观察所
2026-04-26 02:39:23
41岁著名演员突然离世,抛下年仅11岁儿子,亲友:生前无异样

41岁著名演员突然离世,抛下年仅11岁儿子,亲友:生前无异样

LULU生活家
2026-04-25 14:50:49
2026-04-26 15:15:01
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3012347文章数 6941关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

特朗普2年内遭遇4次刺杀威胁 第一个任期也曾险遭袭击

头条要闻

特朗普2年内遭遇4次刺杀威胁 第一个任期也曾险遭袭击

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《八千里路云和月》大结局意难平

财经要闻

DeepSeek V4背后,梁文锋的转身

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

本地
游戏
旅游
数码
公开课

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

Pearl Abyss 正式发布《红色沙漠》首张官方原声音乐专辑

旅游要闻

下一站|一天体验越南三大特色

数码要闻

小米截至2025年底全球授权专利超4.5万项 智能座舱专利中国第一

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版