ICLR 2026｜MathForge：用难题驱动强化学习，提升大模型数学推理|方向|算法

ICLR 2026｜MathForge：用难题驱动强化学习，提升大模型数学推理

2026-04-26 10:47:54　来源: 新浪财经

北京举报

分享至

来源：市场资讯

（来源：机器之心）

代彦琪（个人主页：https://yanqidai.github.io/），现为人大高瓴四年级直博生、南洋理工大学访问学生，师从卢志武教授与张含望教授，主要研究方向为多模态大模型和强化学习。预计于 2027 年 6 月毕业，目前正积极寻求工业界发展机会。

在大模型数学推理的强化学习中，一个看似简单、却长期没有被认真回答的问题是：模型在训练时，到底应该更重视哪些题目？

太容易的题，模型往往已经掌握，继续训练带来的收益有限；完全不会的题，在当前阶段又很难提供有效的正向学习信号。真正最值得投入训练预算的，往往是那些更难，但并非不可学的问题。

围绕这一点，中国人民大学高瓴人工智能学院联合阿里巴巴高德、厦门大学和大连理工大学的研究团队提出 MathForge：从算法和数据两端同时发力，让大模型在强化学习过程中更有效地攻克难题，从而显著提升数学推理能力。

论文题目：Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation
论文地址：https://arxiv.org/abs/2601.20614
代码仓库：https://github.com/AMAP-ML/MathForge

一、为什么现有方法还不够「重视难题」？

近年来，基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）的方法，已经成为提升大模型数学推理能力的重要路线。它不依赖额外训练奖励模型，而是直接通过规则检查答案是否正确，因此在数学这类“答案可验证”的任务上非常自然、也非常高效。

但这篇工作指出，现有方法对「难题」的忽视，实际上来自两个层面。

第一，是算法层面。

当前广泛使用的 GRPO，本质上是在同一道题生成的一组回答之间做相对比较，再决定更新方向和更新幅度。问题在于，这种机制并不会天然让模型更关注难题。相反，论文通过理论分析指出：GRPO 的更新强度会更偏向中等难度题，而对过难和过易题的更新反而会被压低。

这意味着在同一个训练批次中，那些真正能暴露模型短板、但又不是完全学不会的「难而可学」问题，未必能得到足够大的训练信号。模型最该花精力去学的题，不一定真的被重点学到了。

第二，是数据层面。

已有的数学推理数据增强方法，常见做法要么是从头生成新的题目和答案，要么只是对原题做简单重述。前者往往很难保证答案质量，尤其是高难度竞赛数学题；后者虽然提升了表述多样性，却没有真正提高了题目的内在难度。

二、MathForge：从算法

和数据两端同时「锻造」模型

为了解决上面这两个问题，论文提出了一个双轮驱动框架 MathForge。它由两个核心部分组成：

DGPO：Difficulty-Aware Group Policy Optimization，难度感知的组策略优化
MQR：Multi-Aspect Question Reformulation，多方面问题改写

一个解决「怎么学」，一个解决「学什么」。

1. DGPO：让「更难但可学」的题真正被学到

DGPO 的核心思想，并不是一句简单的「给难题更高权重」，而是一个非常清晰的两步过程：先平衡，再重加权。

第一步，是 DGAE（Difficulty-balanced Group Advantage Estimation，难度平衡的组优势估计）。

作者发现，GRPO 中对优势的归一化方式会带来对不同难度问题的更新幅度的不平衡。具体来讲，GRPO 的优化目标如下：

在不考虑梯度剪裁的情况下，GRPO 的策略梯度如下：

把 GRPO 的梯度拆开来看，会发现优势项的符号决定更新方向，而优势项的绝对值决定更新幅度。所以，一道题对参数更新的整体影响，可以用组内所有回答优势绝对值之和来近似理解。

作者在下方的定理 1 中证明：在使用二值正确性奖励的情况下，GRPO 对单道题的总更新幅度与

代表这道题的回答正确率。

代表轨迹采样次数，

成正比，其中

这个函数在=0.5时最大，而当接近 0 或 1 时都会下降。直观上，这意味着中等难度的问题更主要地推动参数更新，而特别容易和比较困难的问题，更新都会被压小。

其中最值得注意的是那些困难但可答对的题目：它们正确率不高，但并不是完全不会做。作者认为这类题其实最有训练价值，因为它们恰好暴露了模型尚未掌握、但已经接近掌握的能力边界。

为此，DGAE 用平均绝对偏差（MAD）替代了原先的标准差归一化，其组相关优势的计算方式如下：

作者在下方的定理 2 中证明：在不依赖必须使用二值正确性奖励的情况下，DGAE 对每道题的总更新幅度为相等的定值。这让不同题目的更新幅度变得更加平衡，不再天然偏向中等难度题。

第二步，是 DQW（Difficulty-aware Question-level Weighting，难度感知的问题级别加权）。

在更新幅度被拉平之后，DQW 再根据题目当前的平均正确率来估计难度，对那些更难、但仍有有效学习信号的问题赋予更高权重。具体的权重计算方式如下：

2. MQR：把问题改得更难，但答案不变

如果说 DGPO 回答的是「怎么学」，那么 MQR 回答的就是「学什么」。

MQR 不满足于对原题做浅层重述，而是系统性地从三个方向提升题目难度，同时严格保持原始标准答案不变。核心指令如下：

第一种是 Background。

给原题加入看似相关、但实际上会带来干扰的信息背景，让模型必须在更复杂的叙述里抓住真正关键的数学条件。

第二种是 Term。

给题目中的核心概念引入新的抽象术语，让模型不能只靠熟悉的表面表达来作答，而必须真正理解定义和结构。

第三种是 Sub-Problem。

把原题中的一个关键数值条件改造成一个需要先求解的小问题，再返回主问题。这会显著增加推理链条长度，也更考验模型的多步推理和跨领域推理能力。

构造数据时有一个严格的限制条件是：所有改写后的题目都必须保持原始 gold answer 不变。

这意味着，MQR 不是在重新造一套不稳定的新题，而是在尽量不破坏数学本质和标准答案的前提下，系统性地把同一道题改得更难、更有挑战性。这样既保证了训练信号的可靠性，也降低了额外数据构造的成本和难度。

三、实验结果：更难的训练，

带来更强、更稳、更泛化的推理

实验结果非常清楚地说明了一点：更难的问题，确实更值得学。

如表 1 所示，在主实验设置下，无论是只使用 DGPO，还是只使用 MQR，都能明显超过强基线 GRPO；而当两者结合成完整的 MathForge 后，效果进一步达到最好，相比 GRPO 带来了超过 4.5 个点的平均提升。更重要的是，这个优势并不是只在单一对比下成立，而是在与多种已有强化学习优化方法比较时，依然保持了最强的整体表现。

进一步地，如表 2 所示，MathForge 在不同大小、不同类型的基础模型上都保持了稳定收益。从较小模型到 7B 级模型，它都能带来大约 3 到 4.5 个点的平均提升。这说明它并不是依赖某一个特定 backbone 的「技巧性调参」，而是一种更普适的训练原则。

在算法分析上，如表 3 所示，DGPO 的两个关键设计也都被验证是必要的：DGAE 负责先把不同难度问题的更新强度拉平，DQW 再把训练重点推向更难但可学的问题，两者是互补关系，而不是可有可无的附加项。与此同时，如表 4 所示，DGPO 还可以与多种现有强化学习方法直接结合，并继续带来额外收益，说明它并不是一个封闭替代方案，而更像是一种可插拔的通用增强机制。

更值得注意的是，这种「按难度组织学习」的思路并不只适用于文本数学任务。如表 5 所示，论文还把 DGPO 应用到了多模态数学推理场景中，结果同样比 GRPO 有超过 2 个点的提升。这说明 MathForge 所强调的，并不是某个特定数据集上的偶然技巧，而可能是一种更广泛适用的后训练思路：不同问题不应该被一视同仁，训练预算应该优先留给更难、但仍有学习价值的问题。

从数据角度看，MQR 的效果也并不只是「样本变多了」。如表 6 和表 7 所示，论文专门控制了总训练量后发现，使用 MQR 改写后的数据依然优于只用原始数据的训练版本；三种改写策略单独使用时都有效，组合起来效果最好。这意味着 MQR 真正带来的，是更有价值的训练样本，而不是简单的样本堆叠。更细致的难度分析还表明，这三类改写后的问题整体都比原题更难，其中把关键条件改造成子问题的方式最能拉高推理难度。

在训练动态方面，如图 1 所示，对于 DGPO 来说，模型不仅更准，而且输出还更简短，说明它学到的不是更冗长的推理，而是更高效的推理路径。

如图 2 所示，对于 MQR 来说，模型在训练阶段的准确率变得更低，但最终测试表现却反而更好，呈现出非常直观的「train harder, test better」现象。也就是说，更难的数据确实在逼着模型形成更强的泛化能力，而不是只在容易题上反复刷分。

四、总结

MathForge 真正回答了一个非常关键的问题：在强化学习里，哪些题最值得学？

答案不是最简单的题，也不是完全不会的题，而是那些更难、但仍然可学的问题。DGPO 负责让模型在训练中真正重视这类问题，MQR 负责稳定地产生这类问题。两者结合，最终把「更难的训练」转化成了「更强的推理」。

从这个意义上说，MathForge 的价值不只是把数学推理结果再往前推了一步，更重要的是它提供了一种非常清晰的训练观：不是所有样本都应该被平等对待，真正高价值的学习，往往发生在难而可学的边界地带。

这也正是这篇工作的标题想表达的核心：Harder Is Better。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.