大模型数学推理鲁棒性研究:基于高级数学问题等价变换的基准测试
AN INVESTIGATION OF ROBUSTNESS OF LLMS INMATHEMATICAL REASONING: BENCHMARKING WITHMATHEMATICALLY-EQUIVALENT TRANSFORMATION OF ADVANCED MATHEMATICAL PROBLEMS
https://arxiv.org/pdf/2508.08833v2
![]()
摘要
在本文中,我们引入了一个超越传统方法的系统框架,通过对数学上等价但具有语言和参数变化的高级数学问题进行压力测试,来评估大语言模型(LLM)的数学推理鲁棒性。这些变换使我们能够衡量 LLM 对非数学扰动的敏感性,从而能够更准确地评估它们的数学推理能力。使用这种新的评估方法,我们创建了 PutnamGAP,这是一个新的基准数据集,包含竞赛级数学问题的多个数学等价变体。使用新数据集,我们评估了多个代表性 LLM 家族并检查了它们的鲁棒性。在 18 个商业和开源模型中,我们观察到在变体上性能急剧下降。OpenAI 的旗舰推理模型 O3 在原始问题上得分为 51.5%,但在表面重命名变体上下降了 4.7 个百分点,在参数变体上下降了 12.9 个百分点,而较小的模型表现更差。总体而言,结果表明,提出的新评估方法对于加深我们对 LLM 鲁棒性的理解以及为进一步提高其数学推理能力产生新见解是有效的。
1 引言
动机。现代 AI 系统越来越多地被委托给依赖于鲁棒推理而非模式匹配的任务。因此,精确测量 LLM 的推理能力及其超越记忆文本表面形式的泛化能力很重要。然而,现有的数学推理基准表现出两个关键弱点:(i) 泄漏导致的分数膨胀,因为基准项目迅速渗入预训练语料库,以及 (ii) 鲁棒性覆盖有限,因为今天的数据集太小或缺乏探测真正泛化的受控变换。如果我们旨在以医疗或网络安全等安全关键领域所要求的同样严谨性来基准化推理,解决这些弱点是紧迫的。
通过训练泄漏导致的基准膨胀。最近的研究表明,包括 GSM8K (Cobbe 等人,2021) 和 MATH (Hendrycks 等人,2021) 在内的公共数据集已经泄漏到用于预训练大语言模型 (LLM) 的网络规模语料库中,人为地抬高了测试时准确率。因此,排行榜分数不再保证真正的推理能力;它可能仅仅反映了对基准项目或其解决方案的记忆。简单地发布另一个数据集只是推迟了问题:一旦其项目进入未来的训练语料库,分数就会上升而没有真正的进步。需要的是一个系统方法,该方法 (i) 测量模型超越逐字记忆的泛化能力,以及 (ii) 可以生成无限的评估项目供应,限制未来的泄漏。
竞赛数学揭示了下一个鲁棒性瓶颈。大语言模型 (LLM) 现在在广泛使用的基准测试(如 GSM8K 和 MATH)上准确率超过 90%, prompting 声称“接近人类”的数值推理,但在交织多个领域的奥林匹克风格或 Putnam 级别问题上仍然失败。现有的 Putnam 衍生数据集太小,无法暴露这一差距:PUTNAM-AXIOM(236 个原始 + 52 个变体)(Huang 等人,2025) 和 PUTNAMBENCH(640 个形式化定理)(Tsoukalas 等人,2024) 仍保持在数百个,且没有一个提供系统的泛化和扰动。这些事实暴露了现有评估中的弱点 (i) 规模不足和弱点 (ii) 缺乏受控的、系统的变换。
![]()
泛化与扰动 (GAP),一种新颖的评估策略。我们用一个新想法来解决泄漏和鲁棒性问题:在同一问题的数学等价版本上对模型进行压力测试。对于具有解集 S(x) 的问题 x 和 LLM f,鲁棒性是当 x 被等价保持算子族 T 变换时的期望准确率。我们将 T 划分为 Tsurf(改变符号显著性的表面重命名)和 Tpara(在改变场景和参数的同时保留相同证明步骤的核心重写)。这个 GAP 框架 (i) 创建了无限的未见测试项目流,减轻未来的污染,以及 (ii) 量化模型可以超越记忆表面形式泛化多远。它为分析和量化 LLM 数学推理能力的鲁棒性提供了一种新的通用诊断评估方法。
PutnamGAP:在 85 年的问题上实例化 GAP。我们在 1938-2024 年的每个 William Lowell Putnam 竞赛问题(1,051 个原始问题)上实例化 GAP,并将每个项目扩展为五个变体——四个表面重命名和一个核心重写——获得 6,306 个压力测试问题。两轮 QA 通行证——15 轮 O3 自我审查加上 10% 的抽查——未发现实质性错误。
头条结果。如图 4 所示,在 18 个模型中,所有模型都遭受简单重命名和基于步骤的重写的影响。OpenAI 的 O3 在原始陈述上得分为 51.5%,但在表面重命名下损失 4.7 个百分点 (9.12%),在参数重写下损失 12.9 个百分点 (25.22%)。这些下降证实了当应用表面性或结构扰动时,高排行榜分数可能会崩溃——这正是数据泄漏掩盖的效果。
![]()
贡献。(1) 我们提出了 GAP,一个通过数学等价变换测量鲁棒性的新颖通用框架,克服了当前评估方法的两个常见缺陷(即数据泄漏和缺乏鲁棒性测量)。(2) 我们发布了 PutnamGAP,这是第一个 6k 规模的竞赛基准,系统地区分了表面级别和结构泛化,同时限制未来泄漏。(3) 我们提供了跨越 17 个 LLM 的第一个综合鲁棒性基线,以及一个开源评估堆栈。
2 泛化与扰动 (GAP) 框架
2.1 评估模型
![]()
2.2 变换族
提出的通用鲁棒性度量可以适用于任何变化。作为探索这种新评估方法的第一步,我们提出并研究了五个对齐的变体——四个仅扰动符号名称的表面重命名,以及一个在保留推理链的同时扰动数字槽的核心步骤实例。本节详细介绍了合成管道。详细描述也可以在附录 A 中找到。
2.2.1 表面重命名变体族
我们想知道模型识别一个论证是因为它真正抽象了模式,还是仅仅因为它记忆了具有暗示性的标识符字符串。因此,我们系统地替换每个标记为 var 或 param 的 token;所有类别为 sci const 的常数保持不动。
自动化管道。
- 提议。单次调用 O3 接收 token 角色(“自由变量”或“固定参数”)和周围的文本上下文,并返回一个候选替换。
- 冲突检查。一个确定性后验证器拒绝与问题中任何预先存在的标识符冲突的名称。
- 族标记。该字符串被标记为属于下面描述的四个族之一。
我们使用四种类型的表面变体:描述性长(DL),带有一个单一的描述性短语;描述性长混淆(DLC),带有 2–5 个随机无关名词;描述性长误导(DLM),带有一个数学上具有暗示性但误导性的术语;乱码字符串(GS),带有 4–16 个字符的哈希,如图 2 所示,其中'Q'代表问题题干,'A'代表官方解答。
![]()
因此,每个源项目产生 4 个表面变体;每个族的准确率 delta 出现在结果与分析部分。
2.2.2 参数变体族
![]()
符号重命名仅探测词法轴。为了探测结构迁移,我们重采样数值常数,但强制解决方案复用原始的高层步骤。在这项工作中,我们称之为 Kernel_Variant (KV)。我们通过一个四阶段管道将每个项目转换为语义等价的变体:(1) 槽位发现 (slot discovery);(2) 模板反向合成 (template back-synthesis);(3) 问题逆向工程 (question reverse-engineering);以及 (4) 双重验证器筛选 (dual-verifier screening)(连续两次规则)。该管道使用 OpenAI o3 API 在通用硬件上在几小时内为每个问题生成有界数量的已验证变体。关于我们实现的实证界限和细节请参见附录 A。
2.3 实现概览
![]()
3 PutnamGAP 数据集
3.1 数据来源、提取与标注
我们的基准测试包含了 1938–2024 年的所有 Putnam 问题(去重后 N = 1 , 051 项)。有关来源的详细信息请参见附录 E。
原始扫描件通过一个三阶段的 OCR(光学字符识别)流程进行处理:(i) 对每个问答对进行手动分割。(ii) 使用 MathPix 进行感知公式的 PDF 到 LaTeX 转换,随后是 (iii) 自定义后过滤器,用于合并多行表达式并修复 4.2% 的残留符号错误。在生成变体之前,对每个项目进行人工抽查(每个问题 ≤ 2
分钟)以确保语义保真度。完整的语料库列表、OCR 准确率研究和清洗脚本见附录 E。
3.2 数据集统计
整体规模与平衡。该基准测试包含 1938–2024 年的 1,051 个原始 Putnam 问题和五个数学等价的变换,总共产生 6,306 个项目。部分分布是平衡的(527 个 A 卷 vs. 524 个 B 卷),且规范标识符 ⟨ year , part { A , B } , index ⟩提供了难度代理。使用索引 1–2 作为简单 (Easy),3–4 作为中等 (Medium),5–6 作为困难 (Hard),语料库包含 32.3% 的简单题,32.3% 的中等题,32.2% 的困难题,外加 3.0% 的超难尾部(索引 7–8)。
主题覆盖与质量控制 _meta.tag 中的自动标签指示了广泛的数学覆盖范围——代数 (641),分析 (521),数论 (392),组合数学 (286),以及几何 (239)。803 个问题是证明题,其中 248 个是计算题。同时,每个项目都经过了单次人工验证。
4 实验设置
构建的 PutnamGAP 数据集首次使得对大语言模型(LLM)推理能力的鲁棒性分析成为可能。在本节中,我们描述如何设置实验以评估 18 个代表性模型的鲁棒性。
4.1 模型池与提示
![]()
4.2 评分与自动评分器
我们将任务划分为**计算(computation)和证明(proof)**两类,并使用不同的评分器进行评估。
计算 每个候选答案经过标准化(处理空白符、单位、LaTeX 宏)后,进入两条评分路径:(i) 与参考答案进行严格字符串匹配;(ii) 潜在评分器(latent grader)——这是一个被提示根据参考答案和评分标准(不允许部分得分)返回 CORRECT'' 或 INCORRECT'' 的 LLM。我们采用路径 (ii) 以减轻格式瑕疵的影响;如果两条路径结果不一致,我们将该项目标记为需人工审计(约 1% 的案例)。
证明 我们为评分器提供对齐的、分步的参考证明,并要求其分配一个二元评分(binary grade)加上自然语言的理由。任何跳过的逻辑步骤或缺失的引用都会触发失败判定。随机抽取 10% 的样本由独立志愿者进行双重检查;评分器的精确率/召回率(precision/recall)大于 97%。
5 结果与分析
5.1 鲁棒性
我们在这个基准上评估了 18 个不同的大语言模型,结果总结在表 1 中。对于模型的每个变体,我们在匹配的问题对上使用了配对设计(McNemar 精确检验),以测试准确率相比原始问题是否显著下降。统计显著性差异使用标准符号表示(p < 0.1, p < 0.05, p < 0.01)。我们还计算了 95% 置信区间(见附录 D 图 4)和鲁棒性指标 R(见附录 D 图 9),所有模型,尤其是那些在原始集合上表现良好的模型,都得到了较低的鲁棒性分数。
![]()
![]()
我们观察到几乎所有变体都导致模型准确率下降,即使变换仅仅是更改变量的名称。这表明明显缺乏鲁棒性:模型通常缺乏在数学上相同但表面修改过的表示下保持其准确率的能力。特别是,依赖于变量名推理的变换(如误导性或乱码字符串)往往最严重地干扰模型的数学准确率。
![]()
![]()
![]()
另一个观察结果是,如果一个模型在一个变体上不鲁棒,它往往在其他变体上也不鲁棒。显著的例子包括 kimi-k2、claude-opus-4 和 gemini-2.5-pro。
5.2 按变换类型细分
描述性长命名 (Descriptive Long, DL) 总体而言,这种变换的影响最小:下降幅度微小且大多不显著。一些模型,如 o3 (+1.3)、o4-mini (+1.5) 和 Qwen3-235B (+1.1),甚至略有提升。这表明描述性重命名能够保持准确性。
混淆性长命名 (Confusing, DLC) 冗长且语义无意义的变量名适度降低了准确率。像 Claude-opus-4 (–4.3***) 和 GPT-4o-mini (–1.8***) 这样的模型显示出显著下降。
误导性命名 (Misleading, DLM) 用误导性字符串替换变量严重损害了数学准确率。几乎所有模型都经历了显著下降。值得注意的是,Claude-Opus-4 (–4.8***)、Gemini-2.5-pro (–5.6***) 和 Claude-Sonnet-4 (–4.4***) 是受影响最严重的模型。
乱码字符串 (Garbled String, GS) 随机字符串一致地降低了性能:每个模型的准确率都有损失,其中超过一半是显著的。诸如 Gemini-2.5-pro (–5.4***)、Claude-Sonnet-4 (–4.9***) 和 Gemini-2.5-flash-lite (–4.7***) 等模型遭受了最大的降幅。
核心变体 (Kernel Variant, KV) 核心变体——即保持每个问题的数学结构但用不同的值替换常数和表达式——导致了总体上最急剧的下降。所有模型都经历了大幅下降,通常在 –5 到 –15 分之间,其中 Grok4 (–14.6***)、Gemini-2.5-flash (–15.2***) 和 Gemini-2.5-pro (–14.9***) 显示出最陡峭的下降。
总体而言,最先进的大语言模型 (LLMs) 在语义保持变换下表现出不一致的性能,并且似乎对表面线索敏感。这与以下可能性一致:它们的部分收益反映了与数据泄漏相关的记忆,而非稳定的数学推理。这种模式在不同主题和问题类别中持续存在:带有 95% 置信区间 (CIs) 的条形图(附录 D,图 4)以及按主题/按类别的细分(附录 D,图 7-8)显示,在代数/分析/数论/组合数学/几何以及证明题和计算题中,都存在类似的鲁棒性差距。
![]()
![]()
5.3 错误分类法
我们的评分脚本会对每一个错误答案返回简短的评语。利用这些评语,我们将错误归为四类:符号混淆(Symbol Confusion)、步骤遗漏(Step Omission)、算术错误(Arithmetic)和逻辑幻觉(Logic Hallucination)。附录 D 中的图 5 显示,这些错误类型的相对频率在不同变体间几乎完全一致;逻辑幻觉占据主导地位,无论提示词的措辞如何,约占所有错误答案的五分之三。因此,准确率的下降分布在所有类别中,而非由单一类别驱动,这证实了数学上等价的扰动会持续降低大语言模型(LLM)的性能。
![]()
5.4 外部验证
我们将表面重命名协议——DLC 和 GS——应用到了 ALG514 (kus, 2014) 数据集上。准确率从基准(Base)的 93.6% 下降至 DLC 的 90.9%(Δ = −2.7 个百分点)和 GS 的 89.3%(Δ = −4.3 个百分点);McNemar 检验结果显示(Base vs DLC: b=24, c=10, p=0.024; Base vs GS: b=35, c=13, p=0.002)。这些统计上显著的下降表明,GAP 的表面重命名压力测试可以泛化到其他数学数据集,并揭示了对变量重命名存在实质性的敏感性。
![]()
6 讨论
6.1 主要发现
提出的 GAP 框架使我们能够关于大语言模型(LLM)在执行数学推理时的行为得出以下新发现:
符号级扰动导致显著下降。 在四种表面变体——DL、DLC、DLM 和 GS——中,仅仅重命名变量平均就会使准确率降低 3–5 个百分点;例如,GEMINI-2.5-PRO 从 78.3% 下降到 72.9%(–5.4 个百分点;见表 1)。这表明当今的最先进(SOTA)模型仍然依赖于词汇层面的“语义锚点”,而非完全抽象的证明结构。
保持结构但重采样参数则更为严苛。 核心变体(KV)在保留原始推理骨架的同时,重采样了所有可变常数。准确率损失达到约 10 个百分点;OPENAI O3 从 48.8% 下降到 38.5%(–10.3 个百分点),这表明掌握解题模式并不会自动转化为参数不变的推理能力。
![]()
6.2 启示
一种新颖的评估方法论: GAP 框架提供了一种新颖的方法论,用于通过生成(原则上)无限的语义等价测试项目来分析和评估 LLM 推理能力的鲁棒性,这可以限制未来的基准泄漏并缓解排行榜膨胀。
通过课程微调提高鲁棒性: 我们的结果表明,课程微调应显式地随机化 (i) 符号身份和 (ii) 数值参数,而不是简单地扩大预训练语料库。也就是说,我们可以利用 GAP 框架来增强数据,用于微调模型以提高鲁棒性。
检测潜在的安全隐患: 表面层面的脆弱性意味着生产系统可能会被数学上无害的重命名进行提示注入(prompt-injected)——这凸显了将鲁棒性检查集成到红队(red-team)流程中的必要性。我们的评估框架使得在部署任何生产系统之前进行此类风险分析成为可能。
![]()
7 相关工作
已经有多个基准测试用于评估大语言模型(LLM)的数学推理能力。早期的数学推理基准测试,如 MATH(1.25k 问题)(Hendrycks 等人,2021) 和 GSM8K(8.5k 问题)(Cobbe 等人,2021),揭示了基本的算术/代数技能。但随着 LLM 规模的扩大,它们的难度现在已经饱和了。例如,使用诸如 DUP 之类的提示策略,GPT-4 在 GSM8K 上达到了 97.1% 的准确率 (Zhong 等人,2025)。这种高中竞赛水平的天花板激发了新一代更困难基准测试的创建。
随后的基准测试针对更难的问题。OMNI-MATH 贡献了 4,428 个严格标注的奥林匹克级别问题 (Gao 等人,2024)。同样,OLYMPIADBENCH 提供了一个双语、多模态的基准测试,包含 8,476 个奥林匹克级别的数学和物理问题,并附有专家分步解答 (He 等人,2024)。跨学科基准测试 ARB 包含数学、物理、生物、化学和法律领域的问题,采用基于评分标准的自评分协议 (Sawada 等人,2023)。一些其他基准测试专门关注形式化证明。MINIF2F 提供了 488 个在多种证明助手中形式化的奥林匹克级别问题 (Zheng 等人,2022)。PUTNAMBENCH 提供了 1,692 个严格手工制作的 Putnam 竞赛问题形式化版本 (Tsoukalas 等人,2024)。
然而,最近的研究警告说,当 LLM 在基准测试问题上进行训练时,许多 NLP 基准测试的分数可能会因数据污染而被人为夸大。Sainz 等人 (2023) 指出,许多基准测试可能会被夸大,因为大语言模型经常记忆预训练期间看到的测试数据。Balloccu 等人 (2024) 对闭源 LLM 的数据泄漏进行了系统审计,并估计来自 263 个数据集的大约 470 万个测试示例可能暴露给了模型。
为了获得对 LLM 推理能力更鲁棒的评估,防止数据泄漏很重要。一种方法是创建原创问题。例如,FRONTIERMATH 通过一个严格策划的基准测试解决了这个问题,该基准测试包含数百个原创的、专家级别的数学问题,涵盖从数论到代数几何的领域 (Glazer 等人,2024)。PUTNAM-AXIOM 采用了这种方法,包含 522 个来自 William Lowell Putnam 竞赛的挑战性问题,加上 100 个程序化生成的功能变体,提供了一个抗污染的基准测试 (Gulati 等人,2025)。
另一种处理数据泄漏的方法是引入对比集——现有测试实例的微小、改变标签的扰动——以探测模型的局部决策边界 (Gardner 等人,2020)。Huang 等人 (2025) 构建了 MATH-PERTURB,对 279 个 5 级 MATH 问题应用简单和困难扰动,并发现模型在困难变体上遭受 12–16 个百分点的下降。Shalyt 等人 (2025) 用 ASYMOB 补充了这条工作线,这是一个 17k 问题的基准测试,其专注于代数的数值和符号扰动揭示了高达 70 个百分点的性能下降,突出了模型在这种压力测试下的脆弱性。同样,Yu 等人 (2025) 提出了 MATH-ROB,这是一个合成基准测试,通过基于指令的方法实现针对数据污染的鲁棒性评估。这些努力要么专注于限制泛化性的特定方面,要么基于对当前模型来说太简单的基准测试,要么引入数学上不等价的变换,从而混淆了真正的鲁棒性评估。
在这些先前努力的基础上,我们的工作引入了 GENERALIZATION-AND-PERTURBATION (GAP),这是一个统一的框架,通过生成复杂问题的数学等价变体来解决数据泄漏和鲁棒性问题,显著扩展了现有基准测试的评估深度。该框架可应用于现有和未来的基准测试,以及所有类型的问题,以加强其可靠性。为解决准确率分数饱和的问题,我们将框架应用于具有挑战性的大学级别竞赛数学问题。我们在 1938–2024 年的每个 William Lowell Putnam 竞赛问题(1,051 个原始问题)上实例化 GAP,将每个项目扩展为五个数学等价变体,从而产生 PUTNAM-GAP,一个包含 6,306 个压力测试问题的语料库。最后,我们发布了一个开源评估堆栈,严格地分步评分解决方案,使评估完全自动化、透明且可复现。
8 结论与未来工作
鲁棒推理在大语言模型(LLM)的许多应用中都是必需的。在本文中,我们提出了一种新颖的泛化与扰动(GAP)框架,用于分析和评估大语言模型推理能力的鲁棒性。通过在全部 1,051 个 Putnam 竞赛问题上实例化 GAP,我们产生了拥有 6,306 个问题的 PUTNAMGAP 基准。对 18 个商业和开源大语言模型的零样本评估揭示了急剧且一致的准确率下降。这些结果暴露了一个明显的鲁棒性差距,这是迄今为止未扰动数据集上的排行榜分数所未能显示的。
我们的发现突出了三个可操作的方向。
• 基准测试:GAP 提供了抗污染测试项目的无限制供应,限制了未来的数据泄漏和分数膨胀。
• 训练:在微调期间随机化符号身份和数值参数的课程应该成为针对形式推理领域模型的标准做法。
• 安全:损害准确率的相同表面级脆弱性可以被武器化用于提示注入攻击,因此 GAP 风格的突变应该被构建到红队流程中。
基于我们的工作有多个有趣的未来研究方向:
(i) 用符号证明器和异构大语言模型多样化验证器集合,以排除共谋盲点,(ii) 将 GAP 移植到应用数学、物理和多模态 STEM 语料库,以及 (iii) 将即时 GAP 变换集成到训练中,以便对符号和参数变化的不变性是被学习而来的,而不仅仅是被测试的。PUTNAMGAP 使一个教训变得明确无误:数学 AI 的真正进步将不是由越来越高的原始分数来衡量,而是由模型跨越符号与实质之间隐藏鸿沟的能力来衡量。下一代顶级系统只有通过拒绝在 GAPs 上被甩在后面才能赢得它们的地位。
原文链接:https://arxiv.org/pdf/2508.08833v2
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.