MathArena:在未受污染的数学竞赛中评估大语言模型
MathArena: Evaluating LLMs on Uncontaminated Math Competitions
https://arxiv.org/pdf/2505.23281
![]()
![]()
摘要
大语言模型(LLMs)推理能力的快速进步使其在数学基准测试中取得了显著提升。然而,许多最常用的评估数据集(例如 AIME 2024)在网上广泛公开,使得难以区分模型的真实推理能力与潜在的记忆化行为。此外,这些基准并未评估证明书写能力——而这对许多数学任务至关重要。为解决这一问题,我们提出 MATHARENA,一个基于以下关键洞察的新基准:周期性举办的数学竞赛提供了一连串高质量、高难度的问题,可用于对 LLM 进行实时评估。通过在新题目发布后立即对模型进行评估,我们有效消除了数据污染的风险。利用该框架,我们发现 AIME 2024 存在明显的污染迹象。尽管如此,在更难的竞赛(如 CMIMC 2025)上的评估表明,顶尖模型展现出令人印象深刻的推理能力。MATHARENA 也是首个评估证明书写能力的基准。在 IMO 2025 上,顶尖模型的得分略低于 40%,既显示出显著进展,也表明仍有巨大提升空间。迄今为止,我们已在七项竞赛中评估了超过 50 个模型,共计 162 道题目。作为一个持续演进的基准,MATHARENA 将继续追踪 LLM 在新发布竞赛中的表现,确保对数学推理能力进行严格且及时的评估。
1 引言
近期大语言模型(LLMs)在数学推理能力方面的进展 [20, 7] 引发了对现有数学基准充分性的以下三个担忧:
- 污染风险:许多基准源自公开可用的数学竞赛,这些题目在网上广泛传播,常被用于训练 LLM,因此容易受到数据污染,难以准确衡量进展。数据污染可能源于基准题目间接包含在训练数据中,或通过使用基准性能进行超参数调优或模型选择。例如,我们发现流行的 AIME 2024 数据集已被大多数主流 LLM 显著污染,使其不再适合作为评估模型能力的基准。
- 高成本、私有基准:为缓解污染问题,一些领先基准(如 FrontierMath [15] 和 HLE [29])采用了私有、人工策划的方法。虽然这种方法能有效避免数据泄露,但也带来若干重大问题。首先,其私有性质引发了可复现性与透明度方面的担忧,使得无法准确验证结果。
此外,基准创建者可能选择性地向某些机构授予访问权限 [10],造成不公平的竞争环境。最后,开发此类数据集的高昂成本令人望而却步。例如,HLE 为激励贡献设立了 50 万美元的奖金池。
- 侧重最终答案:大多数现有基准(包括 HLE 和 FrontierMath)主要评估具有单一最终答案的问题。这可能产生误导,因为模型可能通过模式识别或暴力枚举得到正确答案,而非依靠真正的数学推理。这类基准无法充分反映数学奥林匹克竞赛中问题所需的深度与严谨性——后者通常要求详细的证明和多步骤逻辑。此外,LLM 在数学中的大多数实际应用场景涉及生成证明或解释,而不仅仅是提供最终答案。
MATHARENA:面向数学推理的新基准
我们提出 MATHARENA——一个动态、公开可用的基准,通过在新发布的数学竞赛上进行评估来解决上述局限(见图 1)。我们的核心洞察是:周期性举办的数学竞赛提供了丰富且高质量、未受污染的问题来源。这些问题由竞赛组织方预先审核其原创性,确保此前未出现过类似题目,从而降低污染风险。通过在模型发布之后举行的竞赛上评估模型,MATHARENA 消除了数据污染的可能性,并提供了一种清晰、前瞻性的进展度量方式。此外,所包含的部分竞赛(如 IMO 2025)包含其他基准所缺乏的证明类题目。与私有或静态基准不同,MATHARENA 完全透明、可复现,并在全年随着新题目的发布持续更新。这使其能够不断适应数学推理能力评估的演进格局,确保所含竞赛始终保持相关性和挑战性。
![]()
我们实现了完整的 MATHARENA 流水线,用于解析、求解和验证问题解答,并将代码、数据和模型响应以开源形式发布。
迄今为止,我们已在七项竞赛中评估了超过 50 个模型,共计 162 道题目。结果表明,GPT-5、GROK 4 和 GEMINI-2.5-PRO 是所涵盖竞赛中表现最佳的模型,其成绩超越了人类参赛者的前 1%。然而,我们在证明类竞赛上也发现了改进空间:模型在 IMO 2025 上的得分低于 40%。这凸显了该领域仍需进一步研究。
主要贡献
综上所述,我们的主要贡献如下:
• 我们提出 MATHARENA 基准,利用新发布的竞赛评估 LLM,在完全透明且可复现的前提下消除数据污染风险。
• 我们设计了一个可扩展的评估流水线,用于解析、求解和验证来自多种竞赛格式的问题,包括最终答案型和证明型题目。
• 我们对当前最先进模型在这些竞赛中的表现进行了比较和深入分析,揭示了过去一年取得的显著进展。
2 相关工作
在本节中,我们讨论评估数学推理能力的关键先前方法。
公开的、基于答案的基准最广泛使用的基准通过将模型输出与固定的标准答案(通常是数值或闭式表达式)进行比较来评估模型。早期的基准如 GSM8K [6] 和 MATH [17] 已被近期的语言模型基本饱和。即使是更具挑战性的竞赛,如 AIME 2024,也呈现出类似进展并接近饱和。Omni-MATH [14]、OlympiadBench [16]、HARP [36] 和 OlymMATH [30] 通过引入来自奥林匹克竞赛的更难题目来提升难度。然而,这些题目源自多年前就已在网上公开的过往竞赛,由于存在数据污染风险,难以准确追踪进展。GSM8K 中已有证据支持这一担忧 [37],我们在第 4 节中也确认了 AIME 2024 存在污染。
私有的、基于答案的基准FrontierMath [15] 是最近引入的一个私有基准,其设计显著更具挑战性,题目要求结合数学推理与研究级数学的深厚背景。类似地,Humanity’s Last Exam [29] 收集了涵盖数十个学科的大量私有高难度题目。尽管其极高难度为前沿模型提供了有趣的测试目标,但这些基准的私有性质使得标准化评估和公平的模型比较变得困难。此外,这种难度水平使得追踪进展极具挑战性,尤其对开源模型和处于成本-性能帕累托前沿的模型而言。最后,基准的私有性质引发了可复现性与透明度方面的担忧,因为这些基准的访问权限曾被选择性地授予某些机构 [10]。
基于证明的基准另一类评估聚焦于验证推理轨迹的正确性,而非仅关注最终答案。一种常见策略是要求 LLM 在 Lean、Coq 或 Isabelle 等系统中生成形式化证明,从而实现自动验证。此类基准和数据集包括 miniF2F [39]、FIMO [21]、PutnamBench [32] 和 LeanWorkbook [35]。然而,这些方法往往未能充分利用 LLM 的自然语言能力,并受限于模型生成正确形式化代码的能力。同期工作 [22] 表明,模型通常无法在自然语言中生成完全严谨的证明。即使对于已正确解决的问题,由于包含 IMO 短名单题目,很可能存在显著污染;且基准规模过大,使得在所有题目上评估新模型变得不可行。GHOSTS [13] 对 GPT-4 的证明书写能力进行了人工评估,但其基准仅限于两个较旧的模型,且自 2023 年以来未再更新。
动态基准为应对污染问题并适应不断演进的能力,一些基准被设计为持续更新新题目。例如,LiveBench [33] 在包括编程、数据分析和数学等多个领域评估 LLM。其数学部分包含略难于 MATH 水平的题目,以及填空式的证明类任务,整体难度低于 MATHARENA,且未评估严格的证明能力。另一项与我们工作类似的是 LiveAoPSBench [23],它允许在特定时间点的问题快照上评估模型。这可视为对 MATHARENA 所采用的实时评估的一种回溯性模拟。然而,该基准未持续更新,且不包含 2025 年的题目,因此无法评估近期的前沿模型。
基于扰动的基准缓解污染风险的另一种方法是通过对现有题目进行扰动生成新题目 [19, 24, 40]。尽管该策略减少了重叠,但并未完全消除污染:扰动后的题目仍依赖相同的底层推理模式。相比之下,我们的方法引入的是全新的题目,需要全新的高层推理策略。
其他基准最后,一些基准采用非常规方法评估数学推理能力。例如,MathTrap [38] 评估模型回答中的逻辑一致性,而 MathConstruct [8] 聚焦于需要构造性证明的问题。这些方法为模型的数学推理能力提供了更多样化的视角。然而,这类基准通常需要昂贵的人工数据策划,限制了可扩展的评估。
3 MATHARENA
在本节中,我们描述用于构建 MATHARENA 的流水线,如图 2 所示。该流程首先选择一个足够具有挑战性且声誉良好的竞赛,并从中提取题目与解答(第 3.1 节)。接着,我们在这些题目上评估一组选定的模型,确保公平比较并避免数据泄露(第 3.2 节)。根据题目的类型(最终答案型或证明型),我们采用不同的解析与评估方法(第 3.3 节):对于最终答案型题目,我们使用自动化的基于规则的解析器提取答案;对于证明型题目,则由人工评分员评估模型输出。最后,我们计算排行榜排名,并进行统计后处理以确保结果的准确性与可靠性(第 3.4 节)。
![]()
3.1 竞赛选择与题目提取
竞赛选择
为了有效将高质量数学竞赛重新用于大语言模型(LLM)评估,我们仔细选择纳入 MATHARENA 的竞赛,并确保每道题目的格式准确。表 1 展示了当前已纳入 MATHARENA 的竞赛日历,以及我们计划未来加入的其他竞赛。目前,MATHARENA 包含七项竞赛,共计 162 道题目。我们根据竞赛题目类型将其分为两类:最终答案型(final-answer)或证明型(proof-based)。
![]()
最终答案型竞赛更容易评估,但通常挑战性较低。对此类竞赛,我们聚焦于高难度赛事,例如 AIME(美国数学奥林匹克 USAMO 的资格赛)以及若干更难的大学主办锦标赛。我们曾尝试纳入其他知名竞赛(如 Kangaroo),但因其题目已被现有模型基本饱和而予以排除。
证明型竞赛更具挑战性,也更能代表深层次的数学推理。然而,它们也需要人工评估,因为可扩展的自动化证明评分仍是一个未解决的问题。为确保评估质量,我们采用人工评分员对证明进行评判,并聚焦于一小套核心竞赛:USAMO(美国高中数学奥林匹克)、IMO(国际数学奥林匹克)和 Putnam 竞赛(美国本科生级别)。
除标准数学竞赛外,我们还纳入了来自 Project Euler [11] 的题目。Project Euler 是一个广受欢迎的在线平台,强调通过代码实现进行数学问题求解。与传统竞赛不同,Project Euler 没有固定的赛程或题集,而是持续扩充其题目库。在评估中,我们仅关注最新发布的题目,并计划在新题发布后定期更新该子集。
题目提取
选定竞赛后,我们从原始来源中提取题目,并将其格式化为标准化模板。我们对每道题目进行人工核查,以确保无拼写错误、内容不一致或格式问题。
3.2 模型选择与解答生成
模型选择
MATHARENA 会持续纳入新发布的模型。为避免排行榜过于杂乱,我们仅选择满足以下至少一项标准的模型:
(i) 该模型在某项竞赛中竞争最高分(例如 GPT-5、GEMINI-2.5-PRO、GROK 4);
(ii) 该模型是表现最佳的开源权重模型之一(例如 DEEPSEEK-R1、QWEN3);
(iii) 该模型在成本-性能权衡曲线上占据帕累托最优位置(例如 GROK 4 FAST、GPT-OSS-20B)。
我们排除非推理型模型,因为它们在所有情况下均显著弱于推理型模型,且不满足上述任一选择标准。
解答生成
每个模型在每项竞赛中仅评估一次,使用模型提供方推荐的超参数,不做进一步调优。此举可避免过拟合并降低信息泄露风险。对于答案型竞赛,我们提示模型将其答案置于 \boxed{} 环境中;对于证明型竞赛,则提示模型输出完整证明。附录 D 提供了各竞赛所用的具体提示词。为考虑随机性,每个模型对每道题生成四次回答,最终报告这四次运行的平均得分。模型评估时间尽量接近竞赛举办日期,以最小化污染风险。若某模型发布时间晚于竞赛日期,排行榜中将明确标注。模型输出与题目示例见附录 E。
Project Euler 工具支持
对于 Project Euler,我们允许模型使用工具执行代码,因为解决此类问题通常需要编程。为此,我们提供了 Python 和 C++ 解释器。模型可生成代码片段,在安全沙箱环境中执行,其输出可用于后续推理步骤。每道题最多允许 20 次代码执行。
3.3 解答评分
我们的评分策略在最终答案型与证明型题目之间存在显著差异。以下分别详述两种方法。这些方法在图 2 中分别以“Parse(答案型)”和“Human(证明型)”分支表示。
答案型竞赛
答案型竞赛通常可通过从 \boxed{} 中提取最终答案并对其字符串进行基于规则的解析,实现较为准确的自动评分。然而,鉴于此类竞赛题目数量较少,即使微小的解析错误也可能造成不成比例的影响。为此,我们开发了一个定制的基于规则的解析器,能将任意 LaTeX 字符串转换为结构化的 SymPy 表达式,可处理分数、列表、根式等复杂数学对象。随后,使用 SymPy 判断这些表达式是否与标准答案等价。由于模型输出格式多变,解析器的鲁棒性至关重要。我们采取两项措施确保正确性:
第一,我们开发了一个图形用户界面(GUI),用于人工复核模型答案,重点标出:(i) 异常简短的输出(可能因 token 限制被截断);(ii) 解析错误;(iii) 正确答案出现在推理过程中但未被成功提取的情况。对于第一类情况,若某模型频繁出现此问题,我们会考虑更换 API 提供商重新运行(因当前提供商可能限制了每次生成的 token 数量);对于后两类情况,我们对所有标记问题进行人工验证。
第二,我们引入一个基于 LLM 的评判器,使用 GEMINI-2.5-FLASH 模型判断模型的最终答案是否与标准答案语义等价。若解析器与 LLM 评判器结果不一致,我们会人工检查模型响应,并按需更新解析器。
证明型竞赛
目前,自动化评分尚不足以应对证明型题目,因此我们依赖专家人工评分员进行精确评分。首先,由于竞赛通常不公开其评分细则,专家评分员会制定一套结构化评分方案,力求贴近实际竞赛所用标准(例如,对部分进展给予分数)。随后,评分员接收匿名化的模型解答,并依据前述方案进行评分。每份解答由两名独立评分员评判,不仅给出最终分数,还提供评分理由。更多流程细节参见 [28]。
3.4 排行榜与后处理
在模型输出完成评估后,我们执行若干后处理步骤,以确保报告结果的可靠性。这些步骤包括排行榜构建与统计方差估计。
排行榜
结果发布于公开排行榜 https://matharena.ai。该界面设计便于使用,允许用户浏览结果、检查各模型的输出,并验证解析与评分决策。这使用户能够定性分析模型表现,并验证我们解析器与评分流程的正确性。
![]()
4 评估
在本节中,我们展示了在 MATHARENA 上对主流大语言模型(LLMs)的评估结果。我们还对结果进行分析,以调查数据污染问题、性能随时间的变化趋势以及置信区间。有关实验所用数据与代码的获取方式及许可证信息,详见附录 A。为促进开放研究,我们在网站 https://matharena.ai 上公开了所有结果和原始模型响应。
实验设置
我们在以下 2025 年举办的竞赛上评估了模型:AIME [2, 3]、HMMT [18]、BRUMO [4]、CMIMC [5]、USAMO [26]、IMO [12] 和 Project Euler [11]。这些竞赛共包含 162 道题目,涵盖代数、组合数学、几何和数论。其中,USAMO 和 IMO 为证明型竞赛,其余竞赛要求提供数值型最终答案。我们在所有竞赛中评估了超过 50 个 LLM,本文所述实验产生的 API 查询费用约为 2,000 美元(不含开发成本)。
4.1 数值答案型竞赛
我们基于最终答案的评估(不含 Project Euler)包含四项竞赛,共计 130 道题目。本节聚焦于未被弃用的模型,完整结果见附录 B。当同一提供商发布了一个严格更优的新版本后,旧模型即被视为弃用(例如,O3-MINI 在 O4-MINI 发布后即被弃用),此后不再纳入后续评估。
主要结果表 2 报告了截至本文撰写时表现最佳的未被弃用模型的结果。根据第 3 节所述的评估协议,每个模型对每道题目评估四次,准确率采用 pass@1 指标计算,且未使用任何额外的推理时策略(例如多数投票)。总体而言,最新模型展现出极强的性能。表现最佳的模型——GPT-5、GROK 4 和 GROK 4 FAST——分别达到 91.3%、90.6% 和 90.4% 的准确率,其中 GROK 4 FAST 的成本显著更低。这些模型在 AIME 和 HMMT 上的表现远超人类参赛者的前 1%,表明其能够正确解决大多数问题,并与顶尖人类选手竞争。在开源模型中,GPT-OSS-120B 领先,紧随其后的是 DEEPSEEK-V3.2(THINK)。
![]()
成本-准确率帕累托前沿图 3a 展示了所有竞赛中的成本-准确率帕累托前沿。成本反映的是在单个完整竞赛上运行一个模型所需的平均美元费用(对所有竞赛取平均)。目前该前沿仅包含来自 XAI 和 OPENAI 的三个模型。
性能随时间的变化图 3b 展示了模型在 HMMT 2025 上的得分随时间的变化情况。每个点代表一个模型的发布时间,红线表示随时间演进的准确率帕累托前沿。虚线垂直线标记了竞赛举办日期,意味着位于该线左侧的模型可确保未受污染。我们在附录 B 中展示了其他竞赛的类似图表。我们观察到,2024 年 9 月之前发布的模型准确率低于 10%(例如 GPT-4o)。随着 O1 等具备思维链推理能力的模型发布,性能显著提升,并在后续迭代中持续提高。
![]()
过往竞赛的数据污染问题本研究的一个关键目标是评估模型在旧竞赛(尤其是 AIME 2024)上表现的可靠性,因为这些竞赛可能存在数据污染。图 4a 和图 4b 比较了模型在 AIME 与 HMMT 的 2024 版和 2025 版上的得分。横轴表示 2025 版的表现,纵轴表示 2024 版的表现。虚线代表人类参赛者的分位数,使我们能够校正年度间题目难度的变化——因为同一人类分位数在不同年份应产生相近的表现。在 AIME 上,大多数模型位于该线之上,超出幅度达 10%–20%,表明 AIME 2024 的表现因数据污染而被夸大。QWQ-PREVIEW-32B 是一个显著异常值,其表现比预期的人类对齐水平高出近 60%,表明存在严重污染。相比之下,HMMT 的偏差要小得多,说明其结果更可信——可能是因为 HMMT 知名度较低,不太可能被纳入训练数据集。
新竞赛污染的另一个可能来源是:新竞赛中的题目版本可能已提前在线上出现,例如出现在往届比赛或网络论坛中。我们使用 DeepResearch [27] 对 AIME 2025 和 HMMT 2025 进行了调查,发现 AIME 2025 中有 8 道题、HMMT 2025 中有 1 道题以相似形式在线上存在。我们发现这些题目大多较为简单,不影响整体结果,但这也突显了一个有趣的警示:即便评估未来竞赛,仍需警惕潜在的提前泄露。详细信息见附录 B。
置信区间
目前大多数大语言模型基准依赖大型数据集,这引发了一种担忧:单个竞赛的方差可能过高,难以得出有意义的结论。相比之下,小型竞赛常被用于评估人类参赛者,表明它们仍可具备可靠性。
我们采用第 3.4 节所述方法,计算了所有竞赛中模型排名和准确率的 95% 置信区间。表 3 展示了这些置信区间在各竞赛上的平均值,各竞赛单独的置信区间见附录 B。尽管竞赛规模较小,MATHARENA 仍能可靠地区分大多数模型。特别是,排名的置信区间相对较小:前三名模型为 GPT-5、GROK 4 FAST 和 GROK 4,彼此之间差距均在 1% 以内。
![]()
![]()
重复运行作为一种更直观理解方差的方法,我们遵循 Abdin 等人 [1] 的做法,进行重复评估。具体而言,我们选取若干代表性模型(O4-MINI (MEDIUM)、QWEN3-30B-A3B、DEEPSEEK-R1-DISTILL-32B 和 DEEPSEEK-R1-DISTILL-14B),对每道题目采样 100 次解答,并按照第 3.4 节所述方法(每次使用每题 4 个样本)生成每个模型的 25 个得分估计值。随后,我们对这些得分分布拟合核密度估计(KDE)。结果表明,得分分布非常集中(sharp),验证了我们采用四次运行取平均准确率的方法是合理的。
跨竞赛相关性我们还计算了不同竞赛之间的斯皮尔曼(Spearman)相关系数。高相关性表明模型排名具有一致性,说明单个竞赛的结果能够代表整体性能。AIME、HMMT 和 CMIMC 之间的相关性均超过 80%,明确表明某一竞赛的结果可很好地推广到其他类似竞赛。这种高度的整体相关性支持了以下结论:基于单个竞赛的评估通常是稳健的。
4.2 Project Euler
实验设置
我们在 Project Euler 上评估了六个最先进模型:GPT-5、O4-MINI、GROK 4、GROK 4 FAST、GEMINI-2.5-PRO 和 CLAUDE-SONNET-4.5。这些模型是根据其在 MATHARENA 中其他竞赛中的优异表现而选定的。由于这些问题通常需要编程求解,我们允许模型使用工具执行代码,如第 3 节所述。
结果
如表 4 所示,GPT-5 取得了最高的准确率(55%),其次是 GROK 4 及其更快、更便宜的变体(47.5%)。CLAUDE-SONNET-4.5 和 GEMINI-2.5-PRO 表现落后,准确率分别为 16.25% 和 12.5%。
![]()
4.3 自然语言证明评估
MATHARENA 的核心目标之一是在证明型数学竞赛上评估模型,尤其是 USAMO [26]、IMO [12] 和 Putnam [25]。截至本文撰写时,USAMO 2025 和 IMO 2025 已经举行。我们在题目发布后立即按照第 3 节所述流程进行了评估。有关 USAMO 2025 评估的更多细节可参见我们此前的报告 [28]。本节重点讨论 IMO 2025 的结果。
模型选择与评估
我们评估了六个最先进模型:GPT-5、O3、O4-MINI、GEMINI-2.5-PRO、GROK 4 和 DEEPSEEK-R1-0528。我们采用了 Dekoninck 等人 [9] 提出的 best-of-n 选择策略,对每道题从 32 个生成样本中选出最佳证明。在此过程中,模型自身作为评判者,在生成的证明之间进行淘汰赛(bracket tournament),逐轮选出胜者,直至选出最终证明。该流程所用提示词见附录 D。
结果
GPT-5 取得最高分,平均得分为 38%(16 分)。尽管这一结果看似 modest(尤其考虑到仅生成 24 个答案就花费了 200 美元),但鉴于 IMO 题目极高的难度,这仍代表了强劲的表现。然而,16 分仍未达到获得铜牌所需的 19 分(满分 42 分)。完整结果可在我们的排行榜上查看,其中可详细浏览各模型回答及评分员反馈。附录 E 提供了若干模型回答示例。由于题目数量较少,排名的置信区间比数值型竞赛更宽。因此,我们建议在解读结果时保持谨慎,尤其是在比较得分相近的模型时。
定性分析
我们从评估中总结出若干定性发现。首先,GROK 4 的表现远低于预期。其许多初始回答极为简短,常常仅提供最终答案而无任何解释。类似模式也出现在 MATHARENA 的其他基准中,GROK 4 经常生成缺乏深度或论证的回答。相比之下,GEMINI-2.5-PRO 表现出另一种问题:当无法找到有效证明时,它常引用不存在的定理。这种行为尤其成问题,因为它通过虚假权威误导用户,从而削弱对其推理能力的信任。尽管在 IMO 回答中此类行为比在 USAMO [28] 中少见,但仍值得关注。
积极的一面是,与早期评估 [28] 相比,我们观察到更少的格式错误,以及更少模型过度优化“最终答案”风格的情况(例如将整个证明放入 \boxed{} 中,或假设所有回答都必须是数值)。这表明模型在处理开放式数学推理任务方面正变得更加可靠。
最后,一位评分员在 best-of-n 选择前简要审阅了模型生成的 32 个原始回答的一个子集。他指出,许多原始回答非常薄弱,并估计若不经过筛选,模型得分可能降至 10% 以下。有趣的是,该评分员还注意到,一些未被选中的回答在连贯性上甚至优于被选中的回答,但却包含更多事实性错误。
5 讨论
我们简要描述本工作的局限性与更广泛的影响。
![]()
局限性每年仅有数量有限的竞赛足够具有挑战性,可作为评估最先进大语言模型(LLMs)的有效基准。因此,MATHARENA 的规模仍然较小,导致结果的置信区间相对较宽。然而,我们预计随着更多竞赛的加入,这一情况将随时间逐步改善,不确定性也将逐渐降低。此外,当前最先进的模型已能解决几乎所有答案型竞赛中除最难题目以外的所有问题。这表明此类基准可能很快趋于饱和,甚至可能早在 2026 年就会发生。为维持有意义的评估,我们预计需要识别或设计更具挑战性的竞赛。不过,与静态基准不同,MATHARENA 的动态特性使其能够随模型能力同步演进,确保在领域发展中持续保持相关性。
此外,还存在一些关于残余数据污染的潜在担忧,源于模型发布时间与竞赛举办日期之间的时间差。在我们的排行榜上,我们明确标注了在竞赛日期之后发布的模型。然而,由于竞赛公开发布与我们评估之间存在一定时间窗口,理论上闭源模型有可能在我们评估前就已用新竞赛数据进行了更新。但在实践中,我们的评估通常在竞赛结束后几小时至最多几天内完成,而当前的训练流程需要更长时间才能整合新数据。因此,我们认为在我们的设定下,污染风险极低。
更广泛的影响MATHARENA 已对领域产生显著影响。若干主要模型提供商已在发布说明中引用 MATHARENA 的结果,包括 PHI-4-REASONING [1]、GEMINI-2.5-PRO [31] 和 GROK-3 [34]。今年二月,我们首次证明:专注于推理的 LLM 在旧数学竞赛上的表现可很好地泛化到新竞赛。我们的工作已引起社区广泛关注,我们预期 MATHARENA 将继续作为一个有价值且具备适应性的资源,通过使基准始终保持挑战性并与模型能力前沿同步,支持对 LLM 的持续评估。
6 结论
我们提出了 MATHARENA——一个旨在利用人类数学竞赛中未受污染的题目来评估大语言模型(LLM)数学能力的基准。其核心洞见在于:这类竞赛天然生成一系列多样化、高难度且未受污染的问题,非常适合进行严格评估。为此,我们开发了一个可扩展的流水线,用于解析题目与答案、采样模型解答、提取最终答案并验证其正确性。基于该框架,我们在 2025 年举办的七项数学竞赛共 162 道题目上评估了超过 50 个 LLM。结果既显示出 LLM 数学能力的显著进步,也证实了先前基准中数据污染问题的实际影响。
原文链接:https://arxiv.org/pdf/2505.23281
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.