香港中文大学：为什么最强数学AI在真实考试中表现远不如预期|科学|高考|推理

香港中文大学：为什么最强数学AI在真实考试中表现远不如预期

2026-01-21 15:52:58　来源: 至顶AI实验室

北京举报

分享至

这项由香港中文大学计算机科学与工程系的Azim Ospanov、Farzan Farnia和华为香港研究中心的Roozbeh Yousefzadeh合作完成的研究发表于2025年的第39届神经信息处理系统会议（NeurIPS 2025），论文编号为arXiv:2511.03108v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

在人工智能飞速发展的今天，我们经常听到AI在数学领域取得的惊人成就。比如AlphaProof在2024年国际数学奥林匹克竞赛中获得银牌水平的表现，这些成就让人们对AI的数学能力充满期待。但是，当我们把这些看似强大的AI系统放到真实的考试环境中会发生什么呢？香港中文大学的研究团队就像是给这些"学霸"AI进行了一次真正的模拟考试，结果却发现了令人意外的问题。

研究团队关注的焦点是一个名为miniF2F的数学基准测试集，这个测试集就像是AI界的"数学高考试卷"，包含了488道来自国际数学奥林匹克、美国数学竞赛等权威赛事的题目。长期以来，研究人员用这个测试集来衡量AI系统的数学推理能力，就像用标准化考试来评估学生水平一样。

但是，研究团队发现了一个严重问题：这个被广泛使用的"考试卷子"本身就存在大量错误。想象一下，如果高考试卷上的题目表述不清、答案错误，甚至题目根本无解，那么用这样的试卷来评估学生水平显然是不可靠的。更关键的是，当前的AI数学系统需要完成两个步骤：首先理解自然语言描述的数学问题（就像学生读题），然后用形式化的数学语言来证明（就像写出规范的解题过程）。

研究团队构建了一个完整的AI数学考试流水线，就像模拟真实考试环境一样。在这个设置中，AI必须从头到尾独立完成整个解题过程：阅读理解自然语言的题目，将其转换为严格的数学表述，然后给出正确的证明。结果令人震惊：即使使用目前最先进的AI模型，整个流水线的准确率只有大约36%，这与单独测试时报告的97%理解率和69%证明率形成了巨大反差。

通过深入分析，研究团队发现问题的根源在于miniF2F测试集本身存在系统性缺陷。超过一半的题目在自然语言描述和形式化数学表述之间存在不一致，就像是题目的中文版本和英文版本说的完全不是一回事。有些题目被过度简化，有些则包含错误信息，甚至有16道题目根本就是无解的。

面对这些问题，研究团队决定对整个测试集进行彻底修正。他们手工检查和修正了所有488道题目，确保每道题的自然语言描述和数学表述完全一致，就像是重新编写了一套标准化考试。修正工作产生了两个版本：miniF2F-v2s（简化版）主要纠正了错误，保持了相对简化的形式；miniF2F-v2c（竞赛版）则完全还原了原始竞赛题目的完整难度，包括多选题的所有选项。

在修正后的测试集上，AI系统的表现发生了有趣的变化。一方面，由于消除了原本无解或错误的题目，AI在某些方面的表现有所提升，准确率从原来的40%提升到了70%。但另一方面，当面对真正还原了原始难度的题目时，AI的表现大幅下降，这揭示了当前AI系统与真实数学竞赛要求之间的巨大差距。

研究还发现了AI评估中的另一个重要问题：目前对AI数学理解能力的评估往往依赖其他AI系统来判断，而不是人类专家。这就像是让学生互相批改试卷而不是老师评分。通过人类专家的重新评估，研究团队发现所谓的97%理解准确率实际上只有66%，这种评估偏差严重误导了对AI能力的判断。

更深入的分析揭示了不同类型题目对AI系统造成的不同挑战。那些被过度简化的题目让AI获得了虚高的成绩，就像是把大学考试题改成了小学水平，当然会让成绩看起来很好。而当恢复题目的真实难度时，即使是最强的AI系统也会遭遇显著的性能下降，某些模型的准确率下降超过30%。

这项研究的意义远不止于修正一个测试集。它揭示了当前AI数学评估中的系统性问题，就像是发现了教育评估中的作弊行为。研究团队指出，要真正评估AI的数学能力，需要建立更加严格和真实的评估标准，确保评估环境能够反映真实应用场景的要求。

通过对不同数学竞赛类型题目的分析，研究团队发现AI系统在处理国际数学奥林匹克（IMO）题目时表现最为吃力。在修正后的测试集中，最强的AI系统在IMO题目上的解决率从之前的夸大表现降至更加真实但较低的水平，这表明真正的数学创新和深度推理仍然是AI面临的重大挑战。

研究还探讨了不同AI系统在各种数学主题上的表现差异。一些系统在代数问题上表现相对较好，而在几何或数论问题上则显著下降。这种不均衡反映了当前AI数学训练数据和方法的局限性，就像是偏科严重的学生在某些科目上游刃有余，在其他科目上却捉襟见肘。

值得注意的是，这项研究不仅指出了问题，还提供了解决方案的方向。通过提供高质量、经过完全验证的基准测试集，研究团队为AI数学能力的准确评估奠定了基础。这就像是制定了新的考试标准，确保所有参与者都在公平、准确的环境下接受测试。

研究团队还发现，当给AI系统提供更清晰、更详细的问题描述时，某些系统的表现会有显著改善。这提示我们，AI系统的数学能力不仅取决于其核心算法，还受到问题表述质量的重要影响。这个发现对于设计更好的AI数学教育系统具有重要启示。

从更广的角度来看，这项研究反映了AI发展中的一个普遍问题：评估标准的可靠性直接影响对AI能力的准确认知。就像体育比赛需要标准化的规则和裁判一样，AI能力评估也需要严格、公正的基准。只有建立在可靠评估基础上的AI发展才能真正服务于人类需求。

研究的另一个重要发现涉及AI系统间的协作问题。当前的AI数学解决方案通常包含两个相对独立的模块：理解模块和证明模块。研究发现，即使这两个模块单独表现优秀，它们之间的协作往往存在问题，导致整体性能的显著下降。这就像是两个优秀的运动员无法很好地配合进行双打比赛。

对于普通读者来说，这项研究的意义在于提醒我们：媒体报道中那些关于AI数学能力的惊人数字可能并不完全准确。真实的AI能力评估需要更加严格和全面的方法。同时，这项研究也展示了科学研究中自我修正机制的重要性——发现问题、分析问题、解决问题的过程正是科学进步的本质。

展望未来，研究团队的工作为AI数学能力的发展指明了方向。通过提供更加准确和挑战性的评估标准，这项研究将推动AI系统向着真正能够处理复杂数学问题的方向发展。这不仅对AI研究具有重要意义，也为教育、科学计算等应用领域的AI发展提供了重要参考。

说到底，这项研究就像是为AI数学能力评估制定了新的"考试大纲"。它提醒我们，真正的AI进步不应该建立在有缺陷的评估基础上，而需要面对真实的挑战。通过这种严格的自我审视和改进，AI系统才能在未来真正成为人类在数学探索中的可靠伙伴。研究团队已经将修正后的数据集公开发布，为整个AI研究社区提供了更加可靠的评估工具，这种开放共享的精神体现了科学研究追求真理的本质。

Q&A

Q1：miniF2F是什么，为什么它很重要？

A：miniF2F是AI界广泛使用的数学能力测试集，包含488道来自国际数学奥林匹克等权威竞赛的题目。它就像AI的"数学高考试卷"，被用来评估AI系统的数学推理能力。但这项研究发现原版存在大量错误和不一致问题。

Q2：为什么AI在单独测试中表现好，但在完整流程中表现差？

A：就像考试分为理解题目和解答题目两个步骤，AI需要先理解自然语言问题再进行数学证明。虽然每个步骤单独测试时表现不错，但两个模块协作时会出现问题，加上原始测试集存在缺陷，导致整体准确率从预期的高分降至36%左右。

Q3：修正后的miniF2F-v2对AI研究有什么意义？

A：miniF2F-v2提供了两个版本：简化版纠正了错误，竞赛版完全还原原题难度。这让AI研究人员能够更准确地评估系统能力，避免被虚高的成绩误导，推动AI向着能够真正处理复杂数学问题的方向发展。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.