![]()
这项由香港中文大学计算机科学与工程系的Azim Ospanov、Farzan Farnia和华为香港研究中心的Roozbeh Yousefzadeh合作完成的研究发表于2025年的第39届神经信息处理系统会议(NeurIPS 2025),论文编号为arXiv:2511.03108v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
在人工智能飞速发展的今天,我们经常听到AI在数学领域取得的惊人成就。比如AlphaProof在2024年国际数学奥林匹克竞赛中获得银牌水平的表现,这些成就让人们对AI的数学能力充满期待。但是,当我们把这些看似强大的AI系统放到真实的考试环境中会发生什么呢?香港中文大学的研究团队就像是给这些"学霸"AI进行了一次真正的模拟考试,结果却发现了令人意外的问题。
研究团队关注的焦点是一个名为miniF2F的数学基准测试集,这个测试集就像是AI界的"数学高考试卷",包含了488道来自国际数学奥林匹克、美国数学竞赛等权威赛事的题目。长期以来,研究人员用这个测试集来衡量AI系统的数学推理能力,就像用标准化考试来评估学生水平一样。
但是,研究团队发现了一个严重问题:这个被广泛使用的"考试卷子"本身就存在大量错误。想象一下,如果高考试卷上的题目表述不清、答案错误,甚至题目根本无解,那么用这样的试卷来评估学生水平显然是不可靠的。更关键的是,当前的AI数学系统需要完成两个步骤:首先理解自然语言描述的数学问题(就像学生读题),然后用形式化的数学语言来证明(就像写出规范的解题过程)。
研究团队构建了一个完整的AI数学考试流水线,就像模拟真实考试环境一样。在这个设置中,AI必须从头到尾独立完成整个解题过程:阅读理解自然语言的题目,将其转换为严格的数学表述,然后给出正确的证明。结果令人震惊:即使使用目前最先进的AI模型,整个流水线的准确率只有大约36%,这与单独测试时报告的97%理解率和69%证明率形成了巨大反差。
通过深入分析,研究团队发现问题的根源在于miniF2F测试集本身存在系统性缺陷。超过一半的题目在自然语言描述和形式化数学表述之间存在不一致,就像是题目的中文版本和英文版本说的完全不是一回事。有些题目被过度简化,有些则包含错误信息,甚至有16道题目根本就是无解的。
面对这些问题,研究团队决定对整个测试集进行彻底修正。他们手工检查和修正了所有488道题目,确保每道题的自然语言描述和数学表述完全一致,就像是重新编写了一套标准化考试。修正工作产生了两个版本:miniF2F-v2s(简化版)主要纠正了错误,保持了相对简化的形式;miniF2F-v2c(竞赛版)则完全还原了原始竞赛题目的完整难度,包括多选题的所有选项。
在修正后的测试集上,AI系统的表现发生了有趣的变化。一方面,由于消除了原本无解或错误的题目,AI在某些方面的表现有所提升,准确率从原来的40%提升到了70%。但另一方面,当面对真正还原了原始难度的题目时,AI的表现大幅下降,这揭示了当前AI系统与真实数学竞赛要求之间的巨大差距。
研究还发现了AI评估中的另一个重要问题:目前对AI数学理解能力的评估往往依赖其他AI系统来判断,而不是人类专家。这就像是让学生互相批改试卷而不是老师评分。通过人类专家的重新评估,研究团队发现所谓的97%理解准确率实际上只有66%,这种评估偏差严重误导了对AI能力的判断。
更深入的分析揭示了不同类型题目对AI系统造成的不同挑战。那些被过度简化的题目让AI获得了虚高的成绩,就像是把大学考试题改成了小学水平,当然会让成绩看起来很好。而当恢复题目的真实难度时,即使是最强的AI系统也会遭遇显著的性能下降,某些模型的准确率下降超过30%。
这项研究的意义远不止于修正一个测试集。它揭示了当前AI数学评估中的系统性问题,就像是发现了教育评估中的作弊行为。研究团队指出,要真正评估AI的数学能力,需要建立更加严格和真实的评估标准,确保评估环境能够反映真实应用场景的要求。
通过对不同数学竞赛类型题目的分析,研究团队发现AI系统在处理国际数学奥林匹克(IMO)题目时表现最为吃力。在修正后的测试集中,最强的AI系统在IMO题目上的解决率从之前的夸大表现降至更加真实但较低的水平,这表明真正的数学创新和深度推理仍然是AI面临的重大挑战。
研究还探讨了不同AI系统在各种数学主题上的表现差异。一些系统在代数问题上表现相对较好,而在几何或数论问题上则显著下降。这种不均衡反映了当前AI数学训练数据和方法的局限性,就像是偏科严重的学生在某些科目上游刃有余,在其他科目上却捉襟见肘。
值得注意的是,这项研究不仅指出了问题,还提供了解决方案的方向。通过提供高质量、经过完全验证的基准测试集,研究团队为AI数学能力的准确评估奠定了基础。这就像是制定了新的考试标准,确保所有参与者都在公平、准确的环境下接受测试。
研究团队还发现,当给AI系统提供更清晰、更详细的问题描述时,某些系统的表现会有显著改善。这提示我们,AI系统的数学能力不仅取决于其核心算法,还受到问题表述质量的重要影响。这个发现对于设计更好的AI数学教育系统具有重要启示。
从更广的角度来看,这项研究反映了AI发展中的一个普遍问题:评估标准的可靠性直接影响对AI能力的准确认知。就像体育比赛需要标准化的规则和裁判一样,AI能力评估也需要严格、公正的基准。只有建立在可靠评估基础上的AI发展才能真正服务于人类需求。
研究的另一个重要发现涉及AI系统间的协作问题。当前的AI数学解决方案通常包含两个相对独立的模块:理解模块和证明模块。研究发现,即使这两个模块单独表现优秀,它们之间的协作往往存在问题,导致整体性能的显著下降。这就像是两个优秀的运动员无法很好地配合进行双打比赛。
对于普通读者来说,这项研究的意义在于提醒我们:媒体报道中那些关于AI数学能力的惊人数字可能并不完全准确。真实的AI能力评估需要更加严格和全面的方法。同时,这项研究也展示了科学研究中自我修正机制的重要性——发现问题、分析问题、解决问题的过程正是科学进步的本质。
展望未来,研究团队的工作为AI数学能力的发展指明了方向。通过提供更加准确和挑战性的评估标准,这项研究将推动AI系统向着真正能够处理复杂数学问题的方向发展。这不仅对AI研究具有重要意义,也为教育、科学计算等应用领域的AI发展提供了重要参考。
说到底,这项研究就像是为AI数学能力评估制定了新的"考试大纲"。它提醒我们,真正的AI进步不应该建立在有缺陷的评估基础上,而需要面对真实的挑战。通过这种严格的自我审视和改进,AI系统才能在未来真正成为人类在数学探索中的可靠伙伴。研究团队已经将修正后的数据集公开发布,为整个AI研究社区提供了更加可靠的评估工具,这种开放共享的精神体现了科学研究追求真理的本质。
Q&A
Q1:miniF2F是什么,为什么它很重要?
A:miniF2F是AI界广泛使用的数学能力测试集,包含488道来自国际数学奥林匹克等权威竞赛的题目。它就像AI的"数学高考试卷",被用来评估AI系统的数学推理能力。但这项研究发现原版存在大量错误和不一致问题。
Q2:为什么AI在单独测试中表现好,但在完整流程中表现差?
A:就像考试分为理解题目和解答题目两个步骤,AI需要先理解自然语言问题再进行数学证明。虽然每个步骤单独测试时表现不错,但两个模块协作时会出现问题,加上原始测试集存在缺陷,导致整体准确率从预期的高分降至36%左右。
Q3:修正后的miniF2F-v2对AI研究有什么意义?
A:miniF2F-v2提供了两个版本:简化版纠正了错误,竞赛版完全还原原题难度。这让AI研究人员能够更准确地评估系统能力,避免被虚高的成绩误导,推动AI向着能够真正处理复杂数学问题的方向发展。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.