网易首页 > 网易号 > 正文 申请入驻

香港中文大学:为什么最强数学AI在真实考试中表现远不如预期

0
分享至


这项由香港中文大学计算机科学与工程系的Azim Ospanov、Farzan Farnia和华为香港研究中心的Roozbeh Yousefzadeh合作完成的研究发表于2025年的第39届神经信息处理系统会议(NeurIPS 2025),论文编号为arXiv:2511.03108v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

在人工智能飞速发展的今天,我们经常听到AI在数学领域取得的惊人成就。比如AlphaProof在2024年国际数学奥林匹克竞赛中获得银牌水平的表现,这些成就让人们对AI的数学能力充满期待。但是,当我们把这些看似强大的AI系统放到真实的考试环境中会发生什么呢?香港中文大学的研究团队就像是给这些"学霸"AI进行了一次真正的模拟考试,结果却发现了令人意外的问题。

研究团队关注的焦点是一个名为miniF2F的数学基准测试集,这个测试集就像是AI界的"数学高考试卷",包含了488道来自国际数学奥林匹克、美国数学竞赛等权威赛事的题目。长期以来,研究人员用这个测试集来衡量AI系统的数学推理能力,就像用标准化考试来评估学生水平一样。

但是,研究团队发现了一个严重问题:这个被广泛使用的"考试卷子"本身就存在大量错误。想象一下,如果高考试卷上的题目表述不清、答案错误,甚至题目根本无解,那么用这样的试卷来评估学生水平显然是不可靠的。更关键的是,当前的AI数学系统需要完成两个步骤:首先理解自然语言描述的数学问题(就像学生读题),然后用形式化的数学语言来证明(就像写出规范的解题过程)。

研究团队构建了一个完整的AI数学考试流水线,就像模拟真实考试环境一样。在这个设置中,AI必须从头到尾独立完成整个解题过程:阅读理解自然语言的题目,将其转换为严格的数学表述,然后给出正确的证明。结果令人震惊:即使使用目前最先进的AI模型,整个流水线的准确率只有大约36%,这与单独测试时报告的97%理解率和69%证明率形成了巨大反差。

通过深入分析,研究团队发现问题的根源在于miniF2F测试集本身存在系统性缺陷。超过一半的题目在自然语言描述和形式化数学表述之间存在不一致,就像是题目的中文版本和英文版本说的完全不是一回事。有些题目被过度简化,有些则包含错误信息,甚至有16道题目根本就是无解的。

面对这些问题,研究团队决定对整个测试集进行彻底修正。他们手工检查和修正了所有488道题目,确保每道题的自然语言描述和数学表述完全一致,就像是重新编写了一套标准化考试。修正工作产生了两个版本:miniF2F-v2s(简化版)主要纠正了错误,保持了相对简化的形式;miniF2F-v2c(竞赛版)则完全还原了原始竞赛题目的完整难度,包括多选题的所有选项。

在修正后的测试集上,AI系统的表现发生了有趣的变化。一方面,由于消除了原本无解或错误的题目,AI在某些方面的表现有所提升,准确率从原来的40%提升到了70%。但另一方面,当面对真正还原了原始难度的题目时,AI的表现大幅下降,这揭示了当前AI系统与真实数学竞赛要求之间的巨大差距。

研究还发现了AI评估中的另一个重要问题:目前对AI数学理解能力的评估往往依赖其他AI系统来判断,而不是人类专家。这就像是让学生互相批改试卷而不是老师评分。通过人类专家的重新评估,研究团队发现所谓的97%理解准确率实际上只有66%,这种评估偏差严重误导了对AI能力的判断。

更深入的分析揭示了不同类型题目对AI系统造成的不同挑战。那些被过度简化的题目让AI获得了虚高的成绩,就像是把大学考试题改成了小学水平,当然会让成绩看起来很好。而当恢复题目的真实难度时,即使是最强的AI系统也会遭遇显著的性能下降,某些模型的准确率下降超过30%。

这项研究的意义远不止于修正一个测试集。它揭示了当前AI数学评估中的系统性问题,就像是发现了教育评估中的作弊行为。研究团队指出,要真正评估AI的数学能力,需要建立更加严格和真实的评估标准,确保评估环境能够反映真实应用场景的要求。

通过对不同数学竞赛类型题目的分析,研究团队发现AI系统在处理国际数学奥林匹克(IMO)题目时表现最为吃力。在修正后的测试集中,最强的AI系统在IMO题目上的解决率从之前的夸大表现降至更加真实但较低的水平,这表明真正的数学创新和深度推理仍然是AI面临的重大挑战。

研究还探讨了不同AI系统在各种数学主题上的表现差异。一些系统在代数问题上表现相对较好,而在几何或数论问题上则显著下降。这种不均衡反映了当前AI数学训练数据和方法的局限性,就像是偏科严重的学生在某些科目上游刃有余,在其他科目上却捉襟见肘。

值得注意的是,这项研究不仅指出了问题,还提供了解决方案的方向。通过提供高质量、经过完全验证的基准测试集,研究团队为AI数学能力的准确评估奠定了基础。这就像是制定了新的考试标准,确保所有参与者都在公平、准确的环境下接受测试。

研究团队还发现,当给AI系统提供更清晰、更详细的问题描述时,某些系统的表现会有显著改善。这提示我们,AI系统的数学能力不仅取决于其核心算法,还受到问题表述质量的重要影响。这个发现对于设计更好的AI数学教育系统具有重要启示。

从更广的角度来看,这项研究反映了AI发展中的一个普遍问题:评估标准的可靠性直接影响对AI能力的准确认知。就像体育比赛需要标准化的规则和裁判一样,AI能力评估也需要严格、公正的基准。只有建立在可靠评估基础上的AI发展才能真正服务于人类需求。

研究的另一个重要发现涉及AI系统间的协作问题。当前的AI数学解决方案通常包含两个相对独立的模块:理解模块和证明模块。研究发现,即使这两个模块单独表现优秀,它们之间的协作往往存在问题,导致整体性能的显著下降。这就像是两个优秀的运动员无法很好地配合进行双打比赛。

对于普通读者来说,这项研究的意义在于提醒我们:媒体报道中那些关于AI数学能力的惊人数字可能并不完全准确。真实的AI能力评估需要更加严格和全面的方法。同时,这项研究也展示了科学研究中自我修正机制的重要性——发现问题、分析问题、解决问题的过程正是科学进步的本质。

展望未来,研究团队的工作为AI数学能力的发展指明了方向。通过提供更加准确和挑战性的评估标准,这项研究将推动AI系统向着真正能够处理复杂数学问题的方向发展。这不仅对AI研究具有重要意义,也为教育、科学计算等应用领域的AI发展提供了重要参考。

说到底,这项研究就像是为AI数学能力评估制定了新的"考试大纲"。它提醒我们,真正的AI进步不应该建立在有缺陷的评估基础上,而需要面对真实的挑战。通过这种严格的自我审视和改进,AI系统才能在未来真正成为人类在数学探索中的可靠伙伴。研究团队已经将修正后的数据集公开发布,为整个AI研究社区提供了更加可靠的评估工具,这种开放共享的精神体现了科学研究追求真理的本质。

Q&A

Q1:miniF2F是什么,为什么它很重要?

A:miniF2F是AI界广泛使用的数学能力测试集,包含488道来自国际数学奥林匹克等权威竞赛的题目。它就像AI的"数学高考试卷",被用来评估AI系统的数学推理能力。但这项研究发现原版存在大量错误和不一致问题。

Q2:为什么AI在单独测试中表现好,但在完整流程中表现差?

A:就像考试分为理解题目和解答题目两个步骤,AI需要先理解自然语言问题再进行数学证明。虽然每个步骤单独测试时表现不错,但两个模块协作时会出现问题,加上原始测试集存在缺陷,导致整体准确率从预期的高分降至36%左右。

Q3:修正后的miniF2F-v2对AI研究有什么意义?

A:miniF2F-v2提供了两个版本:简化版纠正了错误,竞赛版完全还原原题难度。这让AI研究人员能够更准确地评估系统能力,避免被虚高的成绩误导,推动AI向着能够真正处理复杂数学问题的方向发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
桑乔:很高兴斩获维拉生涯处子球,拥有主帅的支持和信任感觉真好

桑乔:很高兴斩获维拉生涯处子球,拥有主帅的支持和信任感觉真好

砚底沉香
2026-01-23 06:57:05
美国发起的所谓“和平委员会”首次会议在瑞士达沃斯举行

美国发起的所谓“和平委员会”首次会议在瑞士达沃斯举行

财联社
2026-01-22 18:27:07
70岁费玉清近况曝光!与56岁知己相依为伴,无儿无女一生痴等一人

70岁费玉清近况曝光!与56岁知己相依为伴,无儿无女一生痴等一人

代军哥哥谈娱乐
2026-01-20 11:21:43
如果您决定把炒股当成一辈子的事业,下面7条铁律,一定牢牢记住

如果您决定把炒股当成一辈子的事业,下面7条铁律,一定牢牢记住

流苏晚晴
2025-10-11 19:39:16
欧联1-0,28岁阿森纳旧将一剑封喉,率队掀翻伯尔尼年轻人+迎3连胜

欧联1-0,28岁阿森纳旧将一剑封喉,率队掀翻伯尔尼年轻人+迎3连胜

侧身凌空斩
2026-01-23 04:56:44
3000台瞬间售罄,新款飞度意外“小火”,燃油小车依然大有可为?

3000台瞬间售罄,新款飞度意外“小火”,燃油小车依然大有可为?

功夫AUTO
2026-01-20 14:59:36
古巴能源供应被切断,垃圾堆积如山

古巴能源供应被切断,垃圾堆积如山

昊轩看世界
2026-01-14 10:15:12
"终于开始到村了,乡村基层贪腐太严重了!一个村支书能身家上亿你能想象吗?"

"终于开始到村了,乡村基层贪腐太严重了!一个村支书能身家上亿你能想象吗?"

思如哲思
2026-01-23 06:36:04
国家海关总署:立即停止使用法国Picot婴幼儿配方奶粉

国家海关总署:立即停止使用法国Picot婴幼儿配方奶粉

财联社
2026-01-22 16:54:07
为什么去非洲的中国人不愿回来?看完网友的分享,太真实了!

为什么去非洲的中国人不愿回来?看完网友的分享,太真实了!

另子维爱读史
2026-01-18 20:06:34
我嫁给了月薪3500元的保安,婚后5天,董事长:你知道嫁的是谁吗?

我嫁给了月薪3500元的保安,婚后5天,董事长:你知道嫁的是谁吗?

温情邮局
2025-12-27 13:45:35
湖州安吉县住建局:正积极配合处理

湖州安吉县住建局:正积极配合处理

澎湃新闻
2026-01-23 00:24:04
奇怪的现象:强势、喜欢吼老公的女人,养出的孩子都有共性

奇怪的现象:强势、喜欢吼老公的女人,养出的孩子都有共性

木言观
2026-01-20 06:38:59
北京朝阳区卫健委已介入嫣然天使儿童医院欠租纠纷,房东代理律师:考虑向法院申请将网友捐款偿还房租

北京朝阳区卫健委已介入嫣然天使儿童医院欠租纠纷,房东代理律师:考虑向法院申请将网友捐款偿还房租

新民晚报
2026-01-22 14:38:49
队记:如果杨瀚森入选G联赛队参加全明星新秀赛,我一点都不感到惊讶

队记:如果杨瀚森入选G联赛队参加全明星新秀赛,我一点都不感到惊讶

懂球帝
2026-01-22 12:18:21
货车司机高速上倒车捡配电柜索要5000元报酬,失主:货价1.8万元,无奈给了4300元

货车司机高速上倒车捡配电柜索要5000元报酬,失主:货价1.8万元,无奈给了4300元

极目新闻
2026-01-23 00:48:44
藏得很深的“亲美疏中”的郑丽文,佩服国台办迟迟未发出的邀请函

藏得很深的“亲美疏中”的郑丽文,佩服国台办迟迟未发出的邀请函

开着车去流浪
2026-01-21 23:52:57
为何生涯仅1冠1MVP的诺维斯基能够得到世人如此巨大的尊重?

为何生涯仅1冠1MVP的诺维斯基能够得到世人如此巨大的尊重?

篮球小烟花
2026-01-22 09:19:57
猛烈抛售,欧洲巨头暴跌35%!

猛烈抛售,欧洲巨头暴跌35%!

数据宝
2026-01-22 21:28:59
原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

另子维爱读史
2026-01-16 18:29:22
2026-01-23 07:35:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1294文章数 156关注度
往期回顾 全部

教育要闻

动点路径长怎么求?用常规方法

头条要闻

特朗普起诉美国最大银行 索赔至少50亿美元

头条要闻

特朗普起诉美国最大银行 索赔至少50亿美元

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

车银优赚800亿 涉嫌逃税200亿!

财经要闻

西贝拿到“救命钱”,然后呢

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

汽车要闻

配备多块娱乐屏 极氪8X内饰曝光

态度原创

时尚
教育
旅游
本地
健康

这些才是最日常的冬季穿搭!不露腿、不扮嫩,简约舒适又保暖

教育要闻

上海警校招生3大条件!身高视力不过关必看

旅游要闻

南方人看雪新地标!不用去东北,庐山雾凇 + 云海,美得像童话!

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

打工人年终总结!健康通关=赢麻了

无障碍浏览 进入关怀版