网易首页 > 网易号 > 正文 申请入驻

斯坦福大学推出史上最难数学考试,连最强AI模型都只能考42分

0
分享至


这项由斯坦福大学计算机科学系的阿里安·古拉蒂(Aryan Gulati)、布兰多·米兰达(Brando Miranda)、埃里克·陈(Eric Chen)、艾米莉·夏(Emily Xia)、凯·弗隆斯达尔(Kai Fronsdal)、布鲁诺·杜蒙(Bruno Dumont)、埃里亚斯·奥巴德(Elyas Obbad)和桑米·科耶霍(Sanmi Koyejo)等研究人员联合完成的研究发表于2025年国际机器学习大会(ICML 2025)。这项开创性研究首次将著名的普特南数学竞赛题目转化为AI数学推理能力的基准测试,创建了迄今为止最具挑战性的数学推理测试系统。感兴趣的读者可以通过论文网址 https://github.com/brando90/putnam-axiom 获取完整的研究数据和代码。

想象一下这样的场景:当前最先进的AI模型在大多数标准数学考试中已经能够轻松拿到90分以上的高分,几乎达到了人类顶尖学生的水平。然而,当这些"数学天才"AI遇到真正的大学级数学挑战时,情况却急转直下。连OpenAI最强的o1-preview模型也只能在这个新测试中勉强获得42分的成绩,而其他大部分AI模型的得分更是惨不忍睹,只能在10分以下徘徊。这就像是一群平时在小测验中表现优异的学生,突然面对真正的期末大考时集体"翻车"的情景。

这个被称为"Putnam-AXIOM"的测试系统就像是AI界的"数学地狱模式"。研究团队从享有盛誉的威廉·洛威尔·普特南数学竞赛中精心挑选了522道大学级别的数学难题,这些题目涵盖了几何、代数、微积分、线性代数、组合数学、概率论、数论等11个不同的数学领域。普特南竞赛本身就是北美大学生数学竞赛的"奥林匹克",每年都有成千上万的数学尖子生参加,但大多数参赛者的得分都非常低,甚至零分也很常见。现在,研究人员将这些"魔鬼级"题目搬到了AI测试领域。

更巧妙的是,研究团队还开发了一套"变形金刚"般的题目生成系统。他们从这522道题目中选择了100道,通过程序化的方式改变其中的变量、常数和表述方式,创造出无限多个功能等价但表面不同的新题目。这就像是有一个神奇的题目工厂,能够源源不断地生产出同样难度的新题目,确保AI无法通过简单的"背答案"来作弊。当AI模型面对这些"变形"题目时,它们的表现出现了显著下降,暴露出了对原始题目的记忆依赖问题。

一、AI数学能力的真实检验:从"学霸"到"学渣"的惊人反差

当前的AI数学测试就像是让学生在开卷考试中展示能力一样。现有的数学基准测试大多来源于网络上公开可得的题目,这意味着AI模型在训练过程中很可能已经"见过"这些题目和答案。这种情况下,AI的高分表现更像是展示记忆力而非真正的数学推理能力。研究团队发现,即便是最优秀的AI模型,在面对它们从未"背过"的题目时,表现会急剧下降。

为了深入理解这个问题,研究人员设计了一个巧妙的对比实验。他们让AI模型分别解答原始的普特南题目和经过变形处理的版本,结果发现几乎所有模型在变形题目上的表现都明显下降。最强的o1-preview模型在原始题目上能达到51%的正确率,但在变形题目上却下降到43%,相对下降了近20%。这种下降幅度在统计学上具有显著意义,清楚地表明了AI对原始题目的记忆依赖。

这种现象就像是一个平时背诵了大量例题答案的学生,在考试中遇到稍微改动的题目时就束手无策。更令人担忧的是,大部分AI模型的下降幅度甚至更大,有的模型在变形题目上的表现下降了30%以上。这暴露了当前AI数学能力评估中存在的严重问题:我们可能一直在高估AI的真实数学推理能力。

二、从记忆到推理:揭示AI"伪装"的数学天赋

为了进一步证实AI模型对题目记忆的依赖程度,研究团队进行了一项创新的"污染模拟"实验。他们故意让一个AI模型"背诵"100道普特南原题及其答案,然后测试这个模型在原题和变形题上的表现。结果令人震惊:经过"背题"训练的模型在原题上的正确率从23%暴涨到80%,但在变形题上却仅仅从12%提升到33%。这就像是一个学生背熟了标准答案,在原题上表现优异,但面对稍作修改的题目时仍然困难重重。

这个实验生动地展示了当前AI评估中的"皇帝新装"现象。许多看似表现优异的AI模型实际上更像是"高级复读机",它们的出色表现很大程度上依赖于对训练数据中见过的题目的记忆。一旦面对真正需要推理的新题目,它们的真实水平就会暴露无遗。这种发现对整个AI评估领域具有重要意义,提醒我们需要更加严谨地设计测试方法。

研究团队的变形题目生成方法就像是给题目穿上了"隐身衣"。通过改变变量名称(比如将x改为w,将y改为v)和调整数值常数,原本相同的数学问题在表面上看起来完全不同,但本质上需要相同的推理能力来解决。这种方法确保了测试的公平性,让AI无法通过简单的模式匹配来获得高分。

三、数学推理的新标准:不只看答案,更要看过程

传统的数学AI评估就像是只看学生在答题纸上写的最终答案,完全忽略了解题过程。这种评估方式存在明显的缺陷:对于只有几个可能答案的题目(比如是非题),AI模型即使完全不会做题,也有很大概率蒙对答案。更严重的是,这种评估方式无法判断AI是否真正理解了解题思路,还是只是碰巧得到了正确答案。

为了解决这个问题,研究团队开发了一种名为"教师强制准确率"(TFA)的新评估方法。这种方法就像是一个严格的数学老师,不仅要求学生得出正确答案,还要逐步检查解题过程中的每一个推理步骤。具体来说,TFA会将标准答案的每一个推理步骤"喂给"AI模型,然后检查模型是否能够预测出下一步应该写什么。这种方法能够更准确地反映AI的真实推理能力。

通过对比不同评估方法的结果,研究团队发现TFA与传统的"答案正确率"有着良好的相关性,但能够提供更丰富的信息。例如,一个AI模型可能在某道题上得出了正确答案,但TFA评估会显示它的推理过程存在明显缺陷。这就像是一个学生虽然写对了最终答案,但推理步骤错误百出,靠的是运气而不是能力。这种细致的评估方法为改进AI数学推理能力提供了更有价值的反馈。

四、AI数学推理的真实水平:令人意外的"成绩单"

当研究团队将18个不同的AI模型放到Putnam-AXIOM这个"数学地狱"中接受考验时,结果令人大跌眼镜。即使是目前最强大的OpenAI o1-preview模型,在这个测试中也只能获得42%的正确率。相比之下,在传统的MATH数学测试中,这些模型通常能够达到80%甚至90%以上的正确率。这种巨大的性能差距就像是一个平时在班级考试中总是满分的尖子生,突然参加全国竞赛时发现自己的水平原来只是中等偏上。

更令人关注的是,专门针对数学问题训练的AI模型在这个测试中的表现同样不尽如人意。例如,被誉为"数学奥林匹克冠军"的NuminaMath模型在Putnam-AXIOM上只能达到10.34%的正确率。这些专业的"数学AI"在面对真正具有挑战性的大学级数学问题时,暴露出了它们推理能力的局限性。

通过详细分析这些模型的错误模式,研究团队发现了一些有趣的现象。即使是表现最好的o1-preview模型,其解题过程也存在明显的数学严谨性不足问题。这个模型虽然能够找到正确的解题思路,但经常会跳过关键的证明步骤,或者对某些结论缺乏充分的论证。这就像是一个聪明的学生能够直觉地找到答案,但无法提供完整的逻辑推理过程。

五、数学推理错误的深度分析:AI的"通病"

通过仔细研究AI模型在Putnam-AXIOM测试中的具体表现,研究团队发现了一些普遍存在的问题模式。最突出的问题是数学严谨性的缺失。在真正的数学推理中,每一个步骤都需要有充分的理由和证明,但AI模型经常会跳过这些关键环节。它们就像是急于展示答案的学生,忽略了展示完整推理过程的重要性。

另一个常见问题是逻辑跳跃。许多AI模型在面对复杂问题时会突然"灵光一闪",直接给出某个结论,但缺乏从前提到结论的逻辑桥梁。这种现象在GPT-4o等模型中尤为明显。例如,在解决几何优化问题时,GPT-4o会突然声称"矩形能够提供最小面积",但完全没有解释为什么矩形比其他形状更优。这就像是一个学生在考试中突然写出答案,但无法解释自己是如何得出这个结论的。

更严重的问题出现在开源AI模型中,它们不仅存在逻辑严谨性问题,还经常出现基础的计算错误、幻觉信息和对问题的根本性误解。有些模型会在解题过程中引入完全无关的信息,或者对问题的核心要求产生误解。这些错误表明,当前的AI模型在面对真正具有挑战性的数学问题时,其推理能力还存在根本性的不足。

六、变形题目的威力:揭穿AI的"背书"把戏

研究团队设计的变形题目系统就像是一个精巧的"测谎仪",能够有效识别AI是否真正具备数学推理能力。这个系统的工作原理很像是老师为了防止学生抄袭而设计的不同版本试卷:保持题目的核心内容和难度不变,但改变表面的细节,如变量名称、数值常数和问题表述方式。

以一个具体的例子来说明这种变形的效果:原题可能问的是"在0≤x≤2011, 0≤y≤2011的范围内,有多少个坐标点不能成为某种螺旋的终点",变形后的题目会问"在0≤w≤4680, 0≤v≤4680的范围内,有多少个坐标点不能成为某种螺旋的终点"。虽然变量名从x、y改为w、v,数值从2011改为4680,但解题的核心思路和方法完全相同。

这种看似简单的变形却对AI模型产生了显著影响。研究结果显示,几乎所有的AI模型在面对变形题目时都出现了明显的性能下降。这种下降不仅在统计上显著,而且在实际应用中具有重要意义。它清楚地表明,当前的AI模型很大程度上依赖于对特定题目格式和数值的记忆,而非真正的数学推理能力。

七、教师强制准确率:透视AI推理过程的新窗口

传统的AI评估方法就像是只关注学生最终成绩的"结果导向"评价系统,而教师强制准确率(TFA)则更像是全程跟踪学生思维过程的"过程导向"评价方法。这种新的评估方式能够深入AI的"大脑",观察它在每个推理步骤上的表现,从而提供更全面、更准确的能力评估。

TFA的工作机制类似于一个耐心的数学老师逐步引导学生解题。它会将标准解答的每一个步骤逐一展示给AI模型,然后检查模型是否能够正确预测下一个推理步骤。这种方法不仅能够识别AI是否掌握了正确的解题思路,还能发现它在哪些具体环节存在理解偏差或推理错误。

通过与传统评估方法的对比,研究团队发现TFA具有更好的模型区分能力和更高的评估可靠性。在对15个不同AI模型进行的大规模测试中,TFA与最终答案准确率显示出良好的相关性(相关系数达到0.66),但能够提供更丰富的诊断信息。这就像是从简单的"及格/不及格"评价升级为详细的"能力剖析报告",为AI模型的改进指明了具体方向。

八、普特南竞赛的独特挑战:为什么它如此困难

普特南数学竞赛之所以被选作AI数学推理能力的试金石,是因为它具有独特的挑战性特征。与普通的数学考试不同,普特南竞赛的题目不仅需要扎实的数学基础知识,更需要创造性的思维和深度的洞察力。这些题目就像是数学界的"智力拼图",需要解题者在有限的时间内找到巧妙的解决方案。

普特南竞赛题目的另一个特点是它们往往没有标准的解题套路可循。每道题都可能需要独特的思维角度和创新的方法组合。这种特性使得简单的模式匹配或记忆复现变得无效,迫使AI模型必须展现真正的推理能力。这就像是让AI参加一场没有标准答案模板的开放性考试,完全依靠自己的理解和创造力。

研究团队从1938年到2023年的普特南竞赛中精心挑选了522道题目,这些题目涵盖了大学数学的各个重要分支。每道题目都保持了原有的难度等级标记(从1到6,难度递增),使得研究人员能够分析AI模型在不同难度水平上的表现变化。这种全面性的题目选择确保了测试结果的代表性和可靠性。

九、AI数学教育的启示:重新思考机器学习的方向

Putnam-AXIOM测试的结果为AI数学教育和训练提供了重要启示。当前的AI训练方法过于依赖大规模数据的统计学习,这种方法在处理已见过的问题类型时表现优异,但在面对真正需要创新思维的问题时显得力不从心。这就像是培养了一批"题海战术"的学生,他们能够快速识别和解决熟悉的题目类型,但缺乏面对全新挑战的适应能力。

研究结果表明,未来的AI数学训练需要更加注重推理过程的学习,而不仅仅是答案的记忆。这需要开发新的训练方法,让AI模型学会如何构建完整的逻辑推理链,如何识别问题的核心结构,以及如何将已学知识创造性地应用到新情境中。这种转变就像是从"应试教育"向"素质教育"的转换,更加关注能力的培养而不是分数的提升。

此外,Putnam-AXIOM的成功也为其他领域的AI评估提供了新的思路。通过创建动态、防污染的测试环境,研究人员可以更准确地评估AI在各个领域的真实能力水平。这种评估方法的推广将有助于推动整个AI领域向更加诚实、更加有效的发展方向前进。

说到底,这项研究就像是给AI界敲响了一记警钟。它提醒我们,在为AI的快速进步欢呼时,也要保持清醒的头脑,认真审视这些进步的真实性和可持续性。Putnam-AXIOM不仅仅是一个新的测试工具,更是一面镜子,让我们看到了当前AI数学推理能力的真实面貌。虽然结果可能不如我们期望的那么乐观,但这种诚实的评估正是推动AI技术真正进步的第一步。

正如研究团队所指出的,这项工作为未来的AI研究指明了新的方向:我们需要开发真正具备推理能力的AI系统,而不是仅仅依靠记忆和模式匹配的"高级计算器"。只有这样,AI才能真正帮助人类解决那些需要创造性思维和深度推理的复杂问题。对于那些希望深入了解这项开创性研究的读者,完整的论文、数据集和评估代码都已在GitHub上公开发布,为进一步的研究和应用提供了宝贵的资源。

Q&A

Q1:Putnam-AXIOM数学测试到底有多难?连最强AI都只能考42分吗?

A:确实如此。Putnam-AXIOM基于威廉·洛威尔·普特南数学竞赛题目,这是北美大学生数学竞赛的最高水平。即使是目前最强的OpenAI o1-preview模型在这个测试中也只能达到42%的正确率,而大多数AI模型的得分在10%以下。这与它们在传统数学测试中80-90%的高分形成了鲜明对比,说明当前AI的数学推理能力被严重高估了。

Q2:为什么AI模型在变形题目上表现会下降?这说明了什么问题?

A:AI模型在变形题目上的表现下降暴露了它们对原始训练数据的记忆依赖。研究发现,当题目的变量名或数值常数发生改变时,AI的正确率会显著下降20-30%。这就像学生背熟了标准答案,但面对稍作修改的题目就束手无策。这说明当前的AI更像是"高级复读机",依靠记忆而非真正的数学推理能力来解题。

Q3:教师强制准确率(TFA)评估方法有什么特别之处?

A:TFA就像一个严格的数学老师,不仅看最终答案,还要逐步检查解题过程中的每一个推理步骤。它通过让AI预测标准解答中的下一步来评估推理能力,能够发现那些"蒙对答案"但推理过程错误的情况。这种方法与传统的答案正确率有良好相关性,但能提供更丰富的诊断信息,为改进AI数学能力指明具体方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本U23主帅:球员们经受住了考验,用任何阵容出战我们都能赢球

日本U23主帅:球员们经受住了考验,用任何阵容出战我们都能赢球

懂球帝
2026-01-21 11:43:35
天津知名蛋糕店发布闭店通知

天津知名蛋糕店发布闭店通知

天津人
2026-01-21 14:29:45
“让婴儿夜间淋雨”的短剧被全网下架,婴儿片酬仅800元,“孩子哭得撕心裂肺”,律师分析:可能涉及民事、行政甚至刑事责任

“让婴儿夜间淋雨”的短剧被全网下架,婴儿片酬仅800元,“孩子哭得撕心裂肺”,律师分析:可能涉及民事、行政甚至刑事责任

每日经济新闻
2026-01-21 15:30:07
这一次,欧洲政客们彻底跪了!

这一次,欧洲政客们彻底跪了!

浪子的烟火人间
2026-01-21 07:03:53
卖不动了?钻石价格大跌,巨头宣布:降价!十年前1.8万元买的钻戒,如今只能卖180元,同期黄金价格涨超400%

卖不动了?钻石价格大跌,巨头宣布:降价!十年前1.8万元买的钻戒,如今只能卖180元,同期黄金价格涨超400%

每日经济新闻
2026-01-20 16:22:28
赚了一百万的外卖员

赚了一百万的外卖员

中国青年报
2026-01-21 07:14:51
淮阳人民中学“食堂承包商举报校领导2年拿走300余万现金”?官方通报

淮阳人民中学“食堂承包商举报校领导2年拿走300余万现金”?官方通报

界面新闻
2026-01-21 10:11:25
滚出去!中国不是“捡破烂”的:日本混不下去,就想回中方捞金?

滚出去!中国不是“捡破烂”的:日本混不下去,就想回中方捞金?

比利
2026-01-20 14:37:21
蓝白迎战弹劾审查会,赖清德不出席,现场摆出“清德宗”看板

蓝白迎战弹劾审查会,赖清德不出席,现场摆出“清德宗”看板

海峡导报社
2026-01-21 09:52:03
被打服!越媒:中国U23不按常理出牌,越南队本自信却输得惨痛

被打服!越媒:中国U23不按常理出牌,越南队本自信却输得惨痛

足球大腕
2026-01-21 10:33:39
80年前费孝通的《生育制度》神预言,如今被最新出生人口数据证实

80年前费孝通的《生育制度》神预言,如今被最新出生人口数据证实

齐天候
2026-01-21 15:45:18
敢拦就开战?美国给“台独”递刀,中方:公海销毁没商量

敢拦就开战?美国给“台独”递刀,中方:公海销毁没商量

华山穹剑
2026-01-19 21:32:59
62岁男子行凶致邻居1死1伤,庭上拒绝悔罪赔偿还称“后悔未杀全家”,检方认为其不具有从轻量刑情节

62岁男子行凶致邻居1死1伤,庭上拒绝悔罪赔偿还称“后悔未杀全家”,检方认为其不具有从轻量刑情节

极目新闻
2026-01-21 16:09:26
决战今夜!1月21日晚19:30!中央5套CCTV5、CCTV5+直播节目表

决战今夜!1月21日晚19:30!中央5套CCTV5、CCTV5+直播节目表

皮皮观天下
2026-01-21 15:06:04
袁和平《镖人》:但凡吴京拉胯一点,都压不住这群王炸配角

袁和平《镖人》:但凡吴京拉胯一点,都压不住这群王炸配角

星宿影视鸭
2026-01-19 18:56:18
四九天,少吃萝卜白菜,多吃3道“黄金菜”,润肺去燥,增强免疫

四九天,少吃萝卜白菜,多吃3道“黄金菜”,润肺去燥,增强免疫

江江食研社
2026-01-20 16:30:08
疯了!孙宇晨出价3000万美元,只为跟马斯克独处1小时

疯了!孙宇晨出价3000万美元,只为跟马斯克独处1小时

雷科技
2026-01-19 16:12:00
罗永浩这次真危险了,因为他得罪了不该得罪的人

罗永浩这次真危险了,因为他得罪了不该得罪的人

清书先生
2026-01-21 15:23:27
曝嫣然医院房东张毅:履历被扒,涨租金或想收回来自己搞医美

曝嫣然医院房东张毅:履历被扒,涨租金或想收回来自己搞医美

古希腊掌管月桂的神
2026-01-21 12:41:44
去年生育数据出炉,仍超现有发达国家人口总和!

去年生育数据出炉,仍超现有发达国家人口总和!

走读新生
2026-01-21 00:30:54
2026-01-21 18:07:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15603文章数 49685关注度
往期回顾 全部

教育要闻

艺考,过线即本科的时代,开启了!

头条要闻

邹市明创业失败后 家庭节俭开支:儿子午饭39.5元

头条要闻

邹市明创业失败后 家庭节俭开支:儿子午饭39.5元

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

李亚鹏2天获1291万网友力挺

财经要闻

西贝估值100亿?最新融资约13亿元

科技要闻

给机器人做仿真训练 这家创企年营收破亿

汽车要闻

新一代理想L9电池加码体型加大 重夺高端话语权

态度原创

房产
亲子
健康
公开课
军事航空

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

亲子要闻

“A娃”越来越多?儿童神内专家秦炯详解“多动症”的误区与真相

打工人年终总结!健康通关=赢麻了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:对美国的真正威胁是联合国和北约

无障碍浏览 进入关怀版