网易首页 > 网易号 > 正文 申请入驻

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准,能力涌现怕不是检索题库

0
分享至

来源:量子位 | 公众号 QbitAI

奇月 发自 凹非寺

只是换一下数学题的变量名称,大模型就可能集体降智??

斯坦福大学最新研究表明,在他们最新提出的Putnam-AXIOM测试集上,仅仅是更换一下原题目的变量名称、变量取值范围,模型的准确率就直线下降。

也就是说,大模型的数学推理能力并不是真正掌握了解题逻辑,很可能只是检索已存储的题目……

即使是表现最好的o1-preview,它的成绩也从50%下降到了33.96%,GPT-4o、Claude、Deepseek、Qwen等模型也几乎是全军覆没。

要知道,模型推理能力的稳健性可是非常重要的指标,能代表他们是否真正掌握了解决方法:

有网友锐评到:o1的o不会是overfitting的o吧?(doge)

还有热心网友做了解释,他认为模型的搜索空间会随着深度指数级增长,搜索时间越长,搜索的难度也会更高。

全新无污染的数学测试基准

LLM在复杂数学问题上的推理能力逐渐成为模型发展的关键挑战,然而现有的评估基准,如MMLU、MMMU、GSM8K和MATH等却面临着很多问题。

一方面,数据污染可能导致模型在评估中表现虚高,因为模型可能在训练过程中接触到了评估基准中的问题。

另一方面,最先进的模型在许多现有基准上已经达到或超过人类水平,这使得这些基准失去了应有的评估价值。

对此,斯坦福研究团队提出了Putnam-AXIOM基准,专用于评估模型在解决复杂数学问题上的能力。

该基准的原始数据集涵盖了1985-2023年William Lowell Putnam数学竞赛的236个问题。

随便举个例题大家感受一下:

这些题目涵盖了11个不同数学领域的问题,团队也进行了筛选,确保能产生便于自动化评估的\boxed{}答案。

同时,他们还借鉴MATH数据集的方法进行模型评估,并设计了一个等价函数,可以解决字符串不一致问题、和复杂的数学等价同质化问题。

除此之外,为防止模型在训练过程中遇到Putnam原问题而出现评估偏差,团队还引入了功能变异构建变异数据集。

变异分为变量变化(仅改变量名)和常数变化(修改数值属性)两类,能生成无限多相同难度的新问题,而且这些问题在互联网上没有现成的答案。

具体的变化形式就像这样:

在实验中,研究人员将1985-2023年的竞赛中的236个问题整理成标准化格式,使用LM Harness评估框架对多个开源模型的SOTA LLMs进行评估。

样本包括236个原始问题和52个变异问题,参与测试的模型包含OpenAI的o1-preview、GPT-4o、Claude-3.5 Sonnet等多种模型。

题目一变,模型集体懵

实验结果有些令人意外,模型们的表现都不太乐观。

首先来看看模型们在原始数据集上的表现。

多数模型的准确率都低于10%,曾获AI数学奥林匹克竞赛冠军的NuminaMath仅为4.66%,可见Putnam-AXIOM数据集难度真的很高。

而在变异数据集上,模型们的准确率则显著下降。

比如在原始数据集上表现最好的o1-preview,准确率为50%,而在变异数据集中则降到了33.96%。

也就是说,o1-preview模型在原始问题上表现可能虚高,之前的得分主要是依赖记忆而非真正的推理能力。

排名第二的Claude在原始数据集上的准确率为26.40%,而在变异数据集上的准确率降至18.86%,其他模型的分数也基本都下降了。

团队还进一步对OpenAI o1-preview和GPT-4o的答案进行了分析。

结果发现它们的错误都比较严重,在逻辑推理和数学严谨性方面存在着明显的缺陷。

下面一起康康几个例子。

比如o1-preview在解答问题时就没能提供充分的证明,它声称m的最大可能值是n,理由是m的上界是2n,但它没有说明为什么m的值介于n和2n之间不可行。

而GPT-4o则存在逻辑跳跃和不连贯的推理,比如在下面这道题中,它从逻辑上直接跳转到面积最小的几何形状是矩形这一观点,但并没有证明这一说法的合理性,而是将其默认为事实。

DeepSeek的模型也在关键步骤思维发生了跳跃,导致最终结果失误。

看来,提升大模型的数学能力还是任重道远呀!

不过斯坦福大学这篇文章中的Putnam-AXIOM基准的确缓解了现有基准饱和的问题。

它不仅为评估模型的数学推理能力提供了一个非常有挑战性的新方法,还实现了完全自动化评估、并提供了丰富多样的变体数据集。

团队也表示,虽然目前变体数据集生成过程复杂耗时,但未来如果能优化变体生成方法,将更有助于加速关于人工推理的研究。

论文:

https://openreview.net/forum?id=YXnwlZe0yf&noteId=yrsGpHd0Sf
代码:

https://anonymous.4open.science/r/putnam-axiom-B57C/README.md

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一顿饭就要花掉40万,四年敛财40亿,杭州土皇帝虞关荣有多嚣张

一顿饭就要花掉40万,四年敛财40亿,杭州土皇帝虞关荣有多嚣张

莫地方
2026-05-21 01:45:03
美俄都已认清了形势,欧洲宁愿和中方为敌,也不愿面对自己的傲慢

美俄都已认清了形势,欧洲宁愿和中方为敌,也不愿面对自己的傲慢

老鹈爱说事
2026-05-24 21:54:38
54岁袁立住院,已做手术!颈外静脉穿刺疑似患重病,余生不再演戏

54岁袁立住院,已做手术!颈外静脉穿刺疑似患重病,余生不再演戏

一盅情怀
2026-05-24 15:44:39
不提山姆了,聊聊这些祸害人心的遗毒!

不提山姆了,聊聊这些祸害人心的遗毒!

胖胖说他不胖
2026-05-23 09:55:12
7课题经费4303万!被耿同学第一枪瞄准:同济王平院长有多牛?

7课题经费4303万!被耿同学第一枪瞄准:同济王平院长有多牛?

大江看潮
2026-05-22 15:13:03
女飞行员突破12G过载, 无氧气面罩肉身硬抗, 满脸轻松笑晕网友

女飞行员突破12G过载, 无氧气面罩肉身硬抗, 满脸轻松笑晕网友

扮猫骑老虎
2026-05-22 21:19:32
肆意凌辱女儿,屡屡把魔爪伸向儿媳,66岁老汉忍无可忍怒杀女婿!

肆意凌辱女儿,屡屡把魔爪伸向儿媳,66岁老汉忍无可忍怒杀女婿!

易玄
2026-05-23 15:09:57
桑德兰25分钟闪击切尔西,欧战资格在望

桑德兰25分钟闪击切尔西,欧战资格在望

甜度百分百21
2026-05-25 00:05:09
自称纯天然在读大二学生,观众要求核验身份,主播不肯出示学生证

自称纯天然在读大二学生,观众要求核验身份,主播不肯出示学生证

捣蛋窝
2026-05-24 15:32:41
快讯!乌克兰突然宣布了!

快讯!乌克兰突然宣布了!

故事终将光明磊落
2026-05-24 14:38:45
“突然让我跳伞”!24岁女孩被逼跳伞身亡,老板为省油费让她凑数

“突然让我跳伞”!24岁女孩被逼跳伞身亡,老板为省油费让她凑数

阅微札记
2026-05-23 11:36:43
日乒亚运会名单公布!22岁大藤沙月遭弃用,张本美和身兼四项冲金

日乒亚运会名单公布!22岁大藤沙月遭弃用,张本美和身兼四项冲金

郝小小看体育
2026-05-24 23:15:37
高智商有多可怕?网友:他的大脑一个总工,一个副总工,一个监工

高智商有多可怕?网友:他的大脑一个总工,一个副总工,一个监工

另子维爱读史
2026-05-24 21:07:55
A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

夜深爱杂谈
2026-05-24 21:04:12
韩媒曾警告:一旦东亚开战,韩导弹将降落北京,同时摧毁中国海军

韩媒曾警告:一旦东亚开战,韩导弹将降落北京,同时摧毁中国海军

致敬明天的太阳
2026-05-24 21:34:40
借账户炒股19年,不赚反亏476万!财达证券从业人员迟伟收25万元罚单

借账户炒股19年,不赚反亏476万!财达证券从业人员迟伟收25万元罚单

红星新闻
2026-05-24 13:54:45
纪委监委能恢复你多久前删掉的微信?答案可能让你睡不着觉

纪委监委能恢复你多久前删掉的微信?答案可能让你睡不着觉

黑哥讲现代史
2026-05-21 13:52:20
许家印干得最"虎"的一件事:砸1000亿填海造岛,从传奇到笑柄

许家印干得最"虎"的一件事:砸1000亿填海造岛,从传奇到笑柄

贱议你读史
2026-05-24 15:36:19
内娱近10年最佳,《给阿嬷的情书》被高估了?

内娱近10年最佳,《给阿嬷的情书》被高估了?

ins生活
2026-05-22 18:36:09
特斯拉中国将FSD更名为特斯拉辅助驾驶

特斯拉中国将FSD更名为特斯拉辅助驾驶

每日经济新闻
2026-05-24 13:00:06
2026-05-25 00:15:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4762文章数 37465关注度
往期回顾 全部

教育要闻

好多人今天冒雨赶到29中锦江校区!

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

什么情况下,本轮AI大行情会结束?

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

艺术
健康
手机
房产
旅游

艺术要闻

砸十几亿,烂十几年!福建福清富创世纪城,还有救吗?

外泌体 ≠ 生长因子!它们之间究竟有何区别?

手机要闻

为什么建议大家赶紧换新机?五点原因,望周知!

房产要闻

疯狂周末,海口楼市突然爆了!

旅游要闻

漫步黄山脚下 邂逅茶香与绿野风光(组图)

无障碍浏览 进入关怀版