网易首页 > 网易号 > 正文 申请入驻

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准,能力涌现怕不是检索题库

0
分享至

来源:量子位 | 公众号 QbitAI

奇月 发自 凹非寺

只是换一下数学题的变量名称,大模型就可能集体降智??

斯坦福大学最新研究表明,在他们最新提出的Putnam-AXIOM测试集上,仅仅是更换一下原题目的变量名称、变量取值范围,模型的准确率就直线下降。

也就是说,大模型的数学推理能力并不是真正掌握了解题逻辑,很可能只是检索已存储的题目……

即使是表现最好的o1-preview,它的成绩也从50%下降到了33.96%,GPT-4o、Claude、Deepseek、Qwen等模型也几乎是全军覆没。

要知道,模型推理能力的稳健性可是非常重要的指标,能代表他们是否真正掌握了解决方法:

有网友锐评到:o1的o不会是overfitting的o吧?(doge)

还有热心网友做了解释,他认为模型的搜索空间会随着深度指数级增长,搜索时间越长,搜索的难度也会更高。

全新无污染的数学测试基准

LLM在复杂数学问题上的推理能力逐渐成为模型发展的关键挑战,然而现有的评估基准,如MMLU、MMMU、GSM8K和MATH等却面临着很多问题。

一方面,数据污染可能导致模型在评估中表现虚高,因为模型可能在训练过程中接触到了评估基准中的问题。

另一方面,最先进的模型在许多现有基准上已经达到或超过人类水平,这使得这些基准失去了应有的评估价值。

对此,斯坦福研究团队提出了Putnam-AXIOM基准,专用于评估模型在解决复杂数学问题上的能力。

该基准的原始数据集涵盖了1985-2023年William Lowell Putnam数学竞赛的236个问题。

随便举个例题大家感受一下:

这些题目涵盖了11个不同数学领域的问题,团队也进行了筛选,确保能产生便于自动化评估的\boxed{}答案。

同时,他们还借鉴MATH数据集的方法进行模型评估,并设计了一个等价函数,可以解决字符串不一致问题、和复杂的数学等价同质化问题。

除此之外,为防止模型在训练过程中遇到Putnam原问题而出现评估偏差,团队还引入了功能变异构建变异数据集。

变异分为变量变化(仅改变量名)和常数变化(修改数值属性)两类,能生成无限多相同难度的新问题,而且这些问题在互联网上没有现成的答案。

具体的变化形式就像这样:

在实验中,研究人员将1985-2023年的竞赛中的236个问题整理成标准化格式,使用LM Harness评估框架对多个开源模型的SOTA LLMs进行评估。

样本包括236个原始问题和52个变异问题,参与测试的模型包含OpenAI的o1-preview、GPT-4o、Claude-3.5 Sonnet等多种模型。

题目一变,模型集体懵

实验结果有些令人意外,模型们的表现都不太乐观。

首先来看看模型们在原始数据集上的表现。

多数模型的准确率都低于10%,曾获AI数学奥林匹克竞赛冠军的NuminaMath仅为4.66%,可见Putnam-AXIOM数据集难度真的很高。

而在变异数据集上,模型们的准确率则显著下降。

比如在原始数据集上表现最好的o1-preview,准确率为50%,而在变异数据集中则降到了33.96%。

也就是说,o1-preview模型在原始问题上表现可能虚高,之前的得分主要是依赖记忆而非真正的推理能力。

排名第二的Claude在原始数据集上的准确率为26.40%,而在变异数据集上的准确率降至18.86%,其他模型的分数也基本都下降了。

团队还进一步对OpenAI o1-preview和GPT-4o的答案进行了分析。

结果发现它们的错误都比较严重,在逻辑推理和数学严谨性方面存在着明显的缺陷。

下面一起康康几个例子。

比如o1-preview在解答问题时就没能提供充分的证明,它声称m的最大可能值是n,理由是m的上界是2n,但它没有说明为什么m的值介于n和2n之间不可行。

而GPT-4o则存在逻辑跳跃和不连贯的推理,比如在下面这道题中,它从逻辑上直接跳转到面积最小的几何形状是矩形这一观点,但并没有证明这一说法的合理性,而是将其默认为事实。

DeepSeek的模型也在关键步骤思维发生了跳跃,导致最终结果失误。

看来,提升大模型的数学能力还是任重道远呀!

不过斯坦福大学这篇文章中的Putnam-AXIOM基准的确缓解了现有基准饱和的问题。

它不仅为评估模型的数学推理能力提供了一个非常有挑战性的新方法,还实现了完全自动化评估、并提供了丰富多样的变体数据集。

团队也表示,虽然目前变体数据集生成过程复杂耗时,但未来如果能优化变体生成方法,将更有助于加速关于人工推理的研究。

论文:

https://openreview.net/forum?id=YXnwlZe0yf&noteId=yrsGpHd0Sf
代码:

https://anonymous.4open.science/r/putnam-axiom-B57C/README.md

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
廉价航空公司调侃C罗发的夺冠庆祝照:你难道没有队友吗?

廉价航空公司调侃C罗发的夺冠庆祝照:你难道没有队友吗?

懂球帝
2026-05-23 11:15:08
网红车商卷走千万购车款,携女助手潜逃塞尔维亚

网红车商卷走千万购车款,携女助手潜逃塞尔维亚

新浪财经
2026-05-23 05:54:27
死这么多人,你们是干什么吃的?

死这么多人,你们是干什么吃的?

新海言
2026-05-23 13:30:19
许家印的靠山,被起诉了

许家印的靠山,被起诉了

哲空空
2026-05-22 13:40:53
山西绛县一石灰窑发生工人一氧化碳中毒事件,造成1人死亡2人重伤

山西绛县一石灰窑发生工人一氧化碳中毒事件,造成1人死亡2人重伤

界面新闻
2026-05-23 16:21:12
毒杨梅风波升级!央视二次暗访,更多细节曝光,日亏几亿只是开始

毒杨梅风波升级!央视二次暗访,更多细节曝光,日亏几亿只是开始

阅微札记
2026-05-22 22:07:37
赵露思泰国演唱会各种大尺度,公然表演“胸震”,为曝光度无底线

赵露思泰国演唱会各种大尺度,公然表演“胸震”,为曝光度无底线

花哥扒娱乐
2026-05-22 20:17:55
山西煤矿事故已致90人遇难,有工人戴自救呼吸器逃生...该矿曾因安全问题接连被罚

山西煤矿事故已致90人遇难,有工人戴自救呼吸器逃生...该矿曾因安全问题接连被罚

新民周刊
2026-05-23 16:32:03
奔驰碾猫男已社死!账号被扒官方出手,“铁饭碗”也要保不住了

奔驰碾猫男已社死!账号被扒官方出手,“铁饭碗”也要保不住了

青梅侃史啊
2026-05-22 19:22:59
俄罗斯在战场上为什么突然不行了?

俄罗斯在战场上为什么突然不行了?

黔有虎
2026-05-23 00:03:18
不完美的和平:俄乌战争以“芬兰模式”结束意味着什么?

不完美的和平:俄乌战争以“芬兰模式”结束意味着什么?

老羊漫话
2026-05-23 08:00:19
请5万员工带薪玩迪士尼,预计花费八千万!老板豪气回应:公司挣了钱就是要跟员工一起花

请5万员工带薪玩迪士尼,预计花费八千万!老板豪气回应:公司挣了钱就是要跟员工一起花

新浪财经
2026-05-22 21:20:17
浮嶋敏:没能拿下冠军深感遗憾;一路历程对中国足球意义重大

浮嶋敏:没能拿下冠军深感遗憾;一路历程对中国足球意义重大

懂球帝
2026-05-23 17:27:10
李显龙最新涉华表态

李显龙最新涉华表态

环球时报国际
2026-05-23 15:52:25
SGA轰26+12仍遭美媒狂喷:翻腕衔接倒地 前仰跳投造犯规 假摔者

SGA轰26+12仍遭美媒狂喷:翻腕衔接倒地 前仰跳投造犯规 假摔者

颜小白的篮球梦
2026-05-23 12:00:24
漳州杨梅事件升级!“奢侈品”会长道歉底裤被扒,满屏要求追责他

漳州杨梅事件升级!“奢侈品”会长道歉底裤被扒,满屏要求追责他

火山詩话
2026-05-23 06:10:29
乌军收复590平方公里领土,俄呼吁国际社会阻止乌袭击炼油厂

乌军收复590平方公里领土,俄呼吁国际社会阻止乌袭击炼油厂

史政先锋
2026-05-23 14:58:09
19岁男孩花106万元买金条,坚持用对公账户付款,店员悄悄叫来警察:钱是诈骗受害人赃款,男孩已被刑拘

19岁男孩花106万元买金条,坚持用对公账户付款,店员悄悄叫来警察:钱是诈骗受害人赃款,男孩已被刑拘

环球网资讯
2026-05-23 15:04:47
NBA官宣最佳防守阵容:文班全票携戈贝尔领衔一防 热巴领衔二防

NBA官宣最佳防守阵容:文班全票携戈贝尔领衔一防 热巴领衔二防

醉卧浮生
2026-05-23 08:11:11
中央开始严查!多地机关,事业单位大整顿!这几类人受影响最大

中央开始严查!多地机关,事业单位大整顿!这几类人受影响最大

职场资深秘书
2026-05-23 11:09:48
2026-05-23 19:12:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4759文章数 37465关注度
往期回顾 全部

教育要闻

速看!2026年绵阳市各义务教育学校招生入学公告汇总

头条要闻

车辆时速不到60km监控抓拍时速却达121km 交警回应

头条要闻

车辆时速不到60km监控抓拍时速却达121km 交警回应

体育要闻

少年意气,正在改变中国足球

娱乐要闻

歌手2026首播:胡彦斌破音 张碧晨跑调

财经要闻

股价暴跌!富途老虎是什么来头?

科技要闻

爆炸声中又迈一步!拆解马斯克“十二飞”

汽车要闻

与众07上市限时权益价10.99万起 首搭CEA架构

态度原创

教育
艺术
本地
家居
公开课

教育要闻

只有高考真题,才是高考练题首选!附:高考历年真题pdf下载

艺术要闻

王羲之行书《道德经》,魏晋书法的“上限”

本地新闻

用云锦的方式,打开江苏南京

家居要闻

低调传承 温润沉静

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版