网易首页 > 网易号 > 正文 申请入驻

o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜

0
分享至

新智元报道

编辑:编辑 部 JHYZ

【新智元导读】就在刚刚,AIME 2025 I数学竞赛的大模型参赛结果出炉,o3-mini取得78%的最好成绩,DeepSeek R1拿到了65%,取得第四名。然而一位教授却发现,某些1.5B小模型竟也能拿到50%,莫非真的存在数据集污染?

大语言模型,到底是学会了解决数学问题,还是只是背下了答案?

LLM的「Generalize VS Memorize」之争,迎来最新进展。

苏黎世联邦理工的研究员Mislav Balunović,在X上公布了一众顶级AI推理模型在AIME 2025 I比赛中的结果。

其中,o3-mini (high)令人印象非常深刻,以非常低的成本解决了78%的问题。

DeepSeek-R1,则解决了65%的问题,而且它的蒸馏变体也表现不错,不愧是领先的开源模型!

绿色表示问题的解答率超过75%,黄色表示解答率在25%-75%之间,红色表示解答率低于25%

然而,结果真的是这样吗?

AI做出奥数题,只因原题已在网上泄露?

威斯康星大学麦迪逊分校教授,目前在微软担任研究员的Dimitris Papailiopoulos,对这一测试的结果提出了质疑。

教授表示,自己对AI模型在数学题上取得的进步,非常惊讶。

原本他以为,一些较小的蒸馏模型遇到这些题就寄了,没想到它们却拿到了25%到50%的分数。

这可太令人意外了!

要知道,如果这些题完全是新的,模型在训练过程中从未见过,按理说小模型能拿0分以上的分数就很好了。

一个1.5B参数的模型连三位数的相乘都做不出,结果却能做出奥数题,这合理吗?

这就不由得让人怀疑,其中有什么问题了。

AIME I是指2025年首场美国邀请数学考试,学生们需要在三个小时内挑战15道难题

您猜怎么着?

教授在用OpenAI Deep Research搜索之后发现,AIME 2025第1题,在Quora上就有「原题」!

而且这还真不是巧合,教授再次使用Deep Research查找了第3题。结果呢?一个非常相似的问题出现在 math.stackexchange 上:

仍然感到怀疑的教授,用DeepResearch继续查找了第7题。

然后就发现,一个完全相同的问题,出现在2023年佛罗里达在线数学公开赛第9题中。

接下来,教授放弃了,因为p值已经低到不行了。

他发出诘问:这对数学基准意味着什么?对RL的突飞猛进又意味着什么?

教授表示自己并不确定,但他也不排除GRPO(一种强化学习优化策略)在强化了模型记忆的同时,也提高了它数学技能的可能性。

至少,这件事表明了一点:数据净化很难。

永远不要低估你在互联网上能找到的东西。几乎所有东西都能在网上找到。

网友们也表示,虽然数学奥赛每年都会出新题,但根本无法100%保证之前没有同样的问题出现过。

还有好奇的网友也来搜索了一把。

其中,问题6似乎有原题,问题8和问题10都有略微相似的题型。

难道真如网友Noorie所言「数据去污才是新的Scaling Law」?

什么是MathArena?

MathArena是一个用于评估大模型在最新数学竞赛和奥林匹克竞赛中的表现的平台。

它的核心使命便是,对LLM在「未见过的数学问题」上的推理能力和泛化能力进行严格评估。

为了确保评估的公平性和数据的纯净性,研究人员仅在模型发布后进行竞赛测试,避免使用可能泄漏的或预先训练的材料进行回溯评估。

通过标准化评估,MathArena能够确保模型的得分可以实际比较,而不会受到模型提供方特定评估设置的影响。

与此同时,研究人员会为每个竞赛发布一个排行榜,显示不同模型在各个单独问题上的得分。

此外,他们还将公开一个主表格,展示各个模型在所有竞赛中的整体表现。

为公平评估模型的表现,针对每个问题,每个模型均会进行4次重复评估,最后计算出平均得分以及模型运行成本(以美元计)。

参考资料:

https://x.com/mbalunovic/status/1887962694659060204

https://matharena.ai/

https://x.com/DimitrisPapail/status/1887977460664352795

https://olympiads.us/past-exams/2025-aime-i

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
林志玲首谈离婚,自曝患抑郁:结婚才3年,简直像换了一个人!

林志玲首谈离婚,自曝患抑郁:结婚才3年,简直像换了一个人!

热闹吃瓜大姐
2025-11-17 19:59:42
原政治局常委,68岁失意选择了吞药自尽,骨灰至今都没有找到

原政治局常委,68岁失意选择了吞药自尽,骨灰至今都没有找到

基识
2025-10-27 09:19:10
多家航司取消赴日航班,九元航空:因公共安全原因取消

多家航司取消赴日航班,九元航空:因公共安全原因取消

极目新闻
2025-11-17 19:29:59
日本东京突发持刀伤人事件!40多岁女子被刺致重伤,紧急送医,嫌犯行凶后逃逸

日本东京突发持刀伤人事件!40多岁女子被刺致重伤,紧急送医,嫌犯行凶后逃逸

每日经济新闻
2025-11-17 21:19:40
你坐火车时遇到哪些奇葩经历?网友:对,人间烟火气最令人着迷

你坐火车时遇到哪些奇葩经历?网友:对,人间烟火气最令人着迷

带你感受人间冷暖
2025-11-06 00:05:14
顶流小生人设崩塌!私底下竟是圈内玩咖,手段惊人……

顶流小生人设崩塌!私底下竟是圈内玩咖,手段惊人……

毒舌八卦
2025-11-17 23:05:50
罗马诺实锤!切尔西换加纳乔筹码曝光,拉维亚不在名单里

罗马诺实锤!切尔西换加纳乔筹码曝光,拉维亚不在名单里

澜归序
2025-11-19 01:34:15
三位勇士以一身伤痕,为14亿人辟出法治生路

三位勇士以一身伤痕,为14亿人辟出法治生路

深度报
2025-11-07 22:56:16
浙江一男子和一陌生女子在工地做了3年临时夫妻,谁料,分别那天,才知晓她的真实身份,让人大吃一惊...

浙江一男子和一陌生女子在工地做了3年临时夫妻,谁料,分别那天,才知晓她的真实身份,让人大吃一惊...

二胡的岁月如歌
2025-11-17 18:46:56
大批国人继续赴日旅游,记者采访令人破防

大批国人继续赴日旅游,记者采访令人破防

热点菌本君
2025-11-18 14:20:27
农村老家不让回了?防止规模性的返乡滞乡,如何解读?

农村老家不让回了?防止规模性的返乡滞乡,如何解读?

十柱
2025-11-18 10:38:22
A股:刚刚,工信部发布,外资密集发声,周三还将迎来暴风雨?

A股:刚刚,工信部发布,外资密集发声,周三还将迎来暴风雨?

好贤观史记
2025-11-18 20:41:42
狗咬人新爆料:事发厨房一角曝光,玻璃碎片上百,再次为申父揪心

狗咬人新爆料:事发厨房一角曝光,玻璃碎片上百,再次为申父揪心

奇思妙想草叶君
2025-11-18 23:44:32
史诗级,中德达成27项共识!美媒急呼危险?真能阻挠中欧走近?

史诗级,中德达成27项共识!美媒急呼危险?真能阻挠中欧走近?

科普100克克
2025-11-19 00:52:24
明天11月19号:农村信用社存款利率大改!存一万元,一年领多少?

明天11月19号:农村信用社存款利率大改!存一万元,一年领多少?

李博世财经
2025-11-18 10:33:22
长沙网约车司机崩溃大哭,平台回应来了,透露更多事情细节

长沙网约车司机崩溃大哭,平台回应来了,透露更多事情细节

侃故事的阿庆
2025-11-18 00:17:14
朝鲜副国级高官叛逃脱北,曝光金家秘闻:酒池肉林、80万买轩尼诗

朝鲜副国级高官叛逃脱北,曝光金家秘闻:酒池肉林、80万买轩尼诗

猫眼观史
2024-03-25 14:31:14
杨紫、迪丽热巴、陈星旭、唐嫣、罗晋、王一博、星海V9

杨紫、迪丽热巴、陈星旭、唐嫣、罗晋、王一博、星海V9

小椰的奶奶
2025-11-19 00:51:16
给“失信者”机会!央行将实施个人信用救济,欠的钱不用还了?

给“失信者”机会!央行将实施个人信用救济,欠的钱不用还了?

单手搓核弹
2025-11-05 17:05:53
墨菲家打出167,丁俊晖明晚争夺百万大奖

墨菲家打出167,丁俊晖明晚争夺百万大奖

老头的传奇色彩
2025-11-18 11:06:24
2025-11-19 02:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13899文章数 66266关注度
往期回顾 全部

科技要闻

谷歌CEO警告:若AI泡沫破裂,没公司能幸免

头条要闻

27岁女孩家门口遇害 妈妈痛哭:墙上还有女儿血迹

头条要闻

27岁女孩家门口遇害 妈妈痛哭:墙上还有女儿血迹

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

手机
时尚
家居
亲子
教育

手机要闻

麒麟9030细节大揭秘:1+4+4满血规格,能否借此重振雄风?

秋天穿衣暂时没灵感?赶紧看看这27套穿搭,舒适自然又大方

家居要闻

彰显奢华 意式经典风格

亲子要闻

一说买糖吃,做事真给力

教育要闻

留学降温“AI化留学”泛滥海归人设崩塌?

无障碍浏览 进入关怀版