网易首页 > 网易号 > 正文 申请入驻

o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜

0
分享至

新智元报道

编辑:编辑 部 JHYZ

【新智元导读】就在刚刚,AIME 2025 I数学竞赛的大模型参赛结果出炉,o3-mini取得78%的最好成绩,DeepSeek R1拿到了65%,取得第四名。然而一位教授却发现,某些1.5B小模型竟也能拿到50%,莫非真的存在数据集污染?

大语言模型,到底是学会了解决数学问题,还是只是背下了答案?

LLM的「Generalize VS Memorize」之争,迎来最新进展。

苏黎世联邦理工的研究员Mislav Balunović,在X上公布了一众顶级AI推理模型在AIME 2025 I比赛中的结果。

其中,o3-mini (high)令人印象非常深刻,以非常低的成本解决了78%的问题。

DeepSeek-R1,则解决了65%的问题,而且它的蒸馏变体也表现不错,不愧是领先的开源模型!

绿色表示问题的解答率超过75%,黄色表示解答率在25%-75%之间,红色表示解答率低于25%

然而,结果真的是这样吗?

AI做出奥数题,只因原题已在网上泄露?

威斯康星大学麦迪逊分校教授,目前在微软担任研究员的Dimitris Papailiopoulos,对这一测试的结果提出了质疑。

教授表示,自己对AI模型在数学题上取得的进步,非常惊讶。

原本他以为,一些较小的蒸馏模型遇到这些题就寄了,没想到它们却拿到了25%到50%的分数。

这可太令人意外了!

要知道,如果这些题完全是新的,模型在训练过程中从未见过,按理说小模型能拿0分以上的分数就很好了。

一个1.5B参数的模型连三位数的相乘都做不出,结果却能做出奥数题,这合理吗?

这就不由得让人怀疑,其中有什么问题了。

AIME I是指2025年首场美国邀请数学考试,学生们需要在三个小时内挑战15道难题

您猜怎么着?

教授在用OpenAI Deep Research搜索之后发现,AIME 2025第1题,在Quora上就有「原题」!

而且这还真不是巧合,教授再次使用Deep Research查找了第3题。结果呢?一个非常相似的问题出现在 math.stackexchange 上:

仍然感到怀疑的教授,用DeepResearch继续查找了第7题。

然后就发现,一个完全相同的问题,出现在2023年佛罗里达在线数学公开赛第9题中。

接下来,教授放弃了,因为p值已经低到不行了。

他发出诘问:这对数学基准意味着什么?对RL的突飞猛进又意味着什么?

教授表示自己并不确定,但他也不排除GRPO(一种强化学习优化策略)在强化了模型记忆的同时,也提高了它数学技能的可能性。

至少,这件事表明了一点:数据净化很难。

永远不要低估你在互联网上能找到的东西。几乎所有东西都能在网上找到。

网友们也表示,虽然数学奥赛每年都会出新题,但根本无法100%保证之前没有同样的问题出现过。

还有好奇的网友也来搜索了一把。

其中,问题6似乎有原题,问题8和问题10都有略微相似的题型。

难道真如网友Noorie所言「数据去污才是新的Scaling Law」?

什么是MathArena?

MathArena是一个用于评估大模型在最新数学竞赛和奥林匹克竞赛中的表现的平台。

它的核心使命便是,对LLM在「未见过的数学问题」上的推理能力和泛化能力进行严格评估。

为了确保评估的公平性和数据的纯净性,研究人员仅在模型发布后进行竞赛测试,避免使用可能泄漏的或预先训练的材料进行回溯评估。

通过标准化评估,MathArena能够确保模型的得分可以实际比较,而不会受到模型提供方特定评估设置的影响。

与此同时,研究人员会为每个竞赛发布一个排行榜,显示不同模型在各个单独问题上的得分。

此外,他们还将公开一个主表格,展示各个模型在所有竞赛中的整体表现。

为公平评估模型的表现,针对每个问题,每个模型均会进行4次重复评估,最后计算出平均得分以及模型运行成本(以美元计)。

参考资料:

https://x.com/mbalunovic/status/1887962694659060204

https://matharena.ai/

https://x.com/DimitrisPapail/status/1887977460664352795

https://olympiads.us/past-exams/2025-aime-i

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

火山詩话
2026-03-26 06:16:11
真不能怪祖院长,就曾医生这颜值、这才华和魅力,谁遭的住?

真不能怪祖院长,就曾医生这颜值、这才华和魅力,谁遭的住?

吃瓜局
2025-11-11 16:23:49
人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

掠影后有感
2026-03-26 10:39:36
参数全赢,销量没赢:尚界Z7销量输给小米SU7!差哪呢?

参数全赢,销量没赢:尚界Z7销量输给小米SU7!差哪呢?

生活魔术专家
2026-03-26 18:07:46
美伊冲突,已经出现了3个赢家,10个输家,都是谁?

美伊冲突,已经出现了3个赢家,10个输家,都是谁?

七号说三国
2026-03-25 21:11:29
阴跌两个月后放量跌停,今日最惨股,开板后又把博反包的套了进去

阴跌两个月后放量跌停,今日最惨股,开板后又把博反包的套了进去

有范又有料
2026-03-26 17:22:20
中央红军御林军,长征中戴钢盔配冲锋枪,一个团2名大将3名上将

中央红军御林军,长征中戴钢盔配冲锋枪,一个团2名大将3名上将

云霄纪史观
2026-03-26 17:16:00
新郎婚礼迟到2个小时,婆婆大方宣布:彩礼全退,新娘竟当场退婚

新郎婚礼迟到2个小时,婆婆大方宣布:彩礼全退,新娘竟当场退婚

白云故事
2025-03-21 17:50:07
NBA西部:前10确定了,马刺有望争第1,快船抢7,湖人首轮遇火箭

NBA西部:前10确定了,马刺有望争第1,快船抢7,湖人首轮遇火箭

铁甲西奇
2026-03-26 16:43:09
袁家军会见王兴兴

袁家军会见王兴兴

新京报政事儿
2026-03-26 16:45:34
为什么中国要发射东风-41,必须要提前告知俄罗斯,这是咋回事?

为什么中国要发射东风-41,必须要提前告知俄罗斯,这是咋回事?

阿器谈史
2026-03-19 18:11:39
烧了18.6万美元让AI连轴肝了17天,它产出了166篇论文

烧了18.6万美元让AI连轴肝了17天,它产出了166篇论文

酷玩实验室
2026-03-25 18:25:49
卡尔森:坏了!原来小丑不是特朗普,而是我自己

卡尔森:坏了!原来小丑不是特朗普,而是我自己

朝廷心腹
2026-03-26 09:07:14
谭松韵本人跟银幕上差距很大,个子好矮小小一只,真人并不年轻

谭松韵本人跟银幕上差距很大,个子好矮小小一只,真人并不年轻

庭小娱
2026-03-24 11:53:09
电饭锅哪个牌子质量好?2026电饭煲排名前十盘点!大众主流精选

电饭锅哪个牌子质量好?2026电饭煲排名前十盘点!大众主流精选

小柱解说游戏
2026-03-25 17:56:15
为何美国敢打伊朗,却不敢打朝鲜?因为朝鲜成功学到了中国精髓

为何美国敢打伊朗,却不敢打朝鲜?因为朝鲜成功学到了中国精髓

鉴史录
2026-03-25 18:19:06
退休不褪色:浸润在莎莎舞里的中年男人坚守与百态

退休不褪色:浸润在莎莎舞里的中年男人坚守与百态

成都人的故事
2026-03-26 23:40:03
66岁大妈喜欢睡前泡脚,不久脑梗去世,专家怒斥:太无知了

66岁大妈喜欢睡前泡脚,不久脑梗去世,专家怒斥:太无知了

比利
2026-03-21 13:00:22
哈佛研究:吃一个西红柿,就等于喝了一大口可乐,真的还是假的?

哈佛研究:吃一个西红柿,就等于喝了一大口可乐,真的还是假的?

泠泠说史
2025-11-10 14:17:05
搞笑,步行者主帅在被湖人队东契奇狂砍43分后,说也有积极的一面

搞笑,步行者主帅在被湖人队东契奇狂砍43分后,说也有积极的一面

好火子
2026-03-26 23:59:41
2026-03-27 00:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
家居
教育
亲子
军事航空

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

家居要闻

傍海而居 静观蝴蝶海

教育要闻

天天学习|走进课堂的“大朋友”

亲子要闻

看看把孩子吓得哈哈哈

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版