网易首页 > 网易号 > 正文 申请入驻

陶哲轩都惊了!o3首战「AI奥数」碾压夺冠,开源军团仅差5分狂追OpenAI

0
分享至

新智元报道

编辑:桃子 KingHZ

【新智元导读】AI界奥数杯,重启了!OpenAI o3首次杀入赛场,在算力拉满的情况下,直接以最高47分的逆天成绩炸翻全场。值得一提的是,前五模型合并得分仅与o3差5分,开源与闭源差距再次缩小。

「AI奥数」第二届大赛,英伟达团队(NemoSkills)曾夺下第一!

这一次,AIMO2组委会再次重启赛题,OpenAI o3首次参赛,就拿下了最亮眼的成绩。

陶哲轩激动表示,过去,这个比赛仅限于开源模型,计算资源也卡得比较紧。

庆幸的是,AIMO第二轮比赛中,NemoSkills和清华微软imagination research、以及o3同时参赛。

测试分为两种条件:一种给差不多的计算资源,另一种是放开算力随便跑。

结果也在意料之中,算力给得越足,模型表现越好。

在算力管够的情况下,OpenAI o3成绩直接飙到了47分(满分50分)。甚至,每道题给两次机会的话,还能冲满分。

另一个有意思的情况是,在计算资源相同的情况下,开源模型和商业模型的差异其实并不大。

今天,这份完整的研究测试报告正式放出。

报告地址:https://aimoprize.com/updates/2025-09-05-the-gap-is-shrinking

一起来看看,o3在具体实测中的表现。

奥数级难题,AI扛把子

对于科学可复现性,确保开源模型广泛可得至关重要。但开源模型与闭源模型之间的性能差距到底有多大?

在数学推理情境下,这次的测评提供了更细致的理解:

在奥数难度的数学推理上,商用和开源AI的差距在缩小。

开源即将追上商用模型。

去年,Epoch AI估计:当今最好的开源模型在性能和训练算力方面与封闭模型相当,但存在大约一年的差距

人工智能数学奥林匹克(AIMO)创立于2023年,旨在推动开源AI模型在高阶数学推理的的发展。

比赛传送门:https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-2/overview

2025年4月,。

本阶段题目难度进一步提升,主要围绕各国奥赛级别(如英国数学奥林匹克BMO、美国数学奥林匹克USAMO)。

AIMO2私榜的前五名队伍及其成绩如下(括号内为公榜成绩):

  • NemoSkills:34/50(公榜:33/50)

  • imagination-research:31/50(公榜:34/50)

  • Aliev:30/50(公榜:28/50)

  • sravn:29/50(公榜:25/50)

  • usernam:29/50(公榜:25/50)


Kaggle的「公榜」在赛事全程向参赛者可见,为了避免数据泄露,并不会公开数据。

由于在单一榜单上反复评测(即便题目不公开)也可能间接泄露信息,Kaggle还会提供一个包含相似难度题目的「私榜」,仅在赛末对模型进行一次性评估,以确定最终名次。

考虑到相较AIMO1题目难度显著上升,这样的成绩相当亮眼。

不过,一个有趣而关键的问题仍待回答:当闭源AI模型「上场」解AIMO的竞赛题时,会交出怎样的答卷?

对比,AIMO与OpenAI等合作开展了一项实验,将OpenAI的o3模型未发布的版本o3-preview,应用于AIMO2公共排行榜中50道奥林匹克竞赛级数学题。

这次对比了通用型模型o3-preview,和开源的AIMO2竞赛中针对数学专门优化的Top 2模型。

此外,这次还引入「AIMO2-combined」这一参照系:

将参赛的2000多支Kaggle队伍中各自最优模型的解题结果合并,只要有至少一个模型解出某题,即计为该题被解决。

从绝对意义上看,不考虑由算力成本带来的限制,AIMO基准上,o3-preview高算力版本接近达到「饱和」,即便它是通用模型、并未专门针对数学进行优化。

这一成绩令人印象深刻,超乎预期。

这表明在推理性能方面,最强的开源模型与最强的闭源模型之间,仍存在显著差距。

但如果把算力成本纳入考量,差距会显著缩小

在50题基准上,o3-preview低算力版本单次运行的平均成本为每题略低于1美元。

这一成本高于在自有的8×H100机器上运行全部五个获胜模型的成本,并与在商业租赁的8×H100 GPU上运行单个获胜模型的成本大致相当;虽然难以进行精确的价格对比,但成本的数量级相近。

AIMO2原始前五模型的合并分为38/50,较o3-preview低算力版本落后5分这表明在仅就算力进行调整、限定于50道题的前提下,推理性能大致相近。

接下来,将依次概述o3-preview的表现、冠亚军队伍的表现,以及AIMO2-combined的整体表现。

算力足够,o3一次拿近满分

AIMO在三种不同的参数设置下运行o3-preview:低算力、中等算力、高算力。

这些设置既影响o3-preview的内部思考与推理层次,也带来不同的硬件成本

需要说明的是,低算力与中等算力版本在概念上,对应为同一个基础模型在两种参数下运行。

而高算力版本,还使用了一个学习得到的打分函数来挑选最佳答案。

这种在固定采样率下进行的「采样-排序」(sample-and-rank)机制带来更好的表现。

与Kaggle竞赛相同,测试在严格条件下进行,确保公开榜测试集保持无数据污染且没有信息泄露。

每道题仅尝试一次。

低算力与中等算力版本各返回一个答案;而采用采样-排序机制的高算力版本会返回若干答案,并附带一个评分。

根据算力版本不同,OpenAI模型的得分如下:

  • o3-preview(高算力版本,计入排名第一与排名第二的答案):50/50

  • o3-preview(高算力版本,仅计入排名第一的答案):47/50

  • o3-preview(中等算力版本):46/50

  • o3-preview(低算力版本):43/50

即便将NemoSkills的AIMO2冠军模型,迁移到比Kaggle更强的硬件上运行,o3-preview的低算力版本仍然多解出7题。

中等算力版本解出了与低算力版本相同的题目,并额外多解出3题,总计46/50。

高算力版本在仅计入排名第一答案时得分47/50;若同时计入排名第二的答案则为50/50。

这表明,o3-preview在原则上,具备为全部50道题产生正确答案的能力。

这一结果与AIMO2中,全部2k+支Kaggle参赛队伍的最佳模型组合分相当——后者总计也解出47/50。

8块H100,英伟达AI仅提1分

此前,拿下第一和第二名的团队——NemoSkills和imagination-research,再次参与了重估。

为了更好了解模型的全部潜力,团队获准访问一台8×H100 GPU,总计640GB显存的机器。

在AIMO2中,为了让模型能在Kaggle平台上运行,赛事对参赛队伍施加了资源限制:

每支队伍提供4块L4 GPU,总计96 GB 显存(VRAM)。

在本次评测中,组委会移除了各队为适配Kaggle资源限制,让模型得以在50道公开榜题目上充分发挥其全部能力。

最终结果如何?

· NemoSkills得分35/50,较其在Kaggle公开榜的33/50有所提升;

· imagination-research也得到35/50,较其在Kaggle公开榜的34/50提升。

开源与闭源,差距再次缩小

不过,在报告与比较分数时需要谨慎。

AIMO2-combined的47/50分大致类似于一种「pass@2k+」类型的分数(亦即「多样本通过率」):

在每题2k+次尝试中,只要至少有一次解答正确即可计为通过,且不再进行其他排序。

更一般地,常用的「pass@n」类型分数指某个(固定黑箱的)模型被查询n次,只要正确解包含在这n个输出中,就据此报告该分数(即使模型内部还能运行更多次)。

多次查询之间不允许保留模型状态。

当然,2k+次提交对应的模型并不相同;而严格讲,pass@n要求底层是同一个模型,因此pass@2k+只是一个近似分数。

o3-preview的低算力与中等算力分数,以及高算力版本的47/50,均属于pass@1类型分数。

在这三个算力级别中,o3-preview低算力版本未能解出的7道数学题包括:2道几何、2道代数和3道组合。

尽管o3-preview表现非常强,但有一道名为「RUNNER」(见下方图表)的问题尤为突出

该题被NemoSkills解出,但o3-preview的低算力与中等算力版本未能解出,而在高算力版本中其正确答案仅排名第二。

相反,另一道题「EIGHTS」在高算力版本中以排名第一的答案被解出。

该题未被AIMO2前五名模型解出,却被若干其他排名较低的AIMO2模型解出。

以上这些结果,皆具鲁棒性。

原因在于:题目数量多且难度高,多数达到国家数学奥赛水平,少部分略易或略难,接近IMO难度级别。

对所有o3-preview版本的评测,都在一个很短的时间窗口内(数小时)完成。

并且AIMO获得了原始API输出的访问权限,便于复核与分析。

这些结果代表了基于AI的推理,在极具挑战性的领域迈出的一个里程碑式进展

顺便提一句,AIMO Progress Prize 3(AIMO3)将于2025年秋季启动。

难度等级将再次提升,题目将以国际数学奥林匹克(IMO)水平为中心。关于时间安排、奖金池以及改进后的竞赛形式的完整细节将适时公布。

参考资料:

https://aimoprize.com/updates/2025-09-05-the-gap-is-shrinking

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
堂哥在家族群通知年夜饭我买单,我反手取消包厢,大伯炸锅

堂哥在家族群通知年夜饭我买单,我反手取消包厢,大伯炸锅

小秋情感说
2026-03-26 09:28:29
2005年,韩国把“汉城”改为首尔,全世界为何只要求中国改称呼?

2005年,韩国把“汉城”改为首尔,全世界为何只要求中国改称呼?

咸説历史
2026-03-19 07:06:34
世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

叶青足球世界
2026-03-26 08:47:10
特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

安安说
2026-03-26 11:41:14
张雪峰离世1天后,才发现女儿名字取得很有意思,字字都有原因!

张雪峰离世1天后,才发现女儿名字取得很有意思,字字都有原因!

热心市民小黄
2026-03-25 22:30:06
赖清德天塌了!参会身份已定,4国与台断交,台当局10年努力白费

赖清德天塌了!参会身份已定,4国与台断交,台当局10年努力白费

娱乐小可爱蛙
2026-03-25 17:08:42
苏联“人猿杂交”实验:5名女孩与11只猩猩参与,结局如何?

苏联“人猿杂交”实验:5名女孩与11只猩猩参与,结局如何?

谈史论天地
2026-02-28 13:35:18
骑士两大败因出炉,哈登赛季新高!阿特金森直言不讳,米切尔无奈

骑士两大败因出炉,哈登赛季新高!阿特金森直言不讳,米切尔无奈

鱼崖大话篮球
2026-03-26 11:49:12
独立百年的蒙古国,正在把中国人40年的努力悄悄毁掉

独立百年的蒙古国,正在把中国人40年的努力悄悄毁掉

犀利辣椒
2026-03-19 06:40:31
亲戚借车从不加油,这次他故意空着油箱给她,她老公却急了:我上次不是刚加了600块的油吗!

亲戚借车从不加油,这次他故意空着油箱给她,她老公却急了:我上次不是刚加了600块的油吗!

品读时刻
2026-03-25 09:04:33
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

聚焦风暴来袭
2026-03-26 09:51:50
55年授衔,当主席看到名单中有个熟悉的名字,大笔一挥:他不是少将

55年授衔,当主席看到名单中有个熟悉的名字,大笔一挥:他不是少将

睡前讲故事
2025-12-12 13:58:11
我德国姑娘,嫁给中国小伙,被迫带俩娃来中国,这里生活百闻一见

我德国姑娘,嫁给中国小伙,被迫带俩娃来中国,这里生活百闻一见

带你领略快乐真谛
2026-03-25 22:14:51
马斯克放话:比MPV更酷的新车要来了,特斯拉却只剩3款车在卖

马斯克放话:比MPV更酷的新车要来了,特斯拉却只剩3款车在卖

我是一个养虾人
2026-03-25 23:32:20
以色列要让全世界禁声?斩首俄罗斯记者,普京下令,撞枪口上了

以色列要让全世界禁声?斩首俄罗斯记者,普京下令,撞枪口上了

林子说事
2026-03-24 00:50:49
大姑姐买了无座票来蹭我的商务座,我退票改飞.老公红着眼说了句话

大姑姐买了无座票来蹭我的商务座,我退票改飞.老公红着眼说了句话

风起见你
2026-03-20 02:22:40
爆冷击败2号种子!中国女网15岁小花崛起:追赶郑钦文王欣瑜?

爆冷击败2号种子!中国女网15岁小花崛起:追赶郑钦文王欣瑜?

李喜林篮球绝杀
2026-03-25 17:21:56
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

蓝色海边
2026-03-26 11:01:31
祝福胖虎!卡塞米罗获国米邀约,初步同意转战意甲!

祝福胖虎!卡塞米罗获国米邀约,初步同意转战意甲!

海浪星体育
2026-03-25 11:29:59
午评:沪指半日冲高回落跌0.58% 锂电材料、电力板块逆势活跃

午评:沪指半日冲高回落跌0.58% 锂电材料、电力板块逆势活跃

财联社
2026-03-26 11:32:21
2026-03-26 13:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
亲子
教育
旅游
公开课

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

教育要闻

2027届注意:暑期实习=秋招通行证,错过等一年

旅游要闻

人不算多风景极美 清明假期去这7座宝藏小城

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版