网易首页 > 网易号 > 正文 申请入驻

刚刚,OpenAI神秘新模型斩获IMO 2025金牌!攻克奥数巅峰,硅谷沸腾

0
分享至


新智元报道

编辑:编辑部

【新智元导读】OpenAI的神秘通用推理模型,竟然攻克IMO 2025的5道难题,成功摘金了?这个消息,让Greg Brockman等一众大佬激动转发。也就是说,OpenAI很可能已经研发出颠覆性的推理技术,彻底告别CoT。还有一个炸裂消息:GPT-5也要来了。

就在昨天,

然而,就在刚刚,OpenAI 投下了一枚重磅炸弹——他们用一款全新的「通用推理模型」,成功夺下了IMO 2025的金牌!

6道题,解出5道,狂揽35分!

要知道,此前表现最好的Gemini 2.5 Pro,也只得了13分


联创Greg Brockman、负责人Alexander Wei,以及OpenAI的各路研究员,纷纷在推上激动宣布了这一里程碑式的成就!


对此,德扑之父Noam Brown表示,这个成绩的意义甚至超越了「AI攻克IMO」本身。




左右滑动查看

消息一出,整个硅谷为之沸腾!

人们纷纷猜测,OpenAI这次很可能祭出了一种颠覆性的推理技术,彻底告别了传统的CoT思维链。

这,不仅仅是一个模型的胜利,更是一个全新时代的开端!

更令人震惊的是,OpenAI宣布,这个创造了历史的模型,并非传闻中的GPT-5,而是一个全新的、实验性的模型!

而这个模型完全不会被发布,简直太神秘了!

神秘模型,拿下IMO金牌

Alexander Wei和他的团队,让模型在与人类完全相同的条件下进行比赛:

两个4.5小时的考试时段,没有工具,没有网络,仅凭对题目的理解,用自然语言写下完整的证明过程。

然后,由三位前IMO奖牌得主严格评分。

最终,模型以35/42的惊人高分,达到了金牌的水平。



相比之下,无论是在围棋、Dota还是其他复杂任务,过去的AI想要获得胜利,往往都要在特定领域进行专门的训练。

但这一次,OpenAI打破了这条铁律——新模型不仅不是IMO「特供」,而且还能进行长达数小时的思考。

相比之下,我们熟知的o1模型是以秒计算,Deep Research也不过是以分钟计算。

这种深度的、持久的创造性思维能力,正是以往AI难以逾越的天堑!


这意味着什么?是否达到了AGI水平?拿下IMO有何特殊?

首先,与以往的基准相比,IMO问题需要更高水平的持续创造性思维。

在推理时间范围方面,现在已经一路攀升:GSM8K(顶级人类约需0.1分钟)→MATH基准(约1分钟)→AIME(约10分钟)→IMO(约100分钟)。

其次,IMO的提交内容是难以验证的多页证明。

在此领域取得进展需要超越具有明确、可验证奖励的强化学习范式。

通过这样做,OpenAI研究团队获得了一个能够在人类数学家层面构建复杂且无懈可击论点的模型。

此外该模型并非通过在「特定任务(IMO)」训练达到这一能力水平,而是在通用强化学习和测试时计算扩展方面实现了新的突破。


所以,昨晚被曝光的o3-alpha,难道只是前戏?

原来,这才是OpenAI真正憋着的大招!

完整解题过程

如果你有兴趣,可以看看OpenAI新鲜放出的2025年IMO赛题解答。

模型解出了第一题到第五题(P1-P5),但没能解出第六题(P6)。果然如传闻所说,这次的第六题难度极高,全球仅有6人破解。


仓库地址:https://github.com/aw31/openai-imo-2025-proofs/blob/main/README.md

下面我们来看看,这个新模型对于前五道题的具体解题过程。

第一题,是一道解析几何题。


可以看出,解答这道题的关键点,就是要找出覆盖点的n条线,以及阳光线的可能数量。


模型采用了独特的方法,确定了所有满足条件的非负整数k。

引理:当n≥4时,任何覆盖P_n的n条直线必须使用三角形的一条边。

对n=3的情况进行精确分析。

对于一般的n≥3,证明对于每个n存在k=0、1、3的配置。

利用归约引理完成主要结论的证明。


第二道题,是一道平面几何题。


示意图如下。


大神网友放出的解答中,想要直接证明过点H且平行于AP的直线与三角形BER的外接圆相切,是很困难的。

不过,这个问题可以换成另一种表述:定义X为不包含B的一侧的EF的中点,如果能够证明HX与EF平行,基本上就可以证明这个结论了。

另一方面,如果这条线的切线,那么它必须在中点处接触圆。

因此,只要证明这两点就足够了。


而模型在证明过程中,主要完成了以下四步:

解析设定和参数。 设P为三角形ACD的外心。 连接AP与两个圆Ω、Γ的交点分别为点E、F。 求过点B、E、F的外接圆方程。


第三道题,是一道函数题。


在人类选手的解法中,这道题的关键是证明下图中黄色的不等式。



模型对于这道题的解法,分为以下四步。

考虑bonza类型的函数,即满足性质P_f的函数。

当函数在某个素数处取值大于1时,考虑模素数意义下的同余关系。

推论:如果某个奇素数p满足f>1,那么整个函数f必须是恒等函数。

进入主要的结构性引理:分析在非恒等函数的情况下,函数的结构。


第四道题,是一道数论问题。


它的解题关键步骤可以化为如下形式。


模型在解答过程中,也采用了类似思路。


第五道题,考察的是博弈论。


这道题的解法,包含以下三部分。




模型在解题过程中,则是讨论了以下三种情况。

当 λ ≥ c(无防御)时,Alice总是获胜。

当 λ > c 时,Alice获胜。

当 λ < c(c = 1/√2)时,Bazza获胜。


第六道题,涉及到了图形的组合数学。


这道公认的难题,人类参赛者也只有6人可以做出,o3、o4-mini、Gemini 2.5 Pro、Grok-4、DeepSeek-R1六个大模型也全员零分,即使是OpenAI的这个超强模型,也同样折戟了。

目前看来,世界上还不存在能解出第六题的大模型。

一个彩蛋

Alexander Wei宣布这个消息时,使用了「草莓」的形象。

「Strawberry」是OpenAI当初在内部研发时使用的代号,用于推动一项全新的推理模型项目,就是我们现在熟悉的「o」系列模型。


作者介绍


Alex Wei是OpenAI的研究科学家,主要研究方向为大语言模型和推理。之前也曾研究过机器学习、博弈论和算法的交叉领域。

他在加州大学伯克利分校获得计算机科学博士学位,师从Nika Haghtalab、Michael I. Jordan和Jacob Steinhardt;在哈佛大学获得学士学位和硕士学位,师从 Jelani Nelson 和 Scott Kominers。

他曾是FAIR团队的一员,参与构建了首个在《外交》(Diplomacy)游戏中达到人类水平的人工智能——CICERO。该成果在2022年发表于《科学》杂志。

参考资料:

https://x.com/alexwei_/status/1946477742855532918


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
周四收评:今天A股涨到4030了,做好准备,明天可能这样走

周四收评:今天A股涨到4030了,做好准备,明天可能这样走

一只番茄鱼
2025-11-13 15:02:47
关于深圳市未经批准使用“金融控股”“金融集团”等字样及名称中含有“金控”字样经营主体名单的公示

关于深圳市未经批准使用“金融控股”“金融集团”等字样及名称中含有“金控”字样经营主体名单的公示

新浪财经
2025-11-13 09:12:54
董洁控诉潘粤明家暴十年后,他携三部新剧杀回巅峰

董洁控诉潘粤明家暴十年后,他携三部新剧杀回巅峰

顶世文化
2025-11-13 15:24:49
果然不出大陆所料:美国对郑丽文正式发邀请,大陆两句话震动岛内

果然不出大陆所料:美国对郑丽文正式发邀请,大陆两句话震动岛内

南宗历史
2025-11-13 16:49:10
九亿姐和功夫巨星玩三人行!

九亿姐和功夫巨星玩三人行!

八卦疯叔
2025-11-13 11:32:42
台当局通知全岛,必须全力救沈伯洋,话音刚落,解放军攻击11登场

台当局通知全岛,必须全力救沈伯洋,话音刚落,解放军攻击11登场

云鹏叙事
2025-11-13 11:57:07
白银大涨,创历史新高

白银大涨,创历史新高

证券时报e公司
2025-11-13 17:15:19
厦门又一培训机构跑路,一百多位家长退费难

厦门又一培训机构跑路,一百多位家长退费难

Yes厦门
2025-11-12 16:51:24
全新本田CR-V曝光外观大变,内配竖向大屏,搭载2.0L混合动力系统

全新本田CR-V曝光外观大变,内配竖向大屏,搭载2.0L混合动力系统

生活魔术专家
2025-11-11 10:39:03
章泽天出席活动讲话时肢体动作不断,引发网友吐槽:讲话水平一般

章泽天出席活动讲话时肢体动作不断,引发网友吐槽:讲话水平一般

鑫鑫说说
2025-11-13 08:57:36
郑丽文被美国约谈,赖清德暗中做手脚,还是特朗普终于坐不住了

郑丽文被美国约谈,赖清德暗中做手脚,还是特朗普终于坐不住了

史纪文谭
2025-11-13 17:17:51
朱芳雨神操作,17岁1米92潜力锋卫摇摆重返广东男篮,首战16+4+7

朱芳雨神操作,17岁1米92潜力锋卫摇摆重返广东男篮,首战16+4+7

中国篮坛快讯
2025-11-13 16:11:27
美军严重误判:五角大楼认为不管怎么轰炸中国,解放军都不敢还手

美军严重误判:五角大楼认为不管怎么轰炸中国,解放军都不敢还手

乐趣纪史
2025-11-13 12:27:38
吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

傲娇的马甲线
2025-09-17 18:06:44
花生再次被关注!调查发现:糖尿病常吃花生,不过半年或有4好处

花生再次被关注!调查发现:糖尿病常吃花生,不过半年或有4好处

艾米手工作品
2025-11-11 13:27:27
顶多只能用一个月:前线乌军最缺皮卡,最受欢迎品牌都是日系

顶多只能用一个月:前线乌军最缺皮卡,最受欢迎品牌都是日系

鹰眼Defence
2025-11-13 17:07:40
杨鼎新,遗憾不敌朴廷桓九段,止步三星杯世界围棋大师赛8强!

杨鼎新,遗憾不敌朴廷桓九段,止步三星杯世界围棋大师赛8强!

L76号
2025-11-13 15:52:16
上海这家花鸟市场,即将关闭!陪伴了上海人20年,好消息是……

上海这家花鸟市场,即将关闭!陪伴了上海人20年,好消息是……

上观新闻
2025-11-13 15:48:04
被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

霹雳炮
2025-11-02 20:52:08
狗咬人引发命案律师透露新进展:狗主人的妹夫重伤,属于正当防卫

狗咬人引发命案律师透露新进展:狗主人的妹夫重伤,属于正当防卫

汉史趣闻
2025-11-13 15:26:25
2025-11-13 18:04:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13857文章数 66246关注度
往期回顾 全部

科技要闻

深夜重磅!GPT-5.1发布,奥特曼大谈情商

头条要闻

狗咬人被摔死狗主人上门理论被反杀 被告人家属发声

头条要闻

狗咬人被摔死狗主人上门理论被反杀 被告人家属发声

体育要闻

保罗,看看你对马刺干的好事!

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

教育
房产
本地
时尚
公开课

教育要闻

银川科技学院就业深造怎么样?高就业率+百余所海外名校,稳了!

房产要闻

8200元/㎡!海口宝龙城,彻底杀疯了!

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

今年最好看的4件大衣!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版