网易首页 > 网易号 > 正文 申请入驻

内幕曝光:OpenAI模型坦承不会第六题,3人俩月拿下IMO金牌!

0
分享至

新智元报道

编辑:KingHZ

【新智元导读】OpenAI在短短两个月内,让AI从挣扎于小学数学题跃升至国际数学奥林匹克(IMO)金牌水平,背后是通用AI技术的突破。

OpenAI的ChatGPT真能?还是OpenAI的自嗨?背后到底有何隐情?

OpenAI的IMO金牌核心团队Alexander Wei、Noam Brown与Sheryl Hsu做客红杉Training Data播客,分享了如何在两月内让AI斩获IMO金牌。

比如说,OpenAI内部并非所有人都持乐观态度。某位研究员甚至打赌模型不会赢,赔率高达2:1,不过最终因为「不想影响士气」而放弃了赌局。

比赛当天凌晨1-5点,Noam Brown忙里偷闲,小憩了一番,而Alexander Wei疯狂检查模型生成的证明

他们这次还解释了是如何决定AI是不是拿到了金牌。为了评分,他们雇用了外部的IMO奖牌获得者。每份证明都由三名奖牌获得者进行评分,他们对正确性达成了一致意见 。就这样,他们认为AI的确有能力拿到IMO金牌。

他们还透露证明像「外星语言」般独特,可读性不高。虽有有能力优化,但为了透明,他们选择发布了原始输出。

如果你只想快速了解精华,先看下方要点;想读幕后故事,请继续往下。

要点速读

在短短两个月内,这支OpenAI仅三人的精锐团队就实现了整个AI领域多年未竟的目标——在国际数学奥林匹克竞赛难题上达到金牌级水平。

这是通往ASI道路上最重要的里程碑之一。

这次突破之所以特别引人注目,不仅仅是因为AI的数学能力,更在于其背后的架构。这是一种通用技术,用于扩展测试时间计算,并处理那些远远超出竞赛数学范畴的难以验证的任务。

就在一年前,AI还只能进行短暂的数学推理,仅仅持续十分之一分钟。而现在,已有AI系统能够持续推理长达100分钟。

而超级智能的期望是,随着我们将推理时间扩展到数千甚至数十万小时,我们或许能够开始解决人类在数学、科学等众多领域中那些最伟大的未解难题。

团队还介绍了他们的独特方法:在难以验证的任务上,不用形式化验证工具,而使用通用强化学习技术。

新模型展现出惊人的自省能力——主动承认无法解答第六题,同时揭示了解决竞赛题与取得真正数学研究突破之间的悬殊差距。

IMO 2025第六题是本次竞赛难度最大的题目,大意如下:

考虑一个2025x2025的单位正方形网格。马蒂尔达希望在这个网格上放置一些矩形瓷砖,这些瓷砖的大小可能各不相同,但每块瓷砖的每一边都必须与网格线对齐,并且每个单位正方形最多被一块瓷砖覆盖。

确定马蒂尔达需要放置的最小瓷砖数量,以确保网格的每一行和每一列都有且仅有一个单位正方形没有被任何瓷砖覆盖。

关键亮点如下:

(1)通用技术胜过专用方案。

(2)小团队也能创造大成果:核心团队仅由3名研究人员组成,在最后2个月冲刺完成工作。

(3)自我意识提升AI可靠性:面对最难的题目时,模型能承认自己无法解决,而不是输出看似合理但错误的答案。

(4)测试时计算扩展助力深入推理:突破的关键在于将推理计算时间从几秒延长到几小时,使模型能更深入思考复杂问题。

(5)竞赛是进步的起点,而非终点。

Sheryl Hsu(第一排中间女子)分享的OpenAI合照

两个月的奇迹

国际数学奥林匹克(IMO)是全球高中生数学顶尖赛事,难题之难让人类选手也要苦练多年。

即便是天才数学家陶哲轩,10岁时第一次参加IMO,获得了铜牌。约两年后,第二次参加IMO,他才获得了金牌。

可OpenAI的这支小队却只用了两个月!

他们的秘密武器是什么?

在红杉资本的播客《Training Data》中,主持人Sonya Huang揭秘了真相:

他们用了一种叫做「多智能体系统」的技术。

简单说,就是让多个AI「助手」同时工作,像一个超级团队分工协作。

这种方法让他们的模型能在短时间内解决复杂问题。

AI在数学上真令人叹为观止!

就在几年前,AI模型还在为解决小学数学问题而挣扎。

在2024年,GSM8K还被当作评估模型的标准。

GSM8K,即小学数学8K,是一个包含8,500个高质量、语言多样的小学数学应用题的数据集。目前,此数据集的成绩已经饱和:Claude 3 准确率已达95%

但在数学领域,这只是短暂现象。随后,AI数学基准测试出现了美国数学邀请赛AIME,接着美国奥数USAMO。

去年的开源模型数学排行榜

现在,国际数学奥林匹克竞赛金牌也被AI拿下。

AI以惊人的速度突破了所有的数学基准。

AI或觉醒自我意识

敢说自己「没答案」

有时,AI会「胡思乱想」,编造错误答案,同时「理直气壮」,自信过头。

这属于推理模型的「幻觉」问题。

但OpenAI的模型很特别——它能在解不出题时果断说「我不知道」。

比如在IMO第6题上,模型选择不冒险,而是承认自己的局限。

新模型显著减少了「幻觉」问题。

OpenAI研究员Noam Brown认为AI开始向自我意识推理转变:

过去,数学家们需要仔细检查模型的解题过程,因为早期系统常常会悄无声息地弄错不等式或插入错误步骤,导致「幻觉」答案。

在缺乏有效证明时,新更新的IMO模型倾向于说「我不确定」,这大大减少了隐藏错误

这一点让笃信AGI的网友Causal Coder激动地评论:「这比拿金牌还重要!」

为什么?因为这避免了「幻觉」(hallucination),让AI更可靠。

《自然》杂志的研究也支持这一观点:减少错误输出是AI进步的关键。

这不仅在数学竞赛中闪耀,还可能帮我们在未来科学计算中少走弯路。

数学让人谦卑,AI任重道远

尽管这次的进步令人兴奋,但距离千禧难题还很远。

若按IMO题需要1.5小时思考估算,千禧级别需将思考时间放大上千倍,仍任重道远。

GSM8K是小学数学,好学生几秒钟搞定。现在AI从几秒钟进步到IMO级别——天才学生平均每题1.5小时(IMO三题4.5小时)。而研究数学需要这些奥赛天才长大后花1500小时。所以,从1.5小时到数千小时,还有千倍差距。

在千禧问题上,整个领域的专家毕生努力,还没多少进展。数学的深度让人谦卑:从1.5小时到数十万小时的人类思考,还有很长的路。

目前,7大千禧难题只有庞加莱猜想得到了解决

不止是数学

通向通用智能

这次的突破是为了开发通用的推理技术,而不是局限于数学。

他们在短短一年多的时间里,将推理时间从O(0.1分钟)扩展到了O(100分钟)。

除了让长推理以及在难以验证的任务上取得进步之外,这还涉及到扩展并行计算,涉及到多智能体。

在多智能体强化学习(MARL)实验中,两个对立的智能体团队展开对抗

他们通过巧妙设计「奖励函数」,让AI能处理难以验证的难题,相同方法也适用于物理奥林匹克竞赛,不过模型还无法进行实验部分的操作。

在扩展思考时间、处理难以验证的任务以及并行计算上,他们所采用的技术都是通用技术。他们计划在其他系统中使用,或者已经在使用了。

从基础设施的角度来说,这次基本上使用的是和其他项目相同的基础设施。

并没有什么专门为IMO定制。

他们称此次方法接下来会整合进更多OpenAI模型,全面提升推理能力,从而构建更强大的模型,不断改进Agent、ChatGPT以及其他一切。

但全球部署仍需时间。

挑战与梦想:路还长

千年难题如黎曼猜想,人类中的天才一生都难解,AI还需更多突破。

但团队不气馁,他们甚至想让AI学会自己提出新问题——这比解题更酷!

Noam Brown表示,语言模型现在正迅速地一个个克服障碍:

接下来的挑战将是生成新问题,比如创作IMO级别的数学难题「需要专业的数学家...但我看不到任何根本性的障碍。」

红杉的Sonya笑称:「从0.1分钟到100分钟的推理扩展,已经是巨大进步,未来可期!」

这对我们意味着什么?

这个故事不仅炫酷,还很实用。想象一下,未来AI能帮你解决家庭预算、设计新游戏,甚至提出科学新想法! 对于普通人,这意味着更智能的生活助手正在路上。对AI开发者来说,这是个启发:合作和创意能带来意想不到的成果。

参考资料:

https://www.youtube.com/watch?v=EEIPtofVe2Q

https://x.com/Hangsiin/status/1950505990660731084

https://x.com/slow_developer/status/1950504142990139571

https://x.com/chatgpt21/status/1950606890758476264

https://www.sequoiacap.com/podcast/training-data-openai-imo/

https://x.com/sonyatweetybird/status/1950607065380163742

https://github.com/aw31/openai-imo-2025-proofs/

https://klu.ai/glossary/math-eval

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰老师因心脏病离世,直播中曾坦言书法是“天坑”专业,出路太窄,没错

张雪峰老师因心脏病离世,直播中曾坦言书法是“天坑”专业,出路太窄,没错

云隐南山
2026-03-26 16:19:11
去年中乙金靴费尔南多加入苏超南京队,目前他效力于云南玉昆

去年中乙金靴费尔南多加入苏超南京队,目前他效力于云南玉昆

懂球帝
2026-03-26 17:50:02
跑步到底健康吗?

跑步到底健康吗?

张佳玮写字的地方
2026-03-26 17:04:54
收评:三大指数均跌超1% 两市成交额跌破2万亿

收评:三大指数均跌超1% 两市成交额跌破2万亿

财联社
2026-03-26 15:02:09
大众中国回应斯柯达退出中国市场

大众中国回应斯柯达退出中国市场

澎湃新闻
2026-03-26 17:33:03
3笔签约正式达成!恭喜詹姆斯·哈登,签2年7500万美元合同最合理

3笔签约正式达成!恭喜詹姆斯·哈登,签2年7500万美元合同最合理

翰飞观事
2026-03-26 20:19:10
社评:亲身了解中国,美国官员急需补上的一课

社评:亲身了解中国,美国官员急需补上的一课

环球网资讯
2026-03-26 00:05:09
张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

阿纂看事
2026-03-25 16:29:49
业务横跨中新柬3国、享部长级待遇、4度改名太子集团大佬身份曝光

业务横跨中新柬3国、享部长级待遇、4度改名太子集团大佬身份曝光

新加坡万事通
2026-03-26 18:50:58
新版《哈利·波特》黑人斯内普教授首曝光!梳脏辫戴金戒引热议,演员本人却称被死亡威胁?

新版《哈利·波特》黑人斯内普教授首曝光!梳脏辫戴金戒引热议,演员本人却称被死亡威胁?

英国报姐
2026-03-26 21:26:58
油价调整:注意,预计下调120元/吨,油价突破下调红线!

油价调整:注意,预计下调120元/吨,油价突破下调红线!

金投网
2026-03-26 11:16:05
风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

乐天闲聊
2026-03-26 03:40:35
欧股美股期货 全线下挫 布油涨超4% WTI涨超3%

欧股美股期货 全线下挫 布油涨超4% WTI涨超3%

每日经济新闻
2026-03-26 20:40:39
突发!光模块CPO,要开启超级大周期了?

突发!光模块CPO,要开启超级大周期了?

Thurman在昆明
2026-03-26 02:08:04
你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

夜深爱杂谈
2026-02-01 18:57:04
即将沦为“穷人房”的5种房子,不好住不好卖,聪明人已逐渐转手

即将沦为“穷人房”的5种房子,不好住不好卖,聪明人已逐渐转手

猫叔东山再起
2026-03-26 09:10:08
封神战在即!德约出战蒙特卡洛,冲击史无前例三圈“金大师”!

封神战在即!德约出战蒙特卡洛,冲击史无前例三圈“金大师”!

田先生篮球
2026-03-26 13:33:00
伊朗伊斯兰革命卫队责令一艘擅自通过霍尔木兹海峡船只返航

伊朗伊斯兰革命卫队责令一艘擅自通过霍尔木兹海峡船只返航

财联社
2026-03-25 02:02:18
一口气刷完全集,Netflix新剧又杀疯了

一口气刷完全集,Netflix新剧又杀疯了

来看美剧
2026-03-26 19:45:54
朝鲜权力格局再洗牌!金正恩连任背后

朝鲜权力格局再洗牌!金正恩连任背后

新浪财经
2026-03-26 00:04:55
2026-03-26 23:23:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
亲子
本地
公开课
军事航空

艺术要闻

哪一座桥不是风景?

亲子要闻

你好,我是馒头,快开门!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版