网易首页 > 网易号 > 正文 申请入驻

一盘大棋!OpenAI「截胡」IMO金牌,奥特曼为GPT-5献上「核弹级」预热

0
分享至

新智元报道

编辑:YHluck

【新智元导读】OpenAI又抢了谷歌风头!AI模型最先拿下IMO金牌的头魁原来是谷歌DeepMind,只是因为内部流程审批慢,被OpenAI抢占先机,占尽风头。那助OpenAI拿下IMO金牌的模型有何特殊之处?它背后的争议为何引发菲尔兹奖得主陶哲轩公开出面发声?

谁曾想,OpenAI又抢尽了谷歌的风头!

爆料称,谷歌DeepMind的AI模型早在本周五,也就是两天前,便拿下了IMO金牌。

但由于内部审核慢,需等下周一市场部批准后,DeepMind才能官宣具体情况。

OpenAI瞅中了时机,用全新通用推理模型在IMO刷题后,立即公开了结果。

昨天,全网几乎都被OpenAI拿下IMO金牌刷屏了。自家研究员纷纷现身,宣传OpenAI神秘模型的强大。

如今看来,这一切都是有预谋的。

谷歌DeepMind研究员Archit Sharma调侃道,「恭喜!居然比我们先官宣了——现在P6是新标杆了吗」?

OpenAI抢夺IMO金牌

GPT-5即将诞生

为什么通用推理模型拿下IMO金牌,会受到热烈关注?

简而言之,OpenAI这次的通用推理模型在「通用强化学习和测试时计算扩展方面开辟了新天地。」

这次的通用推理模型有啥不同之处?

OpenAI推理研究员Noam Brown指出,这个模型并非专门为国际数学奥林匹克竞赛(IMO)设计。

它是一个融合了全新实验性通用技术的推理LLM,使其在难以验证的任务上表现得更好。

IMO问题正是这一挑战的完美体现:证明过程长达数页,专家需要花费数小时来评分。

相比之下,AIME的答案只是一个0到999之间的整数。

与过去的基准相比,IMO问题需要更高层次的持续创造性思维。

这次的通用推理模型,在推理时间跨度上实现了逐步进步:从GSM8K(顶尖人类约 0.1 分钟)→ MATH基准(约1分钟)→ AIME(约10分钟)→ IMO(约100 分钟)。

「重要的是,它的思考效率也更高。而且在测试时计算能力和效率方面还有很大的提升空间。」

其次,IMO的参赛作品是难以验证的多页证明。

在这方面的进展需要超越明确、可验证奖励的强化学习范式。

通过这样做,就可以获得一个能够像人类数学家一样,构建复杂且无懈可击论证的模型。

https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt

这项成果到底意味着什么?

Noam Brown给出了答案:

可能因为这次IMO事件,奥特曼也出来公开发声。

他称,OpenAI拿下IMO金牌这事,需要强调的是,「这是一个LLM在做数学题,而不是一个特定的形式化数学系统这是朝着AGI迈进的主要部分。」

其实,奥特曼之所以这么「积极主动」,也不难发现是在为GPT-5发布提前铺路呢!

当下这个节点对OpenAI非常重要,令人期待的GPT-5即将面世。

他们估计想在这个重要节点上,利用OpenAI拿下IMO金牌这事,为GPT-5来波神助攻。

但奥特曼也稍显谨慎,调低各位对GPT-5的预期。

他指出,GPT-5是一个实验性模型,用了一些将在未来模型中使用的新研究技术。

「在数月内,不会发布具备IMO金牌水平能力的模型。」

陶哲轩点评IMO

针对IMO金牌得主背后争议,数学大佬陶哲轩也公开表达了自己的看法。

「不会评论任何未预先公开测试方法的AI竞赛成绩报告。」

陶哲轩简明扼要,在缺乏受控测试环境的情况下,AI的数学能力难以准确评估。

他指出,很多人对AI有个误解,就是把它的能力看成是「行」或「不行」两个极端。

但实际上,它的能力是一个巨大的范围。你给它提供的计算资源、给它的指令有多好,以及你要求它如何输出结果,都会导致最终效果产生天壤之别。

以人类竞赛举个栗子: 在刚结束的IMO竞赛中,各国派出六名高中生选手组成的团队(由职业数学家担任领队)。

两天赛程中,每位选手每天用四个半小时独立解答三道难题,仅限纸笔演算。

期间选手严禁交流(包括与领队),仅可向监考询问题目表述问题。领队仅在评分环节向评审委员会申诉,不直接参与解题。

都知道,IMO被视为衡量中学生数学能力的金标准:金牌线今年定为35/42分(即完美解答五题),完整解出一题即可获「荣誉提名」。

但若改变竞赛形式,难度将发生剧变!

考虑一下如果我们以其他方式改变奥林匹克竞赛的形式,其难度水平会发生什么变化?

比如,给学生几天时间来完成每道题,而不是三个题目只给四个半小时。

在考试开始前,团队负责人会将问题改写成学生更容易理解的格式。

学生可以无限使用计算器、计算机代数软件包、形式化证明助手、教科书或上网搜索。

领队让六人团队同时处理同一个问题,相互交流各自的部分进展和遇到的死胡同。

在此期间,队长会引导学生采用更有利的方法,并在某个学生花费过多时间在他们知道不太可能成功的方向时进行干预。

提交阶段,每位队员提交解答,但队长只选出「最佳」解答递交竞赛,其余的都弃之不用。

如果团队中的学生都未能获得令人满意的解决方案,团队负责人将不会提交任何解决方案,并且会悄然退出比赛,而他们的参与也永远不会被记录。

这些情境下,答案仍「技术性」源自学生之手。

这也说明,竞赛形式的改变能使原本铜牌线下的团队跃升至金牌水平。

「这警示我们,在缺乏统一测试标准的情况下,贸然对比不同AI模型(或AI与人类选手)的IMO表现如同比较苹果与橙子,没有对比意义可言,」陶哲轩指出。

参考资料:

https://mathstodon.xyz/@tao/114881418225852441

https://x.com/zjasper666/status/1946650175063384091

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
荒诞喜剧!papi酱吐槽春晚视频下架,“太好笑了毙掉”竟成神预言

荒诞喜剧!papi酱吐槽春晚视频下架,“太好笑了毙掉”竟成神预言

露珠聊影视
2026-02-02 17:51:52
就在刚刚!官宣中国女篮14人名单!王思雨回归,4后卫7锋线3中锋

就在刚刚!官宣中国女篮14人名单!王思雨回归,4后卫7锋线3中锋

老吴说体育
2026-02-03 13:08:31
接触的人多了,会明白:如果一个人还穿5年前的衣服,说明3个问题

接触的人多了,会明白:如果一个人还穿5年前的衣服,说明3个问题

诗词中国
2025-12-31 21:01:55
奥巴马大女儿罕见露面:身高185瘦成竹竿,脏辫凌乱,27岁仍未婚

奥巴马大女儿罕见露面:身高185瘦成竹竿,脏辫凌乱,27岁仍未婚

付老师种植技术团队
2026-01-16 17:49:34
曝C罗很可能以5000万英镑转会离开利雅得胜利

曝C罗很可能以5000万英镑转会离开利雅得胜利

本泽体育
2026-02-03 07:59:30
太顶了!明明什么都没露,却性感得要命!

太顶了!明明什么都没露,却性感得要命!

贵圈真乱
2025-12-20 12:02:06
明天立春,别忘记吃3绿、2黄,1白,顺应时节,家人都受益

明天立春,别忘记吃3绿、2黄,1白,顺应时节,家人都受益

椰青美食分享
2026-02-03 11:38:56
连平硬核发声:房价不涨楼市难翻身 房住不炒本就该保增值

连平硬核发声:房价不涨楼市难翻身 房住不炒本就该保增值

林子说事
2026-02-03 12:13:08
失业后我才发现:从古至今,赚钱最快的路子就一个,从未改变

失业后我才发现:从古至今,赚钱最快的路子就一个,从未改变

另子维爱读史
2026-01-16 21:23:39
大交易来袭!曝快船骑士讨论用哈登换加兰 火箭也有意换回登哥

大交易来袭!曝快船骑士讨论用哈登换加兰 火箭也有意换回登哥

醉卧浮生
2026-02-03 12:20:31
游戏等行业增值税税率要提高?专家表示没有可信度

游戏等行业增值税税率要提高?专家表示没有可信度

财联社
2026-02-03 15:58:22
丁俊晖一轮游出局,中国选手晋级16强情况

丁俊晖一轮游出局,中国选手晋级16强情况

老牛体育解说
2026-02-03 23:56:31
钱再多有啥用?70岁身价千亿的比尔盖茨,还是要为23岁女儿操碎心

钱再多有啥用?70岁身价千亿的比尔盖茨,还是要为23岁女儿操碎心

素衣读史
2025-12-29 17:41:37
奇瑞造了一辆“路虎SUV”,6.8L油耗还能加92油,却只卖6.99W

奇瑞造了一辆“路虎SUV”,6.8L油耗还能加92油,却只卖6.99W

沙雕小琳琳
2026-02-04 00:02:01
火箭队3年前拒绝哈登!为何如今又该重聚?8换1杜兰特是最好答案

火箭队3年前拒绝哈登!为何如今又该重聚?8换1杜兰特是最好答案

锅子篮球
2026-02-03 21:37:41
1949年,国军上将起义前夕,发现妻子竟是特务,他轻叹:我给你钱财,带孩子去香港吧

1949年,国军上将起义前夕,发现妻子竟是特务,他轻叹:我给你钱财,带孩子去香港吧

文史明鉴
2026-02-03 16:48:12
雅迪、爱玛等电动自行车企联合公约:杜绝为非法改装预留“后门”

雅迪、爱玛等电动自行车企联合公约:杜绝为非法改装预留“后门”

IT之家
2026-02-03 20:28:13
78岁路都走不稳还开演唱会捞金,全网恶评如潮,她却扬言回馈粉丝

78岁路都走不稳还开演唱会捞金,全网恶评如潮,她却扬言回馈粉丝

冷紫葉
2026-01-27 15:07:16
28岁川大博士生在意大利失联12天,姐姐全网求助:父母“搬砖”供他读博,本该今年毕业

28岁川大博士生在意大利失联12天,姐姐全网求助:父母“搬砖”供他读博,本该今年毕业

红星新闻
2026-01-30 20:45:59
赵露思已经把人香晕了 柔光潋滟

赵露思已经把人香晕了 柔光潋滟

只要高兴就好
2025-12-29 08:02:22
2026-02-04 01:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14470文章数 66565关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

挪威王储妃给爱泼斯坦发暧昧邮件:你让我兴奋

头条要闻

挪威王储妃给爱泼斯坦发暧昧邮件:你让我兴奋

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

大S逝世一周年 S家没通知大S子女惹争议

财经要闻

中央一号文件:扎实推进乡村全面振兴

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

亲子
家居
艺术
公开课
军事航空

亲子要闻

如果他长大以后看到这条视频,希望他不会怪我们全营的人合起伙来骗他 杨雪呀

家居要闻

极简木艺术 典雅自在

艺术要闻

成都在建第一高楼冲刺300米!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:庞大兵力将很快抵达伊朗

无障碍浏览 进入关怀版