网易首页 > 网易号 > 正文 申请入驻

OpenAI IMO金牌团队爆料:AI拒绝作答第六题

0
分享至

机器之心报道

编辑:张倩

让 OpenAI 拿到 IMO 金牌的模型,背后居然只有三个核心开发者?这是 OpenAI IMO 团队最近接受媒体采访披露的信息。

这三个人分别是:项目负责人 Alexander Wei、研究工程师 Sheryl Hsu 和高级研究科学家 Noam Brown。其中,Sheryl Hsu 直到今年 3 月才入职。

他们还透露,这个项目是用两三个月的时间突击赶出来的,结果令所有人都很意外。

大型语言模型在 IMO 中拿到金牌被视为一个重要的里程碑,不仅意味着模型数学能力的增强,还体现了其在处理难以验证任务的通用技术上的进步。

那么,这个模型背后有哪些值得关注的点?该团队下一步有什么计划?我们一起来看一下采访内容。

视频链接:https://www.youtube.com/watch?v=EEIPtofVe2Q

1、项目是什么时候启动的?

赢得 IMO 金牌一直是 AI 领域,尤其是 OpenAI 内部,一个长期追求的目标,相关的讨论最早可以追溯到 2021 年。

尽管相关的强化学习算法和底层思路已经酝酿了大约六个月,但真正为了这次突破而进行的集中攻关,实际上只在 IMO 竞赛前的两三个月才开始。

2、项目团队有多大?

核心团队仅由 Alex、Cheryl 和 Noam 三人组成, 其中 Alex 负责主要的技术开发。Alex 最初提出这项新技术时也曾面临质疑,但随着他展示出强有力的证据,尤其是在处理那些「难以验证的任务」上取得了显著的进步后,他的方案逐渐赢得了团队和公司的支持。

3、模型的证明风格是怎样的?

团队坦诚地描述,AI 模型生成的数学证明在风格上非常独特,甚至可以说是「atrocious」(糟糕的)或「creative」(有创意的)。这些证明充满了机器的逻辑,对于人类来说很难读懂。但为了透明起见,OpenAI 并没有为人类的可读性进行优化,而是将这些由 AI 生成的、最原始的证明直接发布在了 GitHub 上,供全世界查阅。

4、模型在「第六题」上失分,说明了什么?

IMO 的第三题或第六题是传统上最困难的题。模型在面对第六题时,最终选择「不作答」。但团队并未将此视为失败,反而认为这是一个非常积极的信号。这说明它清楚地知道自己能力的边界,在无法解决问题时选择了放弃,而不是像过去的 AI 模型那样,会「一本正经地胡说八道」(hallucinating),编造一个错误的答案。如果模型选择编造,人类要非常仔细地检查才能发现。

Alex 分析说,像第六题这样的组合数学问题对 AI 来说尤其困难,因为它们更抽象、维度更高,需要「信念的飞跃或洞察力的闪现」,而这正是当前 AI 的弱项。AI 更擅长通过大量、微小的、连续的步骤来解决问题。

5、我们离解决「千禧年大奖难题」还有多远?

当被问及 AI 是否能在明年解决「千禧年大奖难题」时,Alex 明确表示,这些难题仍然「非常遥远」。他通过一个量化的对比来阐述这个差距:AI 解决问题的能力从处理只需几秒钟的小学数学题(GSM8K),跃升到了能解决顶尖人类学生平均需要一个半小时的 IMO 难题 。然而,真正的研究级数学可能需要这些天才成长为研究员后,花费 1500 个小时才能取得突破 。而千禧年大奖难题的难度则更高,它们耗费了整个领域学者们一生的思考时间,但进展甚微 。因此,团队一方面为已取得的进展感到非常兴奋,另一方面也对未来的挑战感到「谦卑」,因为从解决一个半小时的问题到攻克需要数万甚至数十万小时人类思考时间的难题,还有极其漫长的路要走 。

注:千禧年大奖难题是七条由美国的克雷数学研究所于 2000 年公布的数学难题,解题总奖金 700 万美元。这些难题旨在呼应 1900 年德国数学家大卫・希尔伯特在巴黎提出的 23 个历史性数学难题。而千禧年大奖难题的破解,极有可能为密码学、航天、通讯等领域带来突破性进展。迄今为止,在七条问题中,庞加莱猜想是唯一已解决的,而其它六道难题(包括黎曼猜想、P vs NP 问题、纳维 - 斯托克斯方程、杨 - 米尔斯理论、霍奇猜想和 BSD 猜想)仍有待研究者探索。

6、让模型思考更长时间存在哪些挑战?

Noam 指出,当模型「思考」的时间变得非常长时(比如 1500 小时),评估(evaluation)本身就成了一个巨大的瓶颈。运行一个需要模型思考一个月的测试,就需要花费一个月的时间才能看到结果。这会极大地拖慢研究迭代的速度。目前,思考 1.5 小时还是可控的,但未来这将是必须解决的难题 。

7、multi-agents 系统在这个项目中扮演了什么角色?

据 Noam Brown 介绍,除了让模型能长时间思考并处理难以验证的任务外,项目还涉及「扩展并行计算」(scaling up parallel compute),而这其中就包含了多智能体的部分,不过他表示无法透露过多具体的技术细节,但这确实是他们用来扩展模型在测试时计算能力的一种方式。

紧接着,Noam 强调,在应用这些技术时,团队非常优先考虑「通用性」(generality)。他将此与过去的项目做对比,例如他曾研究过的扑克 AI 以及和 Alex 共同参与过的《外交》游戏 AI(Cicero 项目)。虽然那些项目成果斐然,但它们都属于耗费数年时间开发的、只能完成单一任务的「定制系统」 。在人工智能飞速发展的今天,花费大量时间构建这样的专用系统已不是最佳选择。因此,团队在此次研究中有意识地优先采用了通用技术 。最终,无论是用于扩展思考时间、处理难验证任务,还是用于并行计算的技术,全都是通用的,团队计划或已经将这些技术应用于其他系统,以全面提升模型的推理能力 。

8、为什么不使用 Lean(一种形式化证明工具)?

团队解释说,Lean 对于数学家来说是一个有价值的工具,但它有其局限性。OpenAI 的首要任务是发展「通用的推理能力」,而可以被自然语言方法处理的现实世界问题,远比可以被严格形式化的要多。因此他们选择优先发展自然语言推理。

不过,Noam Brown 也强调:「我不认为专用 AI 有什么问题」 。他认为,专用 AI 可以非常高效,并且在特定领域显然能够远远超越通用 AI 。通用 AI 与专用系统(如形式化验证工具 Lean)的关系并非二选一,人类数学家也会发现并使用 Lean 这类专用工具来获取价值。因此,他认为通用 AI 与更专注于特定领域的专用系统是兼容的,并且相信两者的结合会因为互补而变得更强大 。

9、这个项目用到的基础设施是什么样的?

Cheryl 证实,这个项目是在与其他近期发布的 OpenAI 产品非常相似的基础设施上构建的 。这再次印证了其方法的通用性,没有任何东西是专门为 IMO「定制」的 。团队的期望是,这些由 Alex 开发出的、关于处理不可验证任务和扩展计算时间的技术,能够被应用于推理的其他领域,从而持续改进 ChatGPT 等所有模型。

10、「提出问题」将成为 AI 面临的新挑战?

主持人提到,「提出有趣的问题」本身就是最难的事情 。团队成员表示认同,并认为让模型学会提出新颖的、有价值的问题(例如创造一个 IMO 级别的新题目),是继解决问题之后,AI 需要克服的下一个巨大障碍 。

11、物理奥赛题是不是比数学更难?

Alex 表示,物理奥赛「绝对更难」,因为它包含了一个需要动手操作的「实验部分」,这需要先解决机器人技术领域的难题 。

12、模型未来会开放给大家使用吗?

团队表示希望将其提供给数学家使用,但如何实现的具体细节仍在研究中。他们非常期待看到数学家们能用这个强大的新工具来挑战哪些难题。

Noam 分享了一个持续了一年的故事。一位斯坦福大学的数学教授会定期发邮件,用一个非常难的问题来测试 OpenAI 的最新模型。虽然最新的 IMO 模型依然无法解决这个问题,但它首次明确地「认识到自己无法解决」,这被认为是一个重要的进步 。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发!以色列彻底失控!

突发!以色列彻底失控!

财经要参
2026-03-26 21:58:11
没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

岁月有情1314
2026-03-26 12:13:10
广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

大象新闻
2026-03-26 13:53:02
特朗普再次表态:伊朗正与美方对话

特朗普再次表态:伊朗正与美方对话

财联社
2026-03-26 23:10:07
高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

沙雕小琳琳
2026-03-26 09:41:30
广东报告梅大高速“5·1”塌方灾害整改落实情况:发现公路隐患1.6万余处

广东报告梅大高速“5·1”塌方灾害整改落实情况:发现公路隐患1.6万余处

封面新闻
2026-03-26 15:36:07
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

南权先生
2026-03-25 15:25:11
一觉醒来,爱吃活鱼的人天塌了,央视曝光的内幕真可怕!

一觉醒来,爱吃活鱼的人天塌了,央视曝光的内幕真可怕!

涛哥锐评
2026-03-26 17:57:04
中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

何氽简史
2026-03-26 15:40:58
张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

极目新闻
2026-03-26 20:56:20
伊朗用导弹拼出尊严,中国导弹实力藏不住了,俄专家给出硬核定论

伊朗用导弹拼出尊严,中国导弹实力藏不住了,俄专家给出硬核定论

探源历史
2026-03-25 13:22:35
41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

180视角
2026-03-26 13:01:03
尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

游民星空
2026-03-26 11:58:13
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

笔墨V
2026-03-26 14:53:51
曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

我爱英超
2026-03-26 20:47:14
6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

风过乡
2026-03-26 19:13:28
中国动“真格”了!中方霸气警告:90天内358亿赔偿金必须到位

中国动“真格”了!中方霸气警告:90天内358亿赔偿金必须到位

趣生活
2026-03-26 22:16:24
国际油价暴跌!3月24日,全国各地各大加油站92号汽油、95号汽油、98号汽油最新油价

国际油价暴跌!3月24日,全国各地各大加油站92号汽油、95号汽油、98号汽油最新油价

吉林乌拉侯
2026-03-25 02:56:11
2026-03-27 04:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
数码
本地
手机
公开课

400万人爱过的女孩,被黄谣网暴180天后

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版