网易首页 > 网易号 > 正文 申请入驻

OpenAI IMO金牌团队爆料:AI拒绝作答第六题

0
分享至

机器之心报道

编辑:张倩

让 OpenAI 拿到 IMO 金牌的模型,背后居然只有三个核心开发者?这是 OpenAI IMO 团队最近接受媒体采访披露的信息。

这三个人分别是:项目负责人 Alexander Wei、研究工程师 Sheryl Hsu 和高级研究科学家 Noam Brown。其中,Sheryl Hsu 直到今年 3 月才入职。

他们还透露,这个项目是用两三个月的时间突击赶出来的,结果令所有人都很意外。

大型语言模型在 IMO 中拿到金牌被视为一个重要的里程碑,不仅意味着模型数学能力的增强,还体现了其在处理难以验证任务的通用技术上的进步。

那么,这个模型背后有哪些值得关注的点?该团队下一步有什么计划?我们一起来看一下采访内容。

视频链接:https://www.youtube.com/watch?v=EEIPtofVe2Q

1、项目是什么时候启动的?

赢得 IMO 金牌一直是 AI 领域,尤其是 OpenAI 内部,一个长期追求的目标,相关的讨论最早可以追溯到 2021 年。

尽管相关的强化学习算法和底层思路已经酝酿了大约六个月,但真正为了这次突破而进行的集中攻关,实际上只在 IMO 竞赛前的两三个月才开始。

2、项目团队有多大?

核心团队仅由 Alex、Cheryl 和 Noam 三人组成, 其中 Alex 负责主要的技术开发。Alex 最初提出这项新技术时也曾面临质疑,但随着他展示出强有力的证据,尤其是在处理那些「难以验证的任务」上取得了显著的进步后,他的方案逐渐赢得了团队和公司的支持。

3、模型的证明风格是怎样的?

团队坦诚地描述,AI 模型生成的数学证明在风格上非常独特,甚至可以说是「atrocious」(糟糕的)或「creative」(有创意的)。这些证明充满了机器的逻辑,对于人类来说很难读懂。但为了透明起见,OpenAI 并没有为人类的可读性进行优化,而是将这些由 AI 生成的、最原始的证明直接发布在了 GitHub 上,供全世界查阅。

4、模型在「第六题」上失分,说明了什么?

IMO 的第三题或第六题是传统上最困难的题。模型在面对第六题时,最终选择「不作答」。但团队并未将此视为失败,反而认为这是一个非常积极的信号。这说明它清楚地知道自己能力的边界,在无法解决问题时选择了放弃,而不是像过去的 AI 模型那样,会「一本正经地胡说八道」(hallucinating),编造一个错误的答案。如果模型选择编造,人类要非常仔细地检查才能发现。

Alex 分析说,像第六题这样的组合数学问题对 AI 来说尤其困难,因为它们更抽象、维度更高,需要「信念的飞跃或洞察力的闪现」,而这正是当前 AI 的弱项。AI 更擅长通过大量、微小的、连续的步骤来解决问题。

5、我们离解决「千禧年大奖难题」还有多远?

当被问及 AI 是否能在明年解决「千禧年大奖难题」时,Alex 明确表示,这些难题仍然「非常遥远」。他通过一个量化的对比来阐述这个差距:AI 解决问题的能力从处理只需几秒钟的小学数学题(GSM8K),跃升到了能解决顶尖人类学生平均需要一个半小时的 IMO 难题 。然而,真正的研究级数学可能需要这些天才成长为研究员后,花费 1500 个小时才能取得突破 。而千禧年大奖难题的难度则更高,它们耗费了整个领域学者们一生的思考时间,但进展甚微 。因此,团队一方面为已取得的进展感到非常兴奋,另一方面也对未来的挑战感到「谦卑」,因为从解决一个半小时的问题到攻克需要数万甚至数十万小时人类思考时间的难题,还有极其漫长的路要走 。

注:千禧年大奖难题是七条由美国的克雷数学研究所于 2000 年公布的数学难题,解题总奖金 700 万美元。这些难题旨在呼应 1900 年德国数学家大卫・希尔伯特在巴黎提出的 23 个历史性数学难题。而千禧年大奖难题的破解,极有可能为密码学、航天、通讯等领域带来突破性进展。迄今为止,在七条问题中,庞加莱猜想是唯一已解决的,而其它六道难题(包括黎曼猜想、P vs NP 问题、纳维 - 斯托克斯方程、杨 - 米尔斯理论、霍奇猜想和 BSD 猜想)仍有待研究者探索。

6、让模型思考更长时间存在哪些挑战?

Noam 指出,当模型「思考」的时间变得非常长时(比如 1500 小时),评估(evaluation)本身就成了一个巨大的瓶颈。运行一个需要模型思考一个月的测试,就需要花费一个月的时间才能看到结果。这会极大地拖慢研究迭代的速度。目前,思考 1.5 小时还是可控的,但未来这将是必须解决的难题 。

7、multi-agents 系统在这个项目中扮演了什么角色?

据 Noam Brown 介绍,除了让模型能长时间思考并处理难以验证的任务外,项目还涉及「扩展并行计算」(scaling up parallel compute),而这其中就包含了多智能体的部分,不过他表示无法透露过多具体的技术细节,但这确实是他们用来扩展模型在测试时计算能力的一种方式。

紧接着,Noam 强调,在应用这些技术时,团队非常优先考虑「通用性」(generality)。他将此与过去的项目做对比,例如他曾研究过的扑克 AI 以及和 Alex 共同参与过的《外交》游戏 AI(Cicero 项目)。虽然那些项目成果斐然,但它们都属于耗费数年时间开发的、只能完成单一任务的「定制系统」 。在人工智能飞速发展的今天,花费大量时间构建这样的专用系统已不是最佳选择。因此,团队在此次研究中有意识地优先采用了通用技术 。最终,无论是用于扩展思考时间、处理难验证任务,还是用于并行计算的技术,全都是通用的,团队计划或已经将这些技术应用于其他系统,以全面提升模型的推理能力 。

8、为什么不使用 Lean(一种形式化证明工具)?

团队解释说,Lean 对于数学家来说是一个有价值的工具,但它有其局限性。OpenAI 的首要任务是发展「通用的推理能力」,而可以被自然语言方法处理的现实世界问题,远比可以被严格形式化的要多。因此他们选择优先发展自然语言推理。

不过,Noam Brown 也强调:「我不认为专用 AI 有什么问题」 。他认为,专用 AI 可以非常高效,并且在特定领域显然能够远远超越通用 AI 。通用 AI 与专用系统(如形式化验证工具 Lean)的关系并非二选一,人类数学家也会发现并使用 Lean 这类专用工具来获取价值。因此,他认为通用 AI 与更专注于特定领域的专用系统是兼容的,并且相信两者的结合会因为互补而变得更强大 。

9、这个项目用到的基础设施是什么样的?

Cheryl 证实,这个项目是在与其他近期发布的 OpenAI 产品非常相似的基础设施上构建的 。这再次印证了其方法的通用性,没有任何东西是专门为 IMO「定制」的 。团队的期望是,这些由 Alex 开发出的、关于处理不可验证任务和扩展计算时间的技术,能够被应用于推理的其他领域,从而持续改进 ChatGPT 等所有模型。

10、「提出问题」将成为 AI 面临的新挑战?

主持人提到,「提出有趣的问题」本身就是最难的事情 。团队成员表示认同,并认为让模型学会提出新颖的、有价值的问题(例如创造一个 IMO 级别的新题目),是继解决问题之后,AI 需要克服的下一个巨大障碍 。

11、物理奥赛题是不是比数学更难?

Alex 表示,物理奥赛「绝对更难」,因为它包含了一个需要动手操作的「实验部分」,这需要先解决机器人技术领域的难题 。

12、模型未来会开放给大家使用吗?

团队表示希望将其提供给数学家使用,但如何实现的具体细节仍在研究中。他们非常期待看到数学家们能用这个强大的新工具来挑战哪些难题。

Noam 分享了一个持续了一年的故事。一位斯坦福大学的数学教授会定期发邮件,用一个非常难的问题来测试 OpenAI 的最新模型。虽然最新的 IMO 模型依然无法解决这个问题,但它首次明确地「认识到自己无法解决」,这被认为是一个重要的进步 。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阿斯:穆里尼奥满意三名皇马球员从世界杯出局,7月13日开启季前训练

阿斯:穆里尼奥满意三名皇马球员从世界杯出局,7月13日开启季前训练

懂球帝
2026-07-04 02:26:04
7月4日世界杯生死战前瞻:三场淘汰赛,最有可能爆冷的是这一场!

7月4日世界杯生死战前瞻:三场淘汰赛,最有可能爆冷的是这一场!

阿器谈史
2026-07-03 16:53:20
她是大家熟悉的演员,不拍戏在法国洗碗谋生,如今遭遇高温热得慌

她是大家熟悉的演员,不拍戏在法国洗碗谋生,如今遭遇高温热得慌

流史岁月
2026-07-03 16:00:07
鸿蒙落选“央采”真相:多CPU兼容这道坎还没过

鸿蒙落选“央采”真相:多CPU兼容这道坎还没过

穿透
2026-07-03 12:14:22
75岁宝岛首富又迎第三春,老三舞厅出身嗲功了得,正宫装聋作哑!

75岁宝岛首富又迎第三春,老三舞厅出身嗲功了得,正宫装聋作哑!

小陆搞笑日常
2026-07-04 00:43:36
男篮为何溃败?苏群一针见血,郭士强用兵遭质疑,2新人不给机会

男篮为何溃败?苏群一针见血,郭士强用兵遭质疑,2新人不给机会

萌兰聊个球
2026-07-03 22:29:01
台海方向深夜突发重大变化,凌晨时分沿海多地出现大规模兵力调动

台海方向深夜突发重大变化,凌晨时分沿海多地出现大规模兵力调动

小马姨
2026-07-02 16:22:49
网传金教授翻车了,专家还是专家吗?

网传金教授翻车了,专家还是专家吗?

慧翔百科
2026-07-03 12:27:27
妻子打断婆婆4根肋骨,男子承认妻子多次动手但情有可原:母亲找了新老伴不带娃,要么就给钱补贴;姐姐:母亲苦了一辈子,支持她的决定

妻子打断婆婆4根肋骨,男子承认妻子多次动手但情有可原:母亲找了新老伴不带娃,要么就给钱补贴;姐姐:母亲苦了一辈子,支持她的决定

芒果都市
2026-07-03 17:52:13
火箭队传闻:若将杜兰特摆上交易货架,活塞队将是首个追求的球队

火箭队传闻:若将杜兰特摆上交易货架,活塞队将是首个追求的球队

好火子
2026-07-04 03:31:31
从KK园到三佛塔,东南亚的电诈为什么打不绝?

从KK园到三佛塔,东南亚的电诈为什么打不绝?

看看新闻Knews
2026-07-02 17:03:08
菲律宾政坛大变天!捅了马蜂窝的马科斯,突然对中国低头表态

菲律宾政坛大变天!捅了马蜂窝的马科斯,突然对中国低头表态

流史岁月
2026-07-02 14:40:06
阿尔及利亚输球后,韩媒幸灾乐祸,发文称:这是“洪明甫的诅咒”

阿尔及利亚输球后,韩媒幸灾乐祸,发文称:这是“洪明甫的诅咒”

看晓天下事
2026-07-03 17:23:23
官媒终于出手!韩红风波再升级, 出言暗讽仅是皮毛, 丑闻接连曝光

官媒终于出手!韩红风波再升级, 出言暗讽仅是皮毛, 丑闻接连曝光

曹莽看世界
2026-07-01 13:45:48
耗资2519万!修135公里隔离网,随后又连夜拆除,谁该为此买单?

耗资2519万!修135公里隔离网,随后又连夜拆除,谁该为此买单?

谭谈社会
2026-07-03 18:20:48
伊朗宣布:美以斩首行动彻底破产!

伊朗宣布:美以斩首行动彻底破产!

微评社
2026-07-03 20:07:55
热议男篮19分不敌日本:媒体吐槽看完一肚子火 球迷高呼郭士强下课

热议男篮19分不敌日本:媒体吐槽看完一肚子火 球迷高呼郭士强下课

狼叔评论
2026-07-03 21:54:14
中央网信办开展“清朗・网络娱乐团播乱象整治”专项行动

中央网信办开展“清朗・网络娱乐团播乱象整治”专项行动

界面新闻
2026-07-03 09:05:20
河南女孩高考699分接到清华电话,浙江女子连续12年资助她上学,受助学生达354人次

河南女孩高考699分接到清华电话,浙江女子连续12年资助她上学,受助学生达354人次

极目新闻
2026-07-03 18:09:32
韩国足协发布致歉信,就世界杯糟糕战绩向球迷道歉

韩国足协发布致歉信,就世界杯糟糕战绩向球迷道歉

懂球帝
2026-07-03 21:18:15
2026-07-04 03:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13427文章数 142686关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

美媒询问中方是否接受霍尔木兹海峡收费 外交部回应

头条要闻

美媒询问中方是否接受霍尔木兹海峡收费 外交部回应

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

教育
房产
旅游
公开课
军事航空

教育要闻

广东19市中考作文题最像高考,你会写吗?范文来喽!

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

旅游要闻

有游客攀爬珠峰古堡遗址打卡拍照,目击者:提醒他们有警示牌,对方没理会

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄大使馆遇袭 2年多遭袭击次数已超25次

无障碍浏览 进入关怀版