OpenAI IMO金牌团队爆料：AI拒绝作答第六题|数学|算法|imo|人工智能|希尔伯特|openai

OpenAI IMO金牌团队爆料：AI拒绝作答第六题

2025-08-04 14:47:46　来源: 机器之心Pro

北京举报

分享至

机器之心报道

编辑：张倩

让 OpenAI 拿到 IMO 金牌的模型，背后居然只有三个核心开发者？这是 OpenAI IMO 团队最近接受媒体采访披露的信息。

这三个人分别是：项目负责人 Alexander Wei、研究工程师 Sheryl Hsu 和高级研究科学家 Noam Brown。其中，Sheryl Hsu 直到今年 3 月才入职。

他们还透露，这个项目是用两三个月的时间突击赶出来的，结果令所有人都很意外。

大型语言模型在 IMO 中拿到金牌被视为一个重要的里程碑，不仅意味着模型数学能力的增强，还体现了其在处理难以验证任务的通用技术上的进步。

那么，这个模型背后有哪些值得关注的点？该团队下一步有什么计划？我们一起来看一下采访内容。

视频链接：https://www.youtube.com/watch?v=EEIPtofVe2Q

1、项目是什么时候启动的？

赢得 IMO 金牌一直是 AI 领域，尤其是 OpenAI 内部，一个长期追求的目标，相关的讨论最早可以追溯到 2021 年。

尽管相关的强化学习算法和底层思路已经酝酿了大约六个月，但真正为了这次突破而进行的集中攻关，实际上只在 IMO 竞赛前的两三个月才开始。

2、项目团队有多大？

核心团队仅由 Alex、Cheryl 和 Noam 三人组成，其中 Alex 负责主要的技术开发。Alex 最初提出这项新技术时也曾面临质疑，但随着他展示出强有力的证据，尤其是在处理那些「难以验证的任务」上取得了显著的进步后，他的方案逐渐赢得了团队和公司的支持。

3、模型的证明风格是怎样的？

团队坦诚地描述，AI 模型生成的数学证明在风格上非常独特，甚至可以说是「atrocious」（糟糕的）或「creative」（有创意的）。这些证明充满了机器的逻辑，对于人类来说很难读懂。但为了透明起见，OpenAI 并没有为人类的可读性进行优化，而是将这些由 AI 生成的、最原始的证明直接发布在了 GitHub 上，供全世界查阅。

4、模型在「第六题」上失分，说明了什么？

IMO 的第三题或第六题是传统上最困难的题。模型在面对第六题时，最终选择「不作答」。但团队并未将此视为失败，反而认为这是一个非常积极的信号。这说明它清楚地知道自己能力的边界，在无法解决问题时选择了放弃，而不是像过去的 AI 模型那样，会「一本正经地胡说八道」（hallucinating），编造一个错误的答案。如果模型选择编造，人类要非常仔细地检查才能发现。

Alex 分析说，像第六题这样的组合数学问题对 AI 来说尤其困难，因为它们更抽象、维度更高，需要「信念的飞跃或洞察力的闪现」，而这正是当前 AI 的弱项。AI 更擅长通过大量、微小的、连续的步骤来解决问题。

5、我们离解决「千禧年大奖难题」还有多远？

当被问及 AI 是否能在明年解决「千禧年大奖难题」时，Alex 明确表示，这些难题仍然「非常遥远」。他通过一个量化的对比来阐述这个差距：AI 解决问题的能力从处理只需几秒钟的小学数学题（GSM8K），跃升到了能解决顶尖人类学生平均需要一个半小时的 IMO 难题。然而，真正的研究级数学可能需要这些天才成长为研究员后，花费 1500 个小时才能取得突破。而千禧年大奖难题的难度则更高，它们耗费了整个领域学者们一生的思考时间，但进展甚微。因此，团队一方面为已取得的进展感到非常兴奋，另一方面也对未来的挑战感到「谦卑」，因为从解决一个半小时的问题到攻克需要数万甚至数十万小时人类思考时间的难题，还有极其漫长的路要走。

注：千禧年大奖难题是七条由美国的克雷数学研究所于 2000 年公布的数学难题，解题总奖金 700 万美元。这些难题旨在呼应 1900 年德国数学家大卫・希尔伯特在巴黎提出的 23 个历史性数学难题。而千禧年大奖难题的破解，极有可能为密码学、航天、通讯等领域带来突破性进展。迄今为止，在七条问题中，庞加莱猜想是唯一已解决的，而其它六道难题（包括黎曼猜想、P vs NP 问题、纳维 - 斯托克斯方程、杨 - 米尔斯理论、霍奇猜想和 BSD 猜想）仍有待研究者探索。

6、让模型思考更长时间存在哪些挑战？

Noam 指出，当模型「思考」的时间变得非常长时（比如 1500 小时），评估（evaluation）本身就成了一个巨大的瓶颈。运行一个需要模型思考一个月的测试，就需要花费一个月的时间才能看到结果。这会极大地拖慢研究迭代的速度。目前，思考 1.5 小时还是可控的，但未来这将是必须解决的难题。

7、multi-agents 系统在这个项目中扮演了什么角色？

据 Noam Brown 介绍，除了让模型能长时间思考并处理难以验证的任务外，项目还涉及「扩展并行计算」（scaling up parallel compute），而这其中就包含了多智能体的部分，不过他表示无法透露过多具体的技术细节，但这确实是他们用来扩展模型在测试时计算能力的一种方式。

紧接着，Noam 强调，在应用这些技术时，团队非常优先考虑「通用性」（generality）。他将此与过去的项目做对比，例如他曾研究过的扑克 AI 以及和 Alex 共同参与过的《外交》游戏 AI（Cicero 项目）。虽然那些项目成果斐然，但它们都属于耗费数年时间开发的、只能完成单一任务的「定制系统」。在人工智能飞速发展的今天，花费大量时间构建这样的专用系统已不是最佳选择。因此，团队在此次研究中有意识地优先采用了通用技术。最终，无论是用于扩展思考时间、处理难验证任务，还是用于并行计算的技术，全都是通用的，团队计划或已经将这些技术应用于其他系统，以全面提升模型的推理能力。

8、为什么不使用 Lean（一种形式化证明工具）？

团队解释说，Lean 对于数学家来说是一个有价值的工具，但它有其局限性。OpenAI 的首要任务是发展「通用的推理能力」，而可以被自然语言方法处理的现实世界问题，远比可以被严格形式化的要多。因此他们选择优先发展自然语言推理。

不过，Noam Brown 也强调：「我不认为专用 AI 有什么问题」。他认为，专用 AI 可以非常高效，并且在特定领域显然能够远远超越通用 AI 。通用 AI 与专用系统（如形式化验证工具 Lean）的关系并非二选一，人类数学家也会发现并使用 Lean 这类专用工具来获取价值。因此，他认为通用 AI 与更专注于特定领域的专用系统是兼容的，并且相信两者的结合会因为互补而变得更强大。

9、这个项目用到的基础设施是什么样的？

Cheryl 证实，这个项目是在与其他近期发布的 OpenAI 产品非常相似的基础设施上构建的。这再次印证了其方法的通用性，没有任何东西是专门为 IMO「定制」的。团队的期望是，这些由 Alex 开发出的、关于处理不可验证任务和扩展计算时间的技术，能够被应用于推理的其他领域，从而持续改进 ChatGPT 等所有模型。

10、「提出问题」将成为 AI 面临的新挑战？

主持人提到，「提出有趣的问题」本身就是最难的事情。团队成员表示认同，并认为让模型学会提出新颖的、有价值的问题（例如创造一个 IMO 级别的新题目），是继解决问题之后，AI 需要克服的下一个巨大障碍。

11、物理奥赛题是不是比数学更难？

Alex 表示，物理奥赛「绝对更难」，因为它包含了一个需要动手操作的「实验部分」，这需要先解决机器人技术领域的难题。

12、模型未来会开放给大家使用吗？

团队表示希望将其提供给数学家使用，但如何实现的具体细节仍在研究中。他们非常期待看到数学家们能用这个强大的新工具来挑战哪些难题。

Noam 分享了一个持续了一年的故事。一位斯坦福大学的数学教授会定期发邮件，用一个非常难的问题来测试 OpenAI 的最新模型。虽然最新的 IMO 模型依然无法解决这个问题，但它首次明确地「认识到自己无法解决」，这被认为是一个重要的进步。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.