全文 4,000字 | 阅读约 13 分钟
(红杉资本专访 OpenAI IMO金牌团队精彩片段)
7 月 30 日,硅谷。
在红杉资本的播客现场,OpenAI IMO 团队的三位成员——研究科学家 Alex Wei、研究工程师 Sheryl Hsu 与研究科学家 Noam Brown 讲述了一个听起来几乎不真实的故事:
只用了 3 个人、60 天,他们在一场数学竞赛中创造了 AI 推理史上的转折点。
OpenAI 模型,在 2025 年国际数学奥林匹克(IMO)中,解出 5 道竞赛难题,用整整 100 分钟的“深思(DeepThinking)”,拿下官方金牌线成绩(35/总分42 分),首次挺进奥数最前沿。
但最震撼的,并不是它赢了。
而是——它没有解出第 6 题。
Alex 回忆说:“我们投入了大量计算资源,但它最后写下了‘我不知道’。”
这不是失败,而是一次选择。AI 第一次拒绝“胡编”答案,坦然承认:它解不出这道题。
这句“无答案”,与《华尔街日报》在几天前的报道形成呼应:Problem 6 是人类选手仍有压倒性优势的堡垒,连 Google DeepMind 的 Gemini 和 OpenAI 的其他推理模型也被同一道题“卡住”。
模型的胜利,在于它不再只为给出回答而回答。 它开始有了“边界感”、知道何时该沉默。
而这场关于「百分钟推理 × 自我认知 × 多智能体协作」的深度对话,不只是一次技术突破复盘,更像是一次智能本质的重新定义。
为什么从 0.1 分钟到 100 分钟的推理跃迁,是模型进化的临界点?
为什么 AI 说出“我不知道”,反而代表它真的开始“思考”?
又为什么红杉资本认为,这场奥数之战是 AGI 路上的关键信号?
接下来的四节内容,我们将根据这场完整对话实录,还原 OpenAI 奥赛团队如何用三个人的努力,重写了 AI 推理的上限边界。
第一节|从小学题到奥数金牌,GPT 怎么做到的?
“几年前,这些模型连小学数学都搞不定。”Alex Wei 说。
Noam Brown 也记得:“2024 年的时候,大家还在用 GSM8K 给模型出题。那是小学应用题,三四年级的水平。”
而今天,OpenAI 的模型已经在国际数学奥林匹克(IMO)中,攻克了 5 道难题,达到了金牌水平。
这不是进步——是飞跃。两年来,它总共实现了三次这样的大跨越。
最早是 GSM8K(小学数学题库)。这个数据集考的是加减乘除、简单应用题,模型通常用几秒钟算出结果。
接下来是 MATH(竞赛数学题库),比 GSM8K 难一些,靠的是模式识别和基本符号运算。 很快,大家的注意力转向了 AMC(美国数学竞赛)、USAMO(美国奥数预赛),再到这次的 IMO 决赛。
“几乎每次新模型发布,就会突破一个数学基准。” Noam 说。 “我们不是换了模型,而是让它能‘多想一会儿’。”Alex 补充。
这次 OpenAI 的模型,每道题平均花了 20 分钟,总共运行了 整整 100 分钟。这个时间长度,是 GPT 系列第一次具备“持续思考能力”。
Alex 说:以前的模型思考时间是 0.1 分钟,十几秒;这次是 100 分钟。你可以把它想成,从一个‘快答题’的学生,变成一个‘能坐住认真做题’的人。
除了时间拉长,思考方式也变了。
旧模型会稍微引导一下,顺着就能写出解法。现在的系统,会尝试自己一步步分析题目,在过程中不断检查是否合理。
Noam 描述得很清晰:“现在它在想事情的方式上,已经不像个语言模型了,反而像个真正的‘做题家’。”
Sheryl 补充:“它有时解题风格很奇怪,像外星语言,但答案是对的。你会感觉它在真正推理,而不是套模板。”
但这背后,并没有什么“绝招”。
Alex 表示:我们没有发明新的公式,也没有喂它奥数秘籍。我们只是让它有更多时间去推理,并且设计了一些方法帮它维持住注意力。
换句话说,OpenAI 并不是用更大的模型蛮力解决,而是教会它怎么“多想一会儿,别急着写答案”。
而这,恰恰是人类考试中最基本、也最难学的能力。
接下来,模型是怎么在“没改架构”的情况下,完成这样的认知进化? 它又是怎么在短短两个月内,把推理能力提上金牌线?
这背后,是一个出人意料的故事:三个人、一个工具系统、一次“从不被看好”的冲刺计划。
第二节|三人小队,两个月造出“会思考”的 AI
这场金牌突破,没有一支庞大的工程团队。
OpenAI 的 Alex Wei 说:“核心就我们三个。” Sheryl 补了一句:“其实是 Alex 一直在研究这个方向,我和 Noam 后来加入,是在模型越来越接近目标之后。”
三个人,花了两个月,就让模型达到了IMO金牌水平
但这背后,他们不是靠“更多题”或者“更复杂的模型”,而是找到了一种让模型想得更久、更稳的方式。
01|不是“换脑子”,而是“延长思考时间”
Noam 说得很清楚:
我们发现一个关键问题是,模型能不能思考更久。
以前的模型,遇到难题会很快放弃,或者给出一个看似合理但其实是错的答案。
Alex 想测试:如果我们把思考时间从十几秒,拉长到几十分钟,甚至几个小时,会发生什么?
结果证明:模型不是不会做题,而是“时间不够”。
他们的第一个方法,就是约束模型——不让它太快写答案,而是先拆问题、反复尝试、一步步算清楚。
Alex 说:我们没做太多花哨的事,核心就是让模型多想一会儿,别急着结束。
02|多智能体协作:让模型“跟自己讨论”
不过,延长时间带来的一个挑战是——模型会走神。
思考几十分钟,不是像人那样坐着发呆,而是要模型保持专注,别绕偏了。
为了解决这个问题,他们用了一个聪明的办法:让模型创建多个'分身',互相检查和讨论。
Sheryl 解释道:
“你可以理解成我们让模型自问自答,自我辩论,有时候还自己复查自己的过程。”
Noam 提到,他们的系统涉及扩展并行计算,其中包含多智能体组件。虽然底层很复杂,但逻辑不难懂:不是让一个模型死磕,而是让它模拟多个"头脑",一起思考。
这个结构,在对付难以验证对错的题目时特别有用。
IMO 这种题目,答案是确定的,但证明过程复杂,需要严密的逻辑推理。多个模型相互验证、讨论,比单个模型单打独斗更能确保逻辑的完整性。
03|为什么不选 Lean?因为目标是“通用推理”
很多人以为,这种题是不是该用 Lean 这样的“正式数学工具”来辅助模型。
Alex直接回应了这个问题:
“Lean 有价值,但我们关注的不是形式证明,而是让模型像人类一样理解问题、用自然语言解题。”
Noam 补充说:“我们追的是通用能力,而不是一个专门为奥数设计的系统。”
也就是说,他们不是为了 IMO 去造一个擅长考试的机器人,而是反过来——用 IMO 当作一个测试场,检验模型在真正难题面前的“思考能力”有没有进化。
而这个策略,后来被 OpenAI 内部广泛认可。Sheryl 透露:
“我们用的基础设施,和其他 OpenAI 产品是一样的。这不是孤立项目。”
换句话说,这套“长时间思考 + 多角色讨论”的方式,不是为了一场比赛而生的,而是正在变成 OpenAI 系统训练的通用部件。
在短短两个月里,Alex 带着这个想法开始测试,Sheryl 和 Noam 加入打磨细节。他们没有大张旗鼓,没有调动庞大团队,仅凭几个人、一些算力,加上一套清晰的训练方法。
最终,这个模型达到了两年前不敢想象的高度——当时它连小学数学都搞不定。
第三节|AI 第一次说“不知道”:边界感从哪来?
从左往右依次是红杉合伙人Sonya Huang、Alex Wei、Sheryl Hsu和Noam Brown
比赛当天,OpenAI 的模型顺利地解出了前五题。
但当团队把第 6 题输入进去,模型却“退缩”了。
Alex 说:“我们投入了大量计算资源,它试着解这道题,但最后什么也没写,只说了一句:‘无答案’。”
模型本可以像以往一样瞎写点什么,但这一次它选择了停下来。
不再编答案,而是主动说“不知道”
Noam 回忆:“这在以前是看不到的,以前的模型面对解不出的问题,也会写出一个看起来像真的答案。很多教授跟我反馈说,他们问模型问题时,最怕的就是——它回答得特别有自信,但其实是错的。”
但是,现在这个模型的改变是,它更愿意承认自己“无知”了。
听起来像是退了一步,实际上是迈进了一步。
Alex 说:“你知道它做了很多尝试,最后选择不写,这是值得尊重的。”
关于第6题,虽然得了0分,但模型展现出的自知之明让 OpenAI 团队感到特别欣慰——它知道什么时候该承认'我不会'。
为什么第 6 题没人能解?
这道题是 IMO 的传统压轴题,题型是组合数学,非常抽象。
Alex 解释:“给我几个月时间,甚至给我解题思路的提示,我也不确定能解出来。”
难的地方不只是计算,而是思路很窄、有太多误导方向。
团队观察到,模型尝试了很多方法,一步步推理,但始终无法找到正确路径。
它不是不知道,而是知道“自己不知道”
Alex 在对谈最后说了这样一句话:
以前的模型像个只会说‘我知道’的孩子; 现在它开始说,‘我不知道’,但我试过了。
这不是输出风格的改变,而是智能方向的变化。
模型开始有了"停下来"的能力,知道有些题答不出来时,选择留空交卷也是一种诚实的表现。
正是这种诚实,让 Noam 觉得 AI 变得更值得信任了——它不再假装无所不知。
这样的 AI,才能成为真正值得信赖的合作者。
第四节|金牌之后,AI 会走向科研吗?
OpenAI 的团队很清楚,这次夺金只是个开始。
Alex 说:“Putnam(美国大学生数学竞赛) 的题目更短、更知识型,模型反而做得比 IMO 还好。”
他们不是在炫耀模型的考试成绩,而是在观察:这些题,到底像不像真实世界里的“难题”?
Noam 给出判断:“IMO 这种题,还像是竞赛。下一步我们要看的是——模型能不能在科学、工程、理论研究里,持续思考上百小时,甚至几千小时。”
从 100 分钟 → 1500 小时:推理能力正向科研靠近
Alex 在对话中提到:
一个高中生,解 IMO 一道题,平均花 90 分钟。 一个科研人员,证明一个定理,可能要 1500 小时。
也就是说,我们现在的模型,还停留在人类‘学生’的阶段。
但这已经是巨大的进步。
他们用 IMO 来测试模型,是因为虽然它有明确答案,但验证过程很复杂,更接近'真实问题'的推理方式。
而当模型具备了“长时间思考 + 多角度尝试 + 适时停止”这些能力,它就开始接近人类研究者的状态。
Noam 点出关键:“我们不是要它‘学会考试’,而是要它学会怎么面对一个不知道答案的问题。”
技术通用性:不只是数学,在其他领域也能用
这套训练方法并不是为奥数定制的,而是正在被迁移到更多领域。
Sheryl 说:“我们已经在尝试将它应用在代码生成、科学研究、智能助手等任务上。”
数学,只是第一站。
下一站,是更复杂、更模糊的现实问题。
红杉的判断:这不是项目,而是转折点
在这场播客里,红杉资本并没有花太多时间赞美模型拿金牌。
他们关心的是另一个问题:这次“百分钟推理”的方法,是否标志着 AGI 进入了新阶段?
Noam 回答:
以前的 AI 在不会的题上表现得像是作弊; 这次,模型开始展示出‘可信任的推理链’。
而这种可信任,是训练方法变了,不再是追求快速输出或表面功夫,而是强调 “真正做题”的能力。
现在的问题不再是怎么让它答题,而是我们人类怎么找到真正值得模型花几百小时去思考的任务。
IMO 金牌不是终点,而是一个新起点:
当 AI 不再追求"答对",而是投入到"认真做"的过程里,它能解决什么样的新问题?
如果数学只是一个起点,未来的重点,会不会转向真正没人知道答案的科学难题?
甚至——模型有没有可能自己发现这些问题?
这些话题,团队还没给出答案。
但 Noam 留下一句话,作为结束也作为开端:
“我们已经过了模型不会思考的阶段。现在的问题是:人类愿意把 AI 当作思考伙伴吗?”
结语|当AI 说“不知道”时,人类得重新思考什么是聪明
这次 OpenAI 模型拿下奥数金牌,值得被记住的,或许不是它解出了多少题,而是它有一次没写答案。
不是故障,不是跳过,而是:它试过了,然后停下了。
Alex 说:“我更喜欢这个结果。它不是放弃,而是诚实。”
人类很多时候用“会不会答题”来衡量聪明,但 AI 正在提示我们:真正的智能,可能从知道“何时该保持沉默”开始。
从“能答”到“会想”,再到“知道哪里不能乱答”—— 这场对话,不只是一次模型展示,更像一次提醒:
我们正在和一种会思考、有耐心、懂取舍的智能打交道了。
问题是:
当它越来越像一个可信的合作者,我们,准备好平等对话了吗?
本文由AI深度研究院出品,翻译整理自红杉资本访谈 OpenAI IMO 金牌团队的对话记录。未经授权,不得转载。
星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标
参考资料:
https://www.youtube.com/watch?v=EEIPtofVe2Q&ab_channel=SequoiaCapital
https://www.wsj.com/tech/ai/imo-gold-math-olympiad-google-deepmind-openai-2450095e?utm_source=chatgpt.com
https://interestingengineering.com/innovation/google-and-openai-beat-the-worlds-best-mathematical-minds?utm_source=chatgpt.com
https://interestingengineering.com/innovation/google-and-openai-beat-the-worlds-best-mathematical-minds?utm_source=chatgpt.com
来源:官方媒体/网络新闻
排版:Atlas
编辑:深思
主编: 图灵
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.