红杉资本对话｜OpenAI 奥赛团队：AI 凭百分钟推理夺金，却在第 6 题坦言“不知道”|谷歌|数学|知名企业|openai|deepmind

分享至

全文 4,000字 | 阅读约 13 分钟

(红杉资本专访 OpenAI IMO金牌团队精彩片段)

7 月 30 日，硅谷。

在红杉资本的播客现场，OpenAI IMO 团队的三位成员——研究科学家 Alex Wei、研究工程师 Sheryl Hsu 与研究科学家 Noam Brown 讲述了一个听起来几乎不真实的故事：

只用了 3 个人、60 天，他们在一场数学竞赛中创造了 AI 推理史上的转折点。

OpenAI 模型，在 2025 年国际数学奥林匹克（IMO）中，解出 5 道竞赛难题，用整整 100 分钟的“深思（DeepThinking）”，拿下官方金牌线成绩（35/总分42 分），首次挺进奥数最前沿。

但最震撼的，并不是它赢了。

而是——它没有解出第 6 题。

Alex 回忆说：“我们投入了大量计算资源，但它最后写下了‘我不知道’。”

这不是失败，而是一次选择。AI 第一次拒绝“胡编”答案，坦然承认：它解不出这道题。

这句“无答案”，与《华尔街日报》在几天前的报道形成呼应：Problem 6 是人类选手仍有压倒性优势的堡垒，连 Google DeepMind 的 Gemini 和 OpenAI 的其他推理模型也被同一道题“卡住”。

模型的胜利，在于它不再只为给出回答而回答。它开始有了“边界感”、知道何时该沉默。

而这场关于「百分钟推理 × 自我认知 × 多智能体协作」的深度对话，不只是一次技术突破复盘，更像是一次智能本质的重新定义。

为什么从 0.1 分钟到 100 分钟的推理跃迁，是模型进化的临界点？
为什么 AI 说出“我不知道”，反而代表它真的开始“思考”？
又为什么红杉资本认为，这场奥数之战是 AGI 路上的关键信号？

接下来的四节内容，我们将根据这场完整对话实录，还原 OpenAI 奥赛团队如何用三个人的努力，重写了 AI 推理的上限边界。

第一节｜从小学题到奥数金牌，GPT 怎么做到的？

“几年前，这些模型连小学数学都搞不定。”Alex Wei 说。

Noam Brown 也记得：“2024 年的时候，大家还在用 GSM8K 给模型出题。那是小学应用题，三四年级的水平。”

而今天，OpenAI 的模型已经在国际数学奥林匹克（IMO）中，攻克了 5 道难题，达到了金牌水平。

这不是进步——是飞跃。两年来，它总共实现了三次这样的大跨越。

最早是 GSM8K（小学数学题库）。这个数据集考的是加减乘除、简单应用题，模型通常用几秒钟算出结果。

接下来是 MATH（竞赛数学题库），比 GSM8K 难一些，靠的是模式识别和基本符号运算。很快，大家的注意力转向了 AMC（美国数学竞赛）、USAMO（美国奥数预赛），再到这次的 IMO 决赛。

“几乎每次新模型发布，就会突破一个数学基准。” Noam 说。 “我们不是换了模型，而是让它能‘多想一会儿’。”Alex 补充。

这次 OpenAI 的模型，每道题平均花了 20 分钟，总共运行了整整 100 分钟。这个时间长度，是 GPT 系列第一次具备“持续思考能力”。

Alex 说：以前的模型思考时间是 0.1 分钟，十几秒；这次是 100 分钟。你可以把它想成，从一个‘快答题’的学生，变成一个‘能坐住认真做题’的人。

除了时间拉长，思考方式也变了。

旧模型会稍微引导一下，顺着就能写出解法。现在的系统，会尝试自己一步步分析题目，在过程中不断检查是否合理。

Noam 描述得很清晰：“现在它在想事情的方式上，已经不像个语言模型了，反而像个真正的‘做题家’。”

Sheryl 补充：“它有时解题风格很奇怪，像外星语言，但答案是对的。你会感觉它在真正推理，而不是套模板。”

但这背后，并没有什么“绝招”。

Alex 表示：我们没有发明新的公式，也没有喂它奥数秘籍。我们只是让它有更多时间去推理，并且设计了一些方法帮它维持住注意力。

换句话说，OpenAI 并不是用更大的模型蛮力解决，而是教会它怎么“多想一会儿，别急着写答案”。

而这，恰恰是人类考试中最基本、也最难学的能力。

接下来，模型是怎么在“没改架构”的情况下，完成这样的认知进化？它又是怎么在短短两个月内，把推理能力提上金牌线？

这背后，是一个出人意料的故事：三个人、一个工具系统、一次“从不被看好”的冲刺计划。

第二节｜三人小队，两个月造出“会思考”的 AI

这场金牌突破，没有一支庞大的工程团队。

OpenAI 的 Alex Wei 说：“核心就我们三个。” Sheryl 补了一句：“其实是 Alex 一直在研究这个方向，我和 Noam 后来加入，是在模型越来越接近目标之后。”

三个人，花了两个月，就让模型达到了IMO金牌水平

但这背后，他们不是靠“更多题”或者“更复杂的模型”，而是找到了一种让模型想得更久、更稳的方式。

01｜不是“换脑子”，而是“延长思考时间”

Noam 说得很清楚：

我们发现一个关键问题是，模型能不能思考更久。

以前的模型，遇到难题会很快放弃，或者给出一个看似合理但其实是错的答案。

Alex 想测试：如果我们把思考时间从十几秒，拉长到几十分钟，甚至几个小时，会发生什么？

结果证明：模型不是不会做题，而是“时间不够”。

他们的第一个方法，就是约束模型——不让它太快写答案，而是先拆问题、反复尝试、一步步算清楚。

Alex 说：我们没做太多花哨的事，核心就是让模型多想一会儿，别急着结束。

02｜多智能体协作：让模型“跟自己讨论”

不过，延长时间带来的一个挑战是——模型会走神。

思考几十分钟，不是像人那样坐着发呆，而是要模型保持专注，别绕偏了。

为了解决这个问题，他们用了一个聪明的办法：让模型创建多个'分身'，互相检查和讨论。

Sheryl 解释道：

“你可以理解成我们让模型自问自答，自我辩论，有时候还自己复查自己的过程。”

Noam 提到，他们的系统涉及扩展并行计算，其中包含多智能体组件。虽然底层很复杂，但逻辑不难懂：不是让一个模型死磕，而是让它模拟多个"头脑"，一起思考。

这个结构，在对付难以验证对错的题目时特别有用。

IMO 这种题目，答案是确定的，但证明过程复杂，需要严密的逻辑推理。多个模型相互验证、讨论，比单个模型单打独斗更能确保逻辑的完整性。

03｜为什么不选 Lean？因为目标是“通用推理”

很多人以为，这种题是不是该用 Lean 这样的“正式数学工具”来辅助模型。

Alex直接回应了这个问题：

“Lean 有价值，但我们关注的不是形式证明，而是让模型像人类一样理解问题、用自然语言解题。”

Noam 补充说：“我们追的是通用能力，而不是一个专门为奥数设计的系统。”

也就是说，他们不是为了 IMO 去造一个擅长考试的机器人，而是反过来——用 IMO 当作一个测试场，检验模型在真正难题面前的“思考能力”有没有进化。

而这个策略，后来被 OpenAI 内部广泛认可。Sheryl 透露：

“我们用的基础设施，和其他 OpenAI 产品是一样的。这不是孤立项目。”

换句话说，这套“长时间思考 + 多角色讨论”的方式，不是为了一场比赛而生的，而是正在变成 OpenAI 系统训练的通用部件。

在短短两个月里，Alex 带着这个想法开始测试，Sheryl 和 Noam 加入打磨细节。他们没有大张旗鼓，没有调动庞大团队，仅凭几个人、一些算力，加上一套清晰的训练方法。

最终，这个模型达到了两年前不敢想象的高度——当时它连小学数学都搞不定。

第三节｜AI 第一次说“不知道”：边界感从哪来？

从左往右依次是红杉合伙人Sonya Huang、Alex Wei、Sheryl Hsu和Noam Brown

比赛当天，OpenAI 的模型顺利地解出了前五题。

但当团队把第 6 题输入进去，模型却“退缩”了。

Alex 说：“我们投入了大量计算资源，它试着解这道题，但最后什么也没写，只说了一句：‘无答案’。”

模型本可以像以往一样瞎写点什么，但这一次它选择了停下来。

不再编答案，而是主动说“不知道”

Noam 回忆：“这在以前是看不到的，以前的模型面对解不出的问题，也会写出一个看起来像真的答案。很多教授跟我反馈说，他们问模型问题时，最怕的就是——它回答得特别有自信，但其实是错的。”

但是，现在这个模型的改变是，它更愿意承认自己“无知”了。

听起来像是退了一步，实际上是迈进了一步。

Alex 说：“你知道它做了很多尝试，最后选择不写，这是值得尊重的。”

关于第6题，虽然得了0分，但模型展现出的自知之明让 OpenAI 团队感到特别欣慰——它知道什么时候该承认'我不会'。

为什么第 6 题没人能解？

这道题是 IMO 的传统压轴题，题型是组合数学，非常抽象。

Alex 解释：“给我几个月时间，甚至给我解题思路的提示，我也不确定能解出来。”

难的地方不只是计算，而是思路很窄、有太多误导方向。

团队观察到，模型尝试了很多方法，一步步推理，但始终无法找到正确路径。

它不是不知道，而是知道“自己不知道”

Alex 在对谈最后说了这样一句话：

以前的模型像个只会说‘我知道’的孩子；现在它开始说，‘我不知道’，但我试过了。

这不是输出风格的改变，而是智能方向的变化。

模型开始有了"停下来"的能力，知道有些题答不出来时，选择留空交卷也是一种诚实的表现。

正是这种诚实，让 Noam 觉得 AI 变得更值得信任了——它不再假装无所不知。

这样的 AI，才能成为真正值得信赖的合作者。

第四节｜金牌之后，AI 会走向科研吗？

OpenAI 的团队很清楚，这次夺金只是个开始。

Alex 说：“Putnam（美国大学生数学竞赛）的题目更短、更知识型，模型反而做得比 IMO 还好。”

他们不是在炫耀模型的考试成绩，而是在观察：这些题，到底像不像真实世界里的“难题”？

Noam 给出判断：“IMO 这种题，还像是竞赛。下一步我们要看的是——模型能不能在科学、工程、理论研究里，持续思考上百小时，甚至几千小时。”

从 100 分钟 → 1500 小时：推理能力正向科研靠近

Alex 在对话中提到：

一个高中生，解 IMO 一道题，平均花 90 分钟。一个科研人员，证明一个定理，可能要 1500 小时。

也就是说，我们现在的模型，还停留在人类‘学生’的阶段。

但这已经是巨大的进步。

他们用 IMO 来测试模型，是因为虽然它有明确答案，但验证过程很复杂，更接近'真实问题'的推理方式。

而当模型具备了“长时间思考 + 多角度尝试 + 适时停止”这些能力，它就开始接近人类研究者的状态。

Noam 点出关键：“我们不是要它‘学会考试’，而是要它学会怎么面对一个不知道答案的问题。”

技术通用性：不只是数学，在其他领域也能用

这套训练方法并不是为奥数定制的，而是正在被迁移到更多领域。

Sheryl 说：“我们已经在尝试将它应用在代码生成、科学研究、智能助手等任务上。”

数学，只是第一站。

下一站，是更复杂、更模糊的现实问题。

红杉的判断：这不是项目，而是转折点

在这场播客里，红杉资本并没有花太多时间赞美模型拿金牌。

他们关心的是另一个问题：这次“百分钟推理”的方法，是否标志着 AGI 进入了新阶段？

Noam 回答：

以前的 AI 在不会的题上表现得像是作弊；这次，模型开始展示出‘可信任的推理链’。

而这种可信任，是训练方法变了，不再是追求快速输出或表面功夫，而是强调 “真正做题”的能力。

现在的问题不再是怎么让它答题，而是我们人类怎么找到真正值得模型花几百小时去思考的任务。

IMO 金牌不是终点，而是一个新起点：

当 AI 不再追求"答对"，而是投入到"认真做"的过程里，它能解决什么样的新问题？
如果数学只是一个起点，未来的重点，会不会转向真正没人知道答案的科学难题？
甚至——模型有没有可能自己发现这些问题？

这些话题，团队还没给出答案。

但 Noam 留下一句话，作为结束也作为开端：

“我们已经过了模型不会思考的阶段。现在的问题是：人类愿意把 AI 当作思考伙伴吗？”

结语｜当AI 说“不知道”时，人类得重新思考什么是聪明

这次 OpenAI 模型拿下奥数金牌，值得被记住的，或许不是它解出了多少题，而是它有一次没写答案。

不是故障，不是跳过，而是：它试过了，然后停下了。

Alex 说：“我更喜欢这个结果。它不是放弃，而是诚实。”

人类很多时候用“会不会答题”来衡量聪明，但 AI 正在提示我们：真正的智能，可能从知道“何时该保持沉默”开始。

从“能答”到“会想”，再到“知道哪里不能乱答”—— 这场对话，不只是一次模型展示，更像一次提醒：

我们正在和一种会思考、有耐心、懂取舍的智能打交道了。

问题是：

当它越来越像一个可信的合作者，我们，准备好平等对话了吗？

本文由AI深度研究院出品，翻译整理自红杉资本访谈 OpenAI IMO 金牌团队的对话记录。未经授权，不得转载。

星标公众号，点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料：

https://www.youtube.com/watch?v=EEIPtofVe2Q&ab_channel=SequoiaCapital

https://www.wsj.com/tech/ai/imo-gold-math-olympiad-google-deepmind-openai-2450095e?utm_source=chatgpt.com

https://interestingengineering.com/innovation/google-and-openai-beat-the-worlds-best-mathematical-minds?utm_source=chatgpt.com

来源：官方媒体/网络新闻

排版：Atlas

编辑：深思

主编: 图灵

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

红杉资本对话｜OpenAI 奥赛团队：AI 凭百分钟推理夺金，却在第 6 题坦言“不知道”

遭中国学界"拉黑"后，这家AI顶会低头道歉

伊朗称美以袭击"黄饼"生产厂 伊朗疑摧毁美数架加油机

伊朗称美以袭击"黄饼"生产厂 伊朗疑摧毁美数架加油机

邵佳一：足球就像一场马拉松

范玮琪加盟，官宣《浪姐7》遭全网抵制

我在小吃培训机构学习“科技与狠活”

与众08，金标大众不能输的一战

态度原创

曲线华尔兹 现代简约

中科大少年班男生课堂上扔水杯，厅长教授机智应对

三星电子公布消费级固态硬盘BM9K1，高性能PCIe Gen5 QLC产品

推广中奖名单-更新至2026年3月11日推广

华国锋与耿飚的草书书信，你见过吗？气势恢宏引发热议！

红杉资本对话｜OpenAI 奥赛团队：AI 凭百分钟推理夺金，却在第 6 题坦言“不知道”

伊朗称美以袭击"黄饼"生产厂伊朗疑摧毁美数架加油机

伊朗称美以袭击"黄饼"生产厂伊朗疑摧毁美数架加油机

曲线华尔兹现代简约