网易首页 > 网易号 > 正文 申请入驻

红杉资本对话|OpenAI 奥赛团队:AI 凭百分钟推理夺金,却在第 6 题坦言“不知道”

0
分享至

全文 4,000字 | 阅读约 13 分钟

(红杉资本专访 OpenAI IMO金牌团队精彩片段)

7 月 30 日,硅谷。

在红杉资本的播客现场,OpenAI IMO 团队的三位成员——研究科学家 Alex Wei、研究工程师 Sheryl Hsu 与研究科学家 Noam Brown 讲述了一个听起来几乎不真实的故事:

只用了 3 个人、60 天,他们在一场数学竞赛中创造了 AI 推理史上的转折点。

OpenAI 模型,在 2025 年国际数学奥林匹克(IMO)中,解出 5 道竞赛难题,用整整 100 分钟的“深思(DeepThinking)”,拿下官方金牌线成绩(35/总分42 分),首次挺进奥数最前沿。

但最震撼的,并不是它赢了。

而是——它没有解出第 6 题。

Alex 回忆说:“我们投入了大量计算资源,但它最后写下了‘我不知道’。”

这不是失败,而是一次选择。AI 第一次拒绝“胡编”答案,坦然承认:它解不出这道题。

这句“无答案”,与《华尔街日报》在几天前的报道形成呼应:Problem 6 是人类选手仍有压倒性优势的堡垒,连 Google DeepMind 的 Gemini 和 OpenAI 的其他推理模型也被同一道题“卡住”。

模型的胜利,在于它不再只为给出回答而回答。 它开始有了“边界感”、知道何时该沉默。

而这场关于「百分钟推理 × 自我认知 × 多智能体协作」的深度对话,不只是一次技术突破复盘,更像是一次智能本质的重新定义。

  • 为什么从 0.1 分钟到 100 分钟的推理跃迁,是模型进化的临界点?

  • 为什么 AI 说出“我不知道”,反而代表它真的开始“思考”?

  • 又为什么红杉资本认为,这场奥数之战是 AGI 路上的关键信号?

接下来的四节内容,我们将根据这场完整对话实录,还原 OpenAI 奥赛团队如何用三个人的努力,重写了 AI 推理的上限边界。

第一节|从小学题到奥数金牌,GPT 怎么做到的?

“几年前,这些模型连小学数学都搞不定。”Alex Wei 说。

Noam Brown 也记得:“2024 年的时候,大家还在用 GSM8K 给模型出题。那是小学应用题,三四年级的水平。”

而今天,OpenAI 的模型已经在国际数学奥林匹克(IMO)中,攻克了 5 道难题,达到了金牌水平。

这不是进步——是飞跃。两年来,它总共实现了三次这样的大跨越。

最早是 GSM8K(小学数学题库)。这个数据集考的是加减乘除、简单应用题,模型通常用几秒钟算出结果。

接下来是 MATH(竞赛数学题库),比 GSM8K 难一些,靠的是模式识别和基本符号运算。 很快,大家的注意力转向了 AMC(美国数学竞赛)、USAMO(美国奥数预赛),再到这次的 IMO 决赛。

“几乎每次新模型发布,就会突破一个数学基准。” Noam 说。 “我们不是换了模型,而是让它能‘多想一会儿’。”Alex 补充。

这次 OpenAI 的模型,每道题平均花了 20 分钟,总共运行了 整整 100 分钟。这个时间长度,是 GPT 系列第一次具备“持续思考能力”。

Alex 说:以前的模型思考时间是 0.1 分钟,十几秒;这次是 100 分钟。你可以把它想成,从一个‘快答题’的学生,变成一个‘能坐住认真做题’的人。

除了时间拉长,思考方式也变了。

旧模型会稍微引导一下,顺着就能写出解法。现在的系统,会尝试自己一步步分析题目,在过程中不断检查是否合理。

Noam 描述得很清晰:“现在它在想事情的方式上,已经不像个语言模型了,反而像个真正的‘做题家’。”

Sheryl 补充:“它有时解题风格很奇怪,像外星语言,但答案是对的。你会感觉它在真正推理,而不是套模板。”

但这背后,并没有什么“绝招”。

Alex 表示:我们没有发明新的公式,也没有喂它奥数秘籍。我们只是让它有更多时间去推理,并且设计了一些方法帮它维持住注意力。

换句话说,OpenAI 并不是用更大的模型蛮力解决,而是教会它怎么“多想一会儿,别急着写答案”。

而这,恰恰是人类考试中最基本、也最难学的能力。

接下来,模型是怎么在“没改架构”的情况下,完成这样的认知进化? 它又是怎么在短短两个月内,把推理能力提上金牌线?

这背后,是一个出人意料的故事:三个人、一个工具系统、一次“从不被看好”的冲刺计划。

第二节|三人小队,两个月造出“会思考”的 AI

这场金牌突破,没有一支庞大的工程团队。

OpenAI 的 Alex Wei 说:“核心就我们三个。” Sheryl 补了一句:“其实是 Alex 一直在研究这个方向,我和 Noam 后来加入,是在模型越来越接近目标之后。”

三个人,花了两个月,就让模型达到了IMO金牌水平

但这背后,他们不是靠“更多题”或者“更复杂的模型”,而是找到了一种让模型想得更久、更稳的方式。

01|不是“换脑子”,而是“延长思考时间”

Noam 说得很清楚:

我们发现一个关键问题是,模型能不能思考更久。

以前的模型,遇到难题会很快放弃,或者给出一个看似合理但其实是错的答案。

Alex 想测试:如果我们把思考时间从十几秒,拉长到几十分钟,甚至几个小时,会发生什么?

结果证明:模型不是不会做题,而是“时间不够”。

他们的第一个方法,就是约束模型——不让它太快写答案,而是先拆问题、反复尝试、一步步算清楚。

Alex 说:我们没做太多花哨的事,核心就是让模型多想一会儿,别急着结束。

02|多智能体协作:让模型“跟自己讨论”

不过,延长时间带来的一个挑战是——模型会走神。

思考几十分钟,不是像人那样坐着发呆,而是要模型保持专注,别绕偏了。

为了解决这个问题,他们用了一个聪明的办法:让模型创建多个'分身',互相检查和讨论。

Sheryl 解释道:

“你可以理解成我们让模型自问自答,自我辩论,有时候还自己复查自己的过程。”

Noam 提到,他们的系统涉及扩展并行计算,其中包含多智能体组件。虽然底层很复杂,但逻辑不难懂:不是让一个模型死磕,而是让它模拟多个"头脑",一起思考。

这个结构,在对付难以验证对错的题目时特别有用。

IMO 这种题目,答案是确定的,但证明过程复杂,需要严密的逻辑推理。多个模型相互验证、讨论,比单个模型单打独斗更能确保逻辑的完整性。

03|为什么不选 Lean?因为目标是“通用推理”

很多人以为,这种题是不是该用 Lean 这样的“正式数学工具”来辅助模型。

Alex直接回应了这个问题:

“Lean 有价值,但我们关注的不是形式证明,而是让模型像人类一样理解问题、用自然语言解题。”

Noam 补充说:“我们追的是通用能力,而不是一个专门为奥数设计的系统。”

也就是说,他们不是为了 IMO 去造一个擅长考试的机器人,而是反过来——用 IMO 当作一个测试场,检验模型在真正难题面前的“思考能力”有没有进化。

而这个策略,后来被 OpenAI 内部广泛认可。Sheryl 透露:

“我们用的基础设施,和其他 OpenAI 产品是一样的。这不是孤立项目。”

换句话说,这套“长时间思考 + 多角色讨论”的方式,不是为了一场比赛而生的,而是正在变成 OpenAI 系统训练的通用部件。

在短短两个月里,Alex 带着这个想法开始测试,Sheryl 和 Noam 加入打磨细节。他们没有大张旗鼓,没有调动庞大团队,仅凭几个人、一些算力,加上一套清晰的训练方法。

最终,这个模型达到了两年前不敢想象的高度——当时它连小学数学都搞不定。

第三节|AI 第一次说“不知道”:边界感从哪来?


从左往右依次是红杉合伙人Sonya Huang、Alex Wei、Sheryl Hsu和Noam Brown

比赛当天,OpenAI 的模型顺利地解出了前五题。

但当团队把第 6 题输入进去,模型却“退缩”了。

Alex 说:“我们投入了大量计算资源,它试着解这道题,但最后什么也没写,只说了一句:‘无答案’。”

模型本可以像以往一样瞎写点什么,但这一次它选择了停下来。

不再编答案,而是主动说“不知道”

Noam 回忆:“这在以前是看不到的,以前的模型面对解不出的问题,也会写出一个看起来像真的答案。很多教授跟我反馈说,他们问模型问题时,最怕的就是——它回答得特别有自信,但其实是错的。”

但是,现在这个模型的改变是,它更愿意承认自己“无知”了。

听起来像是退了一步,实际上是迈进了一步。

Alex 说:“你知道它做了很多尝试,最后选择不写,这是值得尊重的。”

关于第6题,虽然得了0分,但模型展现出的自知之明让 OpenAI 团队感到特别欣慰——它知道什么时候该承认'我不会'。

为什么第 6 题没人能解?

这道题是 IMO 的传统压轴题,题型是组合数学,非常抽象。

Alex 解释:“给我几个月时间,甚至给我解题思路的提示,我也不确定能解出来。”

难的地方不只是计算,而是思路很窄、有太多误导方向。

团队观察到,模型尝试了很多方法,一步步推理,但始终无法找到正确路径。

它不是不知道,而是知道“自己不知道”

Alex 在对谈最后说了这样一句话:

以前的模型像个只会说‘我知道’的孩子; 现在它开始说,‘我不知道’,但我试过了。

这不是输出风格的改变,而是智能方向的变化。

模型开始有了"停下来"的能力,知道有些题答不出来时,选择留空交卷也是一种诚实的表现。

正是这种诚实,让 Noam 觉得 AI 变得更值得信任了——它不再假装无所不知。

这样的 AI,才能成为真正值得信赖的合作者。

第四节|金牌之后,AI 会走向科研吗?

OpenAI 的团队很清楚,这次夺金只是个开始。

Alex 说:“Putnam(美国大学生数学竞赛) 的题目更短、更知识型,模型反而做得比 IMO 还好。”

他们不是在炫耀模型的考试成绩,而是在观察:这些题,到底像不像真实世界里的“难题”?

Noam 给出判断:“IMO 这种题,还像是竞赛。下一步我们要看的是——模型能不能在科学、工程、理论研究里,持续思考上百小时,甚至几千小时。”

从 100 分钟 → 1500 小时:推理能力正向科研靠近

Alex 在对话中提到:

一个高中生,解 IMO 一道题,平均花 90 分钟。 一个科研人员,证明一个定理,可能要 1500 小时。

也就是说,我们现在的模型,还停留在人类‘学生’的阶段。

但这已经是巨大的进步。

他们用 IMO 来测试模型,是因为虽然它有明确答案,但验证过程很复杂,更接近'真实问题'的推理方式。

而当模型具备了“长时间思考 + 多角度尝试 + 适时停止”这些能力,它就开始接近人类研究者的状态。

Noam 点出关键:“我们不是要它‘学会考试’,而是要它学会怎么面对一个不知道答案的问题。”

技术通用性:不只是数学,在其他领域也能用

这套训练方法并不是为奥数定制的,而是正在被迁移到更多领域。

Sheryl 说:“我们已经在尝试将它应用在代码生成、科学研究、智能助手等任务上。”

数学,只是第一站。

下一站,是更复杂、更模糊的现实问题。

红杉的判断:这不是项目,而是转折点

在这场播客里,红杉资本并没有花太多时间赞美模型拿金牌。

他们关心的是另一个问题:这次“百分钟推理”的方法,是否标志着 AGI 进入了新阶段?

Noam 回答:

以前的 AI 在不会的题上表现得像是作弊; 这次,模型开始展示出‘可信任的推理链’。

而这种可信任,是训练方法变了,不再是追求快速输出或表面功夫,而是强调 “真正做题”的能力。

现在的问题不再是怎么让它答题,而是我们人类怎么找到真正值得模型花几百小时去思考的任务。

IMO 金牌不是终点,而是一个新起点:

  • 当 AI 不再追求"答对",而是投入到"认真做"的过程里,它能解决什么样的新问题?

  • 如果数学只是一个起点,未来的重点,会不会转向真正没人知道答案的科学难题?

  • 甚至——模型有没有可能自己发现这些问题?

这些话题,团队还没给出答案。

但 Noam 留下一句话,作为结束也作为开端:

“我们已经过了模型不会思考的阶段。现在的问题是:人类愿意把 AI 当作思考伙伴吗?”

结语|当AI 说“不知道”时,人类得重新思考什么是聪明

这次 OpenAI 模型拿下奥数金牌,值得被记住的,或许不是它解出了多少题,而是它有一次没写答案。

不是故障,不是跳过,而是:它试过了,然后停下了。

Alex 说:“我更喜欢这个结果。它不是放弃,而是诚实。”

人类很多时候用“会不会答题”来衡量聪明,但 AI 正在提示我们:真正的智能,可能从知道“何时该保持沉默”开始。

从“能答”到“会想”,再到“知道哪里不能乱答”—— 这场对话,不只是一次模型展示,更像一次提醒:

我们正在和一种会思考、有耐心、懂取舍的智能打交道了。

问题是:

当它越来越像一个可信的合作者,我们,准备好平等对话了吗?

本文由AI深度研究院出品,翻译整理自红杉资本访谈 OpenAI IMO 金牌团队的对话记录。未经授权,不得转载。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料:

https://www.youtube.com/watch?v=EEIPtofVe2Q&ab_channel=SequoiaCapital

https://www.wsj.com/tech/ai/imo-gold-math-olympiad-google-deepmind-openai-2450095e?utm_source=chatgpt.com

https://interestingengineering.com/innovation/google-and-openai-beat-the-worlds-best-mathematical-minds?utm_source=chatgpt.com

https://interestingengineering.com/innovation/google-and-openai-beat-the-worlds-best-mathematical-minds?utm_source=chatgpt.com

来源:官方媒体/网络新闻

排版:Atlas

编辑:深思

主编: 图灵

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美媒:“布什”号航母预计将部署到中东或附近区域

美媒:“布什”号航母预计将部署到中东或附近区域

界面新闻
2026-03-28 08:18:16
阿根廷官宣3500万红星无缘世界杯!哭着退出训练,23岁已2次重伤

阿根廷官宣3500万红星无缘世界杯!哭着退出训练,23岁已2次重伤

我爱英超
2026-03-27 22:55:11
苹果新品突然上架,3月27日,全面开售

苹果新品突然上架,3月27日,全面开售

科技堡垒
2026-03-27 13:34:57
福特号士兵叛乱?士兵纵火真实目的曝光,44名美军死亡只是开始

福特号士兵叛乱?士兵纵火真实目的曝光,44名美军死亡只是开始

乐天闲聊
2026-03-28 04:13:06
官宣《浪姐7》遭全网抵制,49岁的范玮琪,终于迎来了“报应”

官宣《浪姐7》遭全网抵制,49岁的范玮琪,终于迎来了“报应”

晓肂爱八卦
2026-03-27 18:44:44
打疯了!骑士领先35分打崩劲旅:全场狂欢庆祝,哈登14分9助

打疯了!骑士领先35分打崩劲旅:全场狂欢庆祝,哈登14分9助

体坛小李
2026-03-28 08:53:47
很多人只看到了"老头乐起诉小米"的荒诞感,却没看到雷军不敢恋战背后的“惶恐”

很多人只看到了"老头乐起诉小米"的荒诞感,却没看到雷军不敢恋战背后的“惶恐”

新浪财经
2026-03-28 00:31:15
伊朗宣布:关闭霍尔木兹海峡,通过者将遭严厉打击!特朗普:伊朗想让我当最高领袖,但我拒绝了

伊朗宣布:关闭霍尔木兹海峡,通过者将遭严厉打击!特朗普:伊朗想让我当最高领袖,但我拒绝了

每日经济新闻
2026-03-27 20:24:31
巴萨暴怒!拉菲尼亚重伤:休战5周+无缘6场恶战 弗里克批他太鲁莽

巴萨暴怒!拉菲尼亚重伤:休战5周+无缘6场恶战 弗里克批他太鲁莽

风过乡
2026-03-28 06:12:10
反转!马杜罗二次庭审彻底怂,从喊“我是总统”到哭穷请不起律师

反转!马杜罗二次庭审彻底怂,从喊“我是总统”到哭穷请不起律师

戗词夺理
2026-03-27 10:04:54
2-0大冷门!真不像传统印象的国足:时隔16年,再赢世界杯参赛队

2-0大冷门!真不像传统印象的国足:时隔16年,再赢世界杯参赛队

侃球熊弟
2026-03-27 15:32:46
金融圈巨震!巴曙松涉嫌经济类犯罪,金额巨大,妻子也一起失联,还和广发银行失联独董有关

金融圈巨震!巴曙松涉嫌经济类犯罪,金额巨大,妻子也一起失联,还和广发银行失联独董有关

南财社V
2026-03-27 22:08:42
张雪峰追悼会在苏州殡仪馆举行,大量群众前来送行(组图)

张雪峰追悼会在苏州殡仪馆举行,大量群众前来送行(组图)

DoNews
2026-03-28 07:31:14
是战是和信息混乱,伊朗分析美方意图,美国再延“最后通牒”期限

是战是和信息混乱,伊朗分析美方意图,美国再延“最后通牒”期限

环球网资讯
2026-03-28 07:00:38
55岁陈松伶和60岁邓萃雯跑马拉松,同是没生过娃,二人容貌差距大

55岁陈松伶和60岁邓萃雯跑马拉松,同是没生过娃,二人容貌差距大

潮鹿逐梦
2026-03-27 10:46:00
涉案金额巨大 知名经济学家巴曙松案由上海警方侦办

涉案金额巨大 知名经济学家巴曙松案由上海警方侦办

经济观察报
2026-03-27 19:22:09
意甲女记者穿高跟鞋秀球技,获球迷称赞:“球感极佳 ”

意甲女记者穿高跟鞋秀球技,获球迷称赞:“球感极佳 ”

懂球帝
2026-03-27 21:45:13
石油危机后果来了!全球开始为保命做准备!

石油危机后果来了!全球开始为保命做准备!

樱桃大房子
2026-03-27 21:21:09
霍尔木兹“封锁”26天后,人类打开了积攒50年的保险箱

霍尔木兹“封锁”26天后,人类打开了积攒50年的保险箱

摩登中产
2026-03-27 09:55:44
NBA MVP榜:文班反超亚历山大登顶榜首,东契奇跌至第四

NBA MVP榜:文班反超亚历山大登顶榜首,东契奇跌至第四

懂球帝
2026-03-27 21:25:06
2026-03-28 09:04:49
AI深度研究员 incentive-icons
AI深度研究员
AI时代刚刚到来,一切才刚开始,我们正当其时!
426文章数 170关注度
往期回顾 全部

科技要闻

遭中国学界"拉黑"后,这家AI顶会低头道歉

头条要闻

伊朗称美以袭击"黄饼"生产厂 伊朗疑摧毁美数架加油机

头条要闻

伊朗称美以袭击"黄饼"生产厂 伊朗疑摧毁美数架加油机

体育要闻

邵佳一:足球就像一场马拉松

娱乐要闻

范玮琪加盟,官宣《浪姐7》遭全网抵制

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

与众08,金标大众不能输的一战

态度原创

家居
教育
数码
时尚
艺术

家居要闻

曲线华尔兹 现代简约

教育要闻

中科大少年班男生课堂上扔水杯,厅长教授机智应对

数码要闻

三星电子公布消费级固态硬盘BM9K1,高性能PCIe Gen5 QLC产品

推广中奖名单-更新至2026年3月11日推广

艺术要闻

华国锋与耿飚的草书书信,你见过吗?气势恢宏引发热议!

无障碍浏览 进入关怀版