全文 4,000字 | 阅读约 13 分钟
![]()
(《AGI之前》播客精华 Pachocki&Sidor畅谈技术突破)
2025 年夏,OpenAI 正悄悄切换技术内核。
数学奥赛夺金,编程世界赛拿下亚军。这不是刷榜——而是一次技术转型的信号:
AI 正从“模仿人类”跃迁为“自己做研究”。
而这场转型的核心推动者,是 OpenAI 首席科学家 Jakub Pachocki 和研究负责人 Mark Chen。
他们在接受多家深度专访时明确表态:
今天的模型还离不开人的指导;五年后,它们能自己做研究。
这句话不只是愿景,而是他们眼下正在实施的“科研工程项目”:
将研究流程切分成结构化模块:假设 → 证明 → 实验 → 复现;
全部嵌入模型内部,训练它像工程师一样分解任务,像科学家一样总结规律;
搭建一条“模型 × 工具 × 人类反馈”的自演化流水线,让 GPT 在虚拟空间里自主进化。
不仅如此,面对超级智能的潜在风险,他们也同步重构了安全框架:
OpenAI 解散 superalignment 后,Chen × Pachocki 主导构建“三层安全机制”;
引入 AI 自己检查自己,在各个环节设置安全卡口,最后还有人类把关,试图从源头控制风险。
这一切发生在一支不足 500 人的小团队里。
这不是“超级大模型的战争”,而是 “小团队 + 流水线 + 5 年倒计时” 的科学实验。
我们距离“AI 自己写论文、做实验、申请专利”的世界,或许只剩一次模型迭代的距离。
(作者按|本周“IMO 金牌”文章讲 AI 会不会“认真思考”;这篇则聚焦 AI 能不能“自主做研究”。同属 OpenAI 自动化布局的两条支线,一条检验推理上限,一条探索科研生产力,内容数据互补,供并读参考。)
第一节|GPT 不再模仿人类,而是学会“自己思考”
过去几年,我们用得最多的 ChatGPT,其实是在“模仿人类”: 看你说什么,找出相似的表达,再补上可能的下一句。
它很擅长“补全”——但不会真正思考。
OpenAI 的首席科学家 Jakub Pachocki 说:
“GPT-4 本质上是在复现人类已有的语言模式。它不是在思考问题,只是在模仿解决方案。”
但如果我们想让 AI 解决没有标准答案的问题、做科学研究、写原创论文,这种“模仿”就远远不够了。
于是,他们开始尝试一件以前没人做过的事:
让模型学会“怎么想”。
不是靠记忆答案,而是自己组织过程
Jakub 用一个形象的比喻解释差别:你不能指望一个学生考试全靠背答案。真正聪明的学生,会自己动手推、慢慢算。
他们给模型设计了一个目标:从问题出发,一步步想清楚,自己推算答案,而不是在网络里“翻答案”。
Mark Chen 进一步补充:
“我们希望模型不仅能回答问题,还能说清楚它是怎么一步步想出来的。”
这听上去像是数学考试要求“写出解题步骤”——但对AI来说,是从死记公式到真正推导的转变。
三个关键动作:先想、再解、最后验证
为了让模型真的“学会思考”,Jakub 和团队做了三件事:
教它“先想再答”: 不允许它立刻给出答案,而是先写出思路草稿,再去计算。
给它训练题,但不给标准答案: 训练模型自己找出解决路径,而不是死记人类答案。
让它自己检查自己: 用一个“影子模型”来复核它的答案,看看有没有漏洞。
Jakub 认为:
“我们不是训练它‘记住哪些对’,而是训练它‘知道为什么对’。”
这种做法,正在让 GPT 从“会说”变成“会想”。
推理,一种能力结构
过去,我们看一个模型好不好,主要看它“答得准不准”。
但在 OpenAI 新一代模型里,更重要的是:它有没有构建“自己的想法”能力。
Jakub 总结说:
“我们正在训练的是模型的思考方式, 不再是让它模仿人类的思路,而是让它发展自己的思维方式。”
这不是靠算力硬撑,也不是靠数据硬塞——而是一次技术路径的根本转向。
第二节|500 人小队,如何打造 AI 自研流水线?
OpenAI 的研究团队现在大约 500 人。相比动辄几万员工的大公司,这只是个小工作室的规模。
但这个“小队”,却撑起了全球最顶尖的 AI 实验。
他们是怎么做到的?
Jakub 给出一个关键词:“结构化流程”。
“做研究不是靠灵感,而是把一个目标,分成很多可行的小任务。”
这听起来像软件工程的思路,但他们真的把 AI 科研流程,拆成了像生产流水线一样的几个阶段:
第一步:模型先提假设
传统科研,第一步是人类想出一个问题、一个猜测。
而在 OpenAI 的新流程里,模型被训练成能主动提问题。
Szymon Sidor,是 Jakub 的工作搭档,也负责流水线的一线执行,他解释说:
我们让模型观察大量例子,然后鼓励它自己归纳出某种假设—— 哪怕这个假设是错的也没关系,关键是先有猜想。
举个例子:模型在看了大量数学题后,可能“猜”出某种规律——比如“每个偶数都能写成两个素数”。 这可能不对,但没关系,它接下来还会去“验证”。
第二步:自己想办法验证
这个阶段,不是人类教它怎么验证,而是模型自己找工具、走流程、看结果。
Jakub 说:
模型的任务是——想清楚它怎么验证自己的想法,然后动手去试。
这像是科学家做实验。 模型会写代码、跑模拟、查逻辑,甚至自己搭个小环境,把假设跑一遍。
更妙的是,它还有“自动助手”协助——一组专门做验证的小模型,叫作 auto-verifiers(自动验证器)。
OpenAI 用这些工具模型来复查答案,找到漏洞或不一致之处。
这些助手不会瞎说,它们只做一件事:找茬。 模型每跑出一个结论,就要先过这一关,确保没出错、没漏掉。
第三步:反复试错 + 总结规律
验证之后,模型还要做一件人类研究员也经常做的事——复盘。
Szymon 说:
我们训练模型在失败后能‘想一想哪一步错了’, 然后再换一种方式重新尝试。
它会整理自己失败的路径,总结哪些方法有效、哪些思路走不通。
Jakub 解释这个目标:
“我们希望模型不仅知道答案,更能总结出‘什么样的思路更靠谱’。”
换句话说,它不是单点突破,而是在积累经验,像人一样“做过、错过、学过”。
最后:形成一个可重复的流程
这三步做完后,模型不仅完成了任务,还学会了一整套可复用的研究流程。
Jakub 说:
“我们希望 AI 的每一次研究,不只是做出结果,更是在建立一种自我改进的能力。”
为了让这条“流水线”高效运转,他们在团队内部也做了结构化分工:
有人专门训练主模型思考流程;
有人专门构建验证助手;
有人专门调试失败原因;
有人监督整条链路是不是通顺、闭环。
Szymon 总结这套打法的核心:
不是靠个别天才,而是把所有人力都变成构建‘工具’的一部分。
结果就是,原本依赖灵感的研究变成了标准化流程——像搭积木一样,每个模块都可以重复使用。
第三节|OpenAI 拿奖不是炫技,而是测推理力
![]()
(图为OpenAI首席研究官Mark Chen(左)与首席科学家Jakub Pachocki(右)。作为OpenAI的技术核心,两人正在引领AI从"答题机器"向"研究伙伴"的关键转型。)
GPT 模型最近在两场比赛里交出惊人成绩:
参加 AtCoder 世界编程赛,进入全球 第二名;
模拟参与国际数学奥林匹克(IMO),达到 金牌标准。
看上去,这是 GPT 在解题能力上的突破。 但在 OpenAI 研究团队眼中,这并不是“模型赢了”,而是一次严肃的测试:
这不是为了拿奖,而是为了检验模型能不能面对真实的难题。 ——Mark Chen
为什么要选这两场比赛?
Jakub 解释得很清楚:
“我们不是让模型答几个 prompt 就算完了,而是放进一个真正的、有压力的环境里,看它能不能自己搞清楚问题、想出办法。”
这两场比赛的难点不是题目多难,而是它们要求模型:
理解不熟悉的任务;
自己建立解法思路;
独立完成一整套操作流程。
Mark Chen 说得更直白:
“这些题目测试的不是知识储备,而是模型能不能像人一样‘思考’。”
这就是为什么他们选择 AtCoder 和 IMO——这两场比赛,考验的就是“推理 + 自主解决”的能力。
GPT 的表现:不仅能解题,还能找出方法
AtCoder 是全球顶级的编程竞赛之一,很多职业选手都在参加。 OpenAI 的研究团队没有手动干预,而是把 GPT 扔进去,让它用自己的方法写代码、跑结果、优化算法。
结果:GPT 排名全球第二。
Jakub 在采访中反复重申一点:
我们没有做特别的训练,也没有告诉模型要怎么做 AtCoder。
也就是说,不是提前靠背题,而是模型在比赛现场学会了应对策略。
IMO 模拟测试也是类似:他们不是做数学题目练习,而是看模型能不能自己理解题意、尝试建模,再验证解法。
他们特别提到了一道数学题,模型在一开始答错了,但后来又通过反复尝试和复盘,得出了正确解法。
这种能力,恰恰是第二节讲到的“自研流水线”训练出的效果。
成绩背后,是推理能力的转折点
这两个测试,标志着一个重要变化:
模型不再只是照搬答案,而是真正在“建构思路”。
Mark Chen 总结说:
“我们更关心的是——模型是否能面对一个没有标准答案的问题,自己试着搞清楚要怎么做,然后做出来。”
这句话听起来普通,其实是模型迈向自主研究的一大步。
以前的 AI 更像是“聪明的答题机器”; 现在,它开始像个有逻辑、有思路的“研究助理”。
Jakub 强调:
这类任务,才是真正能检验模型有没有‘深度推理能力’。
这种转变正在整个行业发生。
2025年7月,OpenAI 和 DeepMind 几乎同时在国际数学奥林匹克中获得金牌成绩(35/42分),而 OpenAI 在 AtCoder 编程世界赛中也仅以微弱劣势获得亚军。
这些成绩的真正意义不在于排名,而在于验证了一个关键能力转变:从"检索答案"到"构建推理"。
Jakub 说:
“我们不是在追求一场比赛的胜利,而是在用它验证模型的一种能力。”
✅ 小结
从数学到编程,从答题到思考,OpenAI 把 AI 推理力的验证标准,提高到了新的维度:
不只是答对,而是主动理解、拆解问题;
不只是跑模型,而是完整经历提问—尝试—复盘—总结的过程;
不只是演示,而是预演“AI 自己做研究”的未来日常。
AtCoder 和 IMO,只是第一批测试场。
下一步,是把这种能力迁移到更多真实世界的问题上。
第四节|GPT 开始变成“科研搭档”了?
Jakub 最近提到一件事:
我们想做的不是让模型输出一个答案, 而是引导它完成一次完整的探索过程。
这不是概念层面的改变的说法,而是真正的研究动作变化:
模型不再只是回答问题,而是开始学会自己提出问题、梳理思路、寻找突破口、总结结果。
不是在答题,而是在“做研究”
Jakub 举了一个细节:
“模型以前思考的时间是几秒,现在我们训练它延长到 30 分钟, 中间不断反思、修改方向,然后再决定下一步要做什么。”
这个“30 分钟”的时间感,不是随便说说。
它代表模型第一次被训练去:
把一个大目标分解成多个小步骤;
中途检查效果,再决定下一步走哪条路;
最后整理出一套思路,并能用语言讲清楚过程。
他说:
“AI 能不能做科研,关键看它能不能自己安排计划、选择方向。”
以前的模型像是只看一页纸的速读者; 现在,它要像研究者一样,从一个想法出发,走完整个思考路径。
三个“卡点”:OpenAI 面临的关键挑战
要让 GPT 真正成为科研助手,而不只是“聪明答题器”,OpenAI 遇到三个新挑战。
Jakub 直接列出了它们:
① 记得住:上下文记忆
“模型得记住它三十分钟前做了什么,才能接得上思路,形成完整的推理链。”
这意味着模型不仅要记住字面上的对话,还要理解背后的逻辑。
否则,它就像每五分钟换一个大脑——永远无法把前后的想法连成线。
② 做得完:多轮任务管理
“科研不是一步就能完成的,模型必须能自主调动多个能力模块,一会儿查数据,一会儿写代码,一会儿复盘逻辑。”
这听起来简单,其实对模型是一次认知升级:
它需要有计划地调用工具,就像一个科学家知道何时该做实验、何时该查文献。
③ 选得准:研究价值评估
这是最难的一点。
Szymon 提出一个问题:
AI 真聪明了之后,我们怎么知道它还在干我们想要的事?
换句话说,当模型开始“自己探索”时,谁来判断它探索的方向对不对?值不值得继续?
这个问题,正在让 OpenAI 重新定义“控制”和“监督”的方式。
方向转变:“从输出变成探索”
OpenAI 内部的表述非常清晰:
“我们过去是让模型输出答案;现在我们要让它主动发现新问题,学会怎么去试,怎么去解释,怎么知道对不对。”
Jakub 把这称为一次“范式转变”。
Szymon 则称之为“从输出变成探索”(from output to exploration):
“我们不想让模型一直等人提问,而是让它自己主动寻找未知。”
这是他们未来五年的核心目标之一。
GPT-5:下一代验证点
在整场对话中,Jakub 多次提到 GPT-5 不是单纯升级版本。
它的一个核心任务,是验证“模型能否稳定走完科研流程”。
换句话说:
能不能自己设目标;
能不能拆解任务并坚持完成;
能不能解释过程,让人类理解它做了什么;
能不能拒绝那些偏离主题、或不靠谱的想法。
这就是 OpenAI 所说的“可验证范式”(verifiable paradigm)。
Jakub 总结得很简洁:
“未来的模型不是输出一个句子,而是走一条研究路径,然后告诉你它怎么走的。”
OpenAI 正在训练 AI 进入一个全新的角色:不再是被提问的助手,而是主动探索的研究者。
这种能力一旦成熟,影响将远超科研领域本身。
任何需要深度思考和逻辑推理的工作——法律分析、教育设计、工程规划、金融建模、医疗诊断——都将面临根本性改变。
结语|AI 开始自学,人类如何接招?
在这场长达一小时的深度访谈里,两位科学家没有夸大宣传,只是冷静地分享了一个观察:
AI 已经开始具备独立思考的雏形。
它不再只是听命行事的工具,而是可以自主提问、拆解任务、完成实验的"合作者"。
OpenAI 用最朴素的方式,走出了一条极不寻常的路:
不靠人海战术,而是让小团队构建自驱工具;
不追发布节奏,而是打造能验证、能迭代的研究体系;
不迷信"智能涌现",而是用数学竞赛、编程大赛反复测试推理能力。
这不是一场关于“超智能”的喧哗。
而是一场关于“AI 自学”的静悄悄实验。
正如 Jakub 所说:
“如果有一天,AI 可以自己做研究、自己提升自己,那它就不只是工具了。”
这一天,也许比我们想的更近。
本文由AI深度研究院出品,内容综合整理自OpenAI核心研究团队的最新访谈:Jakub Pachocki & Szymon Sidor("AGI之前"播客),Mark Chen & Jakub Pachocki(MIT Technology Review)。未经授权,不得转载。
星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标
参考资料:
https://www.youtube.com/watch?v=LauSf7HoxwM&t=727s&ab_channel=BeforeAGI
https://www.technologyreview.com/2025/07/31/1120885/the-two-people-shaping-the-future-of-openais-research/
https://www.ainews.com/p/openai-s-chief-scientist-ai-could-produce-novel-research-by-the-end-of-the-decade
https://taptwicedigital.com/stats/openai
https://aitopics.org/doc/news%3A88693F0E
来源:官方媒体/网络新闻
排版:Atlas
编辑:深思
主编: 图灵
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.