内部打法｜OpenAI 首席科学家：小团队闷声造出 AI 自研流水线，让机器自己做研究|openai|deepmind

分享至

全文 4,000字 | 阅读约 13 分钟

(《AGI之前》播客精华 Pachocki&Sidor畅谈技术突破)

2025 年夏，OpenAI 正悄悄切换技术内核。

数学奥赛夺金，编程世界赛拿下亚军。这不是刷榜——而是一次技术转型的信号：

AI 正从“模仿人类”跃迁为“自己做研究”。

而这场转型的核心推动者，是 OpenAI 首席科学家 Jakub Pachocki 和研究负责人 Mark Chen。

他们在接受多家深度专访时明确表态：

今天的模型还离不开人的指导；五年后，它们能自己做研究。

这句话不只是愿景，而是他们眼下正在实施的“科研工程项目”：

将研究流程切分成结构化模块：假设 → 证明 → 实验 → 复现；
全部嵌入模型内部，训练它像工程师一样分解任务，像科学家一样总结规律；
搭建一条“模型 × 工具 × 人类反馈”的自演化流水线，让 GPT 在虚拟空间里自主进化。

不仅如此，面对超级智能的潜在风险，他们也同步重构了安全框架：

OpenAI 解散 superalignment 后，Chen × Pachocki 主导构建“三层安全机制”；
引入 AI 自己检查自己，在各个环节设置安全卡口，最后还有人类把关，试图从源头控制风险。

这一切发生在一支不足 500 人的小团队里。

这不是“超级大模型的战争”，而是 “小团队 + 流水线 + 5 年倒计时” 的科学实验。

我们距离“AI 自己写论文、做实验、申请专利”的世界，或许只剩一次模型迭代的距离。

（作者按｜本周“IMO 金牌”文章讲 AI 会不会“认真思考”；这篇则聚焦 AI 能不能“自主做研究”。同属 OpenAI 自动化布局的两条支线，一条检验推理上限，一条探索科研生产力，内容数据互补，供并读参考。）

第一节｜GPT 不再模仿人类，而是学会“自己思考”

过去几年，我们用得最多的 ChatGPT，其实是在“模仿人类”：看你说什么，找出相似的表达，再补上可能的下一句。

它很擅长“补全”——但不会真正思考。

OpenAI 的首席科学家 Jakub Pachocki 说：

“GPT-4 本质上是在复现人类已有的语言模式。它不是在思考问题，只是在模仿解决方案。”

但如果我们想让 AI 解决没有标准答案的问题、做科学研究、写原创论文，这种“模仿”就远远不够了。

于是，他们开始尝试一件以前没人做过的事：

让模型学会“怎么想”。

不是靠记忆答案，而是自己组织过程

Jakub 用一个形象的比喻解释差别：你不能指望一个学生考试全靠背答案。真正聪明的学生，会自己动手推、慢慢算。

他们给模型设计了一个目标：从问题出发，一步步想清楚，自己推算答案，而不是在网络里“翻答案”。

Mark Chen 进一步补充：

“我们希望模型不仅能回答问题，还能说清楚它是怎么一步步想出来的。”

这听上去像是数学考试要求“写出解题步骤”——但对AI来说，是从死记公式到真正推导的转变。

三个关键动作：先想、再解、最后验证

为了让模型真的“学会思考”，Jakub 和团队做了三件事：

教它“先想再答”：不允许它立刻给出答案，而是先写出思路草稿，再去计算。
给它训练题，但不给标准答案：训练模型自己找出解决路径，而不是死记人类答案。
让它自己检查自己：用一个“影子模型”来复核它的答案，看看有没有漏洞。

Jakub 认为：

“我们不是训练它‘记住哪些对’，而是训练它‘知道为什么对’。”

这种做法，正在让 GPT 从“会说”变成“会想”。

推理，一种能力结构

过去，我们看一个模型好不好，主要看它“答得准不准”。

但在 OpenAI 新一代模型里，更重要的是：它有没有构建“自己的想法”能力。

Jakub 总结说：

“我们正在训练的是模型的思考方式，不再是让它模仿人类的思路，而是让它发展自己的思维方式。”

这不是靠算力硬撑，也不是靠数据硬塞——而是一次技术路径的根本转向。

第二节｜500 人小队，如何打造 AI 自研流水线？

OpenAI 的研究团队现在大约 500 人。相比动辄几万员工的大公司，这只是个小工作室的规模。

但这个“小队”，却撑起了全球最顶尖的 AI 实验。

他们是怎么做到的？

Jakub 给出一个关键词：“结构化流程”。

“做研究不是靠灵感，而是把一个目标，分成很多可行的小任务。”

这听起来像软件工程的思路，但他们真的把 AI 科研流程，拆成了像生产流水线一样的几个阶段：

第一步：模型先提假设

传统科研，第一步是人类想出一个问题、一个猜测。

而在 OpenAI 的新流程里，模型被训练成能主动提问题。

Szymon Sidor，是 Jakub 的工作搭档，也负责流水线的一线执行，他解释说：

我们让模型观察大量例子，然后鼓励它自己归纳出某种假设—— 哪怕这个假设是错的也没关系，关键是先有猜想。

举个例子：模型在看了大量数学题后，可能“猜”出某种规律——比如“每个偶数都能写成两个素数”。这可能不对，但没关系，它接下来还会去“验证”。

第二步：自己想办法验证

这个阶段，不是人类教它怎么验证，而是模型自己找工具、走流程、看结果。

Jakub 说：

模型的任务是——想清楚它怎么验证自己的想法，然后动手去试。

这像是科学家做实验。模型会写代码、跑模拟、查逻辑，甚至自己搭个小环境，把假设跑一遍。

更妙的是，它还有“自动助手”协助——一组专门做验证的小模型，叫作 auto-verifiers（自动验证器）。

OpenAI 用这些工具模型来复查答案，找到漏洞或不一致之处。

这些助手不会瞎说，它们只做一件事：找茬。模型每跑出一个结论，就要先过这一关，确保没出错、没漏掉。

第三步：反复试错 + 总结规律

验证之后，模型还要做一件人类研究员也经常做的事——复盘。

Szymon 说：

我们训练模型在失败后能‘想一想哪一步错了’，然后再换一种方式重新尝试。

它会整理自己失败的路径，总结哪些方法有效、哪些思路走不通。

Jakub 解释这个目标：

“我们希望模型不仅知道答案，更能总结出‘什么样的思路更靠谱’。”

换句话说，它不是单点突破，而是在积累经验，像人一样“做过、错过、学过”。

最后：形成一个可重复的流程

这三步做完后，模型不仅完成了任务，还学会了一整套可复用的研究流程。

Jakub 说：

“我们希望 AI 的每一次研究，不只是做出结果，更是在建立一种自我改进的能力。”

为了让这条“流水线”高效运转，他们在团队内部也做了结构化分工：

有人专门训练主模型思考流程；
有人专门构建验证助手；
有人专门调试失败原因；
有人监督整条链路是不是通顺、闭环。

Szymon 总结这套打法的核心：

不是靠个别天才，而是把所有人力都变成构建‘工具’的一部分。

结果就是，原本依赖灵感的研究变成了标准化流程——像搭积木一样，每个模块都可以重复使用。

第三节｜OpenAI 拿奖不是炫技，而是测推理力

（图为OpenAI首席研究官Mark Chen（左）与首席科学家Jakub Pachocki（右）。作为OpenAI的技术核心，两人正在引领AI从"答题机器"向"研究伙伴"的关键转型。）

GPT 模型最近在两场比赛里交出惊人成绩：

参加 AtCoder 世界编程赛，进入全球第二名；
模拟参与国际数学奥林匹克（IMO），达到金牌标准。

看上去，这是 GPT 在解题能力上的突破。但在 OpenAI 研究团队眼中，这并不是“模型赢了”，而是一次严肃的测试：

这不是为了拿奖，而是为了检验模型能不能面对真实的难题。 ——Mark Chen

为什么要选这两场比赛？

Jakub 解释得很清楚：

“我们不是让模型答几个 prompt 就算完了，而是放进一个真正的、有压力的环境里，看它能不能自己搞清楚问题、想出办法。”

这两场比赛的难点不是题目多难，而是它们要求模型：

理解不熟悉的任务；
自己建立解法思路；
独立完成一整套操作流程。

Mark Chen 说得更直白：

“这些题目测试的不是知识储备，而是模型能不能像人一样‘思考’。”

这就是为什么他们选择 AtCoder 和 IMO——这两场比赛，考验的就是“推理 + 自主解决”的能力。

GPT 的表现：不仅能解题，还能找出方法

AtCoder 是全球顶级的编程竞赛之一，很多职业选手都在参加。 OpenAI 的研究团队没有手动干预，而是把 GPT 扔进去，让它用自己的方法写代码、跑结果、优化算法。

结果：GPT 排名全球第二。

Jakub 在采访中反复重申一点：

我们没有做特别的训练，也没有告诉模型要怎么做 AtCoder。

也就是说，不是提前靠背题，而是模型在比赛现场学会了应对策略。

IMO 模拟测试也是类似：他们不是做数学题目练习，而是看模型能不能自己理解题意、尝试建模，再验证解法。

他们特别提到了一道数学题，模型在一开始答错了，但后来又通过反复尝试和复盘，得出了正确解法。

这种能力，恰恰是第二节讲到的“自研流水线”训练出的效果。

成绩背后，是推理能力的转折点

这两个测试，标志着一个重要变化：

模型不再只是照搬答案，而是真正在“建构思路”。

Mark Chen 总结说：

“我们更关心的是——模型是否能面对一个没有标准答案的问题，自己试着搞清楚要怎么做，然后做出来。”

这句话听起来普通，其实是模型迈向自主研究的一大步。

以前的 AI 更像是“聪明的答题机器”；现在，它开始像个有逻辑、有思路的“研究助理”。

Jakub 强调：

这类任务，才是真正能检验模型有没有‘深度推理能力’。

这种转变正在整个行业发生。

2025年7月，OpenAI 和 DeepMind 几乎同时在国际数学奥林匹克中获得金牌成绩（35/42分），而 OpenAI 在 AtCoder 编程世界赛中也仅以微弱劣势获得亚军。

这些成绩的真正意义不在于排名，而在于验证了一个关键能力转变：从"检索答案"到"构建推理"。

Jakub 说：

“我们不是在追求一场比赛的胜利，而是在用它验证模型的一种能力。”

✅ 小结

从数学到编程，从答题到思考，OpenAI 把 AI 推理力的验证标准，提高到了新的维度：

不只是答对，而是主动理解、拆解问题；
不只是跑模型，而是完整经历提问—尝试—复盘—总结的过程；
不只是演示，而是预演“AI 自己做研究”的未来日常。

AtCoder 和 IMO，只是第一批测试场。

下一步，是把这种能力迁移到更多真实世界的问题上。

第四节｜GPT 开始变成“科研搭档”了？

Jakub 最近提到一件事：

我们想做的不是让模型输出一个答案，而是引导它完成一次完整的探索过程。

这不是概念层面的改变的说法，而是真正的研究动作变化：

模型不再只是回答问题，而是开始学会自己提出问题、梳理思路、寻找突破口、总结结果。

不是在答题，而是在“做研究”

Jakub 举了一个细节：

“模型以前思考的时间是几秒，现在我们训练它延长到 30 分钟，中间不断反思、修改方向，然后再决定下一步要做什么。”

这个“30 分钟”的时间感，不是随便说说。

它代表模型第一次被训练去：
把一个大目标分解成多个小步骤；
中途检查效果，再决定下一步走哪条路；
最后整理出一套思路，并能用语言讲清楚过程。

他说：

“AI 能不能做科研，关键看它能不能自己安排计划、选择方向。”

以前的模型像是只看一页纸的速读者；现在，它要像研究者一样，从一个想法出发，走完整个思考路径。

三个“卡点”：OpenAI 面临的关键挑战

要让 GPT 真正成为科研助手，而不只是“聪明答题器”，OpenAI 遇到三个新挑战。

Jakub 直接列出了它们：

① 记得住：上下文记忆

“模型得记住它三十分钟前做了什么，才能接得上思路，形成完整的推理链。”

这意味着模型不仅要记住字面上的对话，还要理解背后的逻辑。

否则，它就像每五分钟换一个大脑——永远无法把前后的想法连成线。

② 做得完：多轮任务管理

“科研不是一步就能完成的，模型必须能自主调动多个能力模块，一会儿查数据，一会儿写代码，一会儿复盘逻辑。”

这听起来简单，其实对模型是一次认知升级：

它需要有计划地调用工具，就像一个科学家知道何时该做实验、何时该查文献。

③ 选得准：研究价值评估

这是最难的一点。

Szymon 提出一个问题：

AI 真聪明了之后，我们怎么知道它还在干我们想要的事？

换句话说，当模型开始“自己探索”时，谁来判断它探索的方向对不对？值不值得继续？

这个问题，正在让 OpenAI 重新定义“控制”和“监督”的方式。

方向转变：“从输出变成探索”

OpenAI 内部的表述非常清晰：

“我们过去是让模型输出答案；现在我们要让它主动发现新问题，学会怎么去试，怎么去解释，怎么知道对不对。”

Jakub 把这称为一次“范式转变”。

Szymon 则称之为“从输出变成探索”（from output to exploration）：

“我们不想让模型一直等人提问，而是让它自己主动寻找未知。”

这是他们未来五年的核心目标之一。

GPT-5：下一代验证点

在整场对话中，Jakub 多次提到 GPT-5 不是单纯升级版本。

它的一个核心任务，是验证“模型能否稳定走完科研流程”。

换句话说：

能不能自己设目标；
能不能拆解任务并坚持完成；
能不能解释过程，让人类理解它做了什么；
能不能拒绝那些偏离主题、或不靠谱的想法。

这就是 OpenAI 所说的“可验证范式”（verifiable paradigm）。

Jakub 总结得很简洁：

“未来的模型不是输出一个句子，而是走一条研究路径，然后告诉你它怎么走的。”

OpenAI 正在训练 AI 进入一个全新的角色：不再是被提问的助手，而是主动探索的研究者。

这种能力一旦成熟，影响将远超科研领域本身。

任何需要深度思考和逻辑推理的工作——法律分析、教育设计、工程规划、金融建模、医疗诊断——都将面临根本性改变。

结语｜AI 开始自学，人类如何接招？

在这场长达一小时的深度访谈里，两位科学家没有夸大宣传，只是冷静地分享了一个观察：

AI 已经开始具备独立思考的雏形。

它不再只是听命行事的工具，而是可以自主提问、拆解任务、完成实验的"合作者"。

OpenAI 用最朴素的方式，走出了一条极不寻常的路：

不靠人海战术，而是让小团队构建自驱工具；
不追发布节奏，而是打造能验证、能迭代的研究体系；
不迷信"智能涌现"，而是用数学竞赛、编程大赛反复测试推理能力。

这不是一场关于“超智能”的喧哗。

而是一场关于“AI 自学”的静悄悄实验。

正如 Jakub 所说：

“如果有一天，AI 可以自己做研究、自己提升自己，那它就不只是工具了。”

这一天，也许比我们想的更近。

本文由AI深度研究院出品，内容综合整理自OpenAI核心研究团队的最新访谈：Jakub Pachocki & Szymon Sidor("AGI之前"播客)，Mark Chen & Jakub Pachocki(MIT Technology Review)。未经授权，不得转载。

星标公众号，点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料：

https://www.youtube.com/watch?v=LauSf7HoxwM&t=727s&ab_channel=BeforeAGI

https://www.technologyreview.com/2025/07/31/1120885/the-two-people-shaping-the-future-of-openais-research/

https://www.ainews.com/p/openai-s-chief-scientist-ai-could-produce-novel-research-by-the-end-of-the-decade

https://taptwicedigital.com/stats/openai

https://aitopics.org/doc/news%3A88693F0E

来源：官方媒体/网络新闻

排版：Atlas

编辑：深思

主编: 图灵

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

内部打法｜OpenAI 首席科学家：小团队闷声造出 AI 自研流水线，让机器自己做研究

英伟达单季狂揽570亿美元，手握5000亿订单

户外博主发现南太行失联43天男子遗体:先发现黑色鞋子

户外博主发现南太行失联43天男子遗体:先发现黑色鞋子

Faker，何以成为Faker

胡彦斌易梦玲恋情曝光，相差16岁

霸王茶姬创始人将与“光伏女神”结婚

一汽丰田发布IT'S TiME 3.0 三款焕新产品同步亮相

态度原创

黑白极简 慵懒通透空间

陈洪绶：花鸟册二十开

三星旗舰手机规划曝光：首款三折叠12月登场

Steam游戏100%好评被打破 差评竟与游戏无关

日本称已向美国出口爱国者导弹

黑白极简慵懒通透空间

Steam游戏100%好评被打破差评竟与游戏无关