网易首页 > 网易号 > 正文 申请入驻

内部打法|OpenAI 首席科学家:小团队闷声造出 AI 自研流水线,让机器自己做研究

0
分享至

全文 4,000字 | 阅读约 13 分钟



(《AGI之前》播客精华 Pachocki&Sidor畅谈技术突破)

2025 年夏,OpenAI 正悄悄切换技术内核。

数学奥赛夺金,编程世界赛拿下亚军。这不是刷榜——而是一次技术转型的信号:

AI 正从“模仿人类”跃迁为“自己做研究”。

而这场转型的核心推动者,是 OpenAI 首席科学家 Jakub Pachocki 和研究负责人 Mark Chen。

他们在接受多家深度专访时明确表态:

今天的模型还离不开人的指导;五年后,它们能自己做研究。

这句话不只是愿景,而是他们眼下正在实施的“科研工程项目”

  • 将研究流程切分成结构化模块:假设 → 证明 → 实验 → 复现;

  • 全部嵌入模型内部,训练它像工程师一样分解任务,像科学家一样总结规律;

  • 搭建一条“模型 × 工具 × 人类反馈”的自演化流水线,让 GPT 在虚拟空间里自主进化。

不仅如此,面对超级智能的潜在风险,他们也同步重构了安全框架:

  • OpenAI 解散 superalignment 后,Chen × Pachocki 主导构建“三层安全机制”;

  • 引入 AI 自己检查自己,在各个环节设置安全卡口,最后还有人类把关,试图从源头控制风险。

这一切发生在一支不足 500 人的小团队里。

这不是“超级大模型的战争”,而是 “小团队 + 流水线 + 5 年倒计时” 的科学实验。

我们距离“AI 自己写论文、做实验、申请专利”的世界,或许只剩一次模型迭代的距离。


(作者按|本周“IMO 金牌”文章讲 AI 会不会“认真思考”;这篇则聚焦 AI 能不能“自主做研究”。同属 OpenAI 自动化布局的两条支线,一条检验推理上限,一条探索科研生产力,内容数据互补,供并读参考。)

第一节|GPT 不再模仿人类,而是学会“自己思考”

过去几年,我们用得最多的 ChatGPT,其实是在“模仿人类”: 看你说什么,找出相似的表达,再补上可能的下一句。

它很擅长“补全”——但不会真正思考。

OpenAI 的首席科学家 Jakub Pachocki 说:

“GPT-4 本质上是在复现人类已有的语言模式。它不是在思考问题,只是在模仿解决方案。”

但如果我们想让 AI 解决没有标准答案的问题、做科学研究、写原创论文,这种“模仿”就远远不够了。

于是,他们开始尝试一件以前没人做过的事:

让模型学会“怎么想”。

不是靠记忆答案,而是自己组织过程

Jakub 用一个形象的比喻解释差别:你不能指望一个学生考试全靠背答案。真正聪明的学生,会自己动手推、慢慢算。

他们给模型设计了一个目标:从问题出发,一步步想清楚,自己推算答案,而不是在网络里“翻答案”。

Mark Chen 进一步补充:

“我们希望模型不仅能回答问题,还能说清楚它是怎么一步步想出来的。”

这听上去像是数学考试要求“写出解题步骤”——但对AI来说,是从死记公式到真正推导的转变。

三个关键动作:先想、再解、最后验证

为了让模型真的“学会思考”,Jakub 和团队做了三件事:

  1. 教它“先想再答”: 不允许它立刻给出答案,而是先写出思路草稿,再去计算。

  2. 给它训练题,但不给标准答案: 训练模型自己找出解决路径,而不是死记人类答案。

  3. 让它自己检查自己: 用一个“影子模型”来复核它的答案,看看有没有漏洞。

Jakub 认为:

“我们不是训练它‘记住哪些对’,而是训练它‘知道为什么对’。”

这种做法,正在让 GPT 从“会说”变成“会想”。

推理,一种能力结构

过去,我们看一个模型好不好,主要看它“答得准不准”。

但在 OpenAI 新一代模型里,更重要的是:它有没有构建“自己的想法”能力。

Jakub 总结说:

“我们正在训练的是模型的思考方式, 不再是让它模仿人类的思路,而是让它发展自己的思维方式。”

这不是靠算力硬撑,也不是靠数据硬塞——而是一次技术路径的根本转向。

第二节|500 人小队,如何打造 AI 自研流水线?

OpenAI 的研究团队现在大约 500 人。相比动辄几万员工的大公司,这只是个小工作室的规模。

但这个“小队”,却撑起了全球最顶尖的 AI 实验。

他们是怎么做到的?

Jakub 给出一个关键词:“结构化流程”。

“做研究不是靠灵感,而是把一个目标,分成很多可行的小任务。”

这听起来像软件工程的思路,但他们真的把 AI 科研流程,拆成了像生产流水线一样的几个阶段:

第一步:模型先提假设

传统科研,第一步是人类想出一个问题、一个猜测。

而在 OpenAI 的新流程里,模型被训练成能主动提问题。

Szymon Sidor,是 Jakub 的工作搭档,也负责流水线的一线执行,他解释说:

我们让模型观察大量例子,然后鼓励它自己归纳出某种假设—— 哪怕这个假设是错的也没关系,关键是先有猜想。

举个例子:模型在看了大量数学题后,可能“猜”出某种规律——比如“每个偶数都能写成两个素数”。 这可能不对,但没关系,它接下来还会去“验证”。

第二步:自己想办法验证

这个阶段,不是人类教它怎么验证,而是模型自己找工具、走流程、看结果。

Jakub 说:

模型的任务是——想清楚它怎么验证自己的想法,然后动手去试。

这像是科学家做实验。 模型会写代码、跑模拟、查逻辑,甚至自己搭个小环境,把假设跑一遍。

更妙的是,它还有“自动助手”协助——一组专门做验证的小模型,叫作 auto-verifiers(自动验证器)。

OpenAI 用这些工具模型来复查答案,找到漏洞或不一致之处。

这些助手不会瞎说,它们只做一件事:找茬。 模型每跑出一个结论,就要先过这一关,确保没出错、没漏掉。

第三步:反复试错 + 总结规律

验证之后,模型还要做一件人类研究员也经常做的事——复盘。

Szymon 说:

我们训练模型在失败后能‘想一想哪一步错了’, 然后再换一种方式重新尝试。

它会整理自己失败的路径,总结哪些方法有效、哪些思路走不通。

Jakub 解释这个目标:

“我们希望模型不仅知道答案,更能总结出‘什么样的思路更靠谱’。”

换句话说,它不是单点突破,而是在积累经验,像人一样“做过、错过、学过”。

最后:形成一个可重复的流程

这三步做完后,模型不仅完成了任务,还学会了一整套可复用的研究流程。

Jakub 说:

“我们希望 AI 的每一次研究,不只是做出结果,更是在建立一种自我改进的能力。”

为了让这条“流水线”高效运转,他们在团队内部也做了结构化分工:

  • 有人专门训练主模型思考流程;

  • 有人专门构建验证助手;

  • 有人专门调试失败原因;

  • 有人监督整条链路是不是通顺、闭环。

Szymon 总结这套打法的核心:

不是靠个别天才,而是把所有人力都变成构建‘工具’的一部分。

结果就是,原本依赖灵感的研究变成了标准化流程——像搭积木一样,每个模块都可以重复使用。

第三节|OpenAI 拿奖不是炫技,而是测推理力


(图为OpenAI首席研究官Mark Chen(左)与首席科学家Jakub Pachocki(右)。作为OpenAI的技术核心,两人正在引领AI从"答题机器"向"研究伙伴"的关键转型。)

GPT 模型最近在两场比赛里交出惊人成绩:

  • 参加 AtCoder 世界编程赛,进入全球 第二名;

  • 模拟参与国际数学奥林匹克(IMO),达到 金牌标准。

看上去,这是 GPT 在解题能力上的突破。 但在 OpenAI 研究团队眼中,这并不是“模型赢了”,而是一次严肃的测试:

这不是为了拿奖,而是为了检验模型能不能面对真实的难题。 ——Mark Chen

为什么要选这两场比赛?

Jakub 解释得很清楚:

“我们不是让模型答几个 prompt 就算完了,而是放进一个真正的、有压力的环境里,看它能不能自己搞清楚问题、想出办法。”

这两场比赛的难点不是题目多难,而是它们要求模型:

  • 理解不熟悉的任务;

  • 自己建立解法思路;

  • 独立完成一整套操作流程。

Mark Chen 说得更直白:

“这些题目测试的不是知识储备,而是模型能不能像人一样‘思考’。”

这就是为什么他们选择 AtCoder 和 IMO——这两场比赛,考验的就是“推理 + 自主解决”的能力。

GPT 的表现:不仅能解题,还能找出方法

AtCoder 是全球顶级的编程竞赛之一,很多职业选手都在参加。 OpenAI 的研究团队没有手动干预,而是把 GPT 扔进去,让它用自己的方法写代码、跑结果、优化算法。

结果:GPT 排名全球第二。

Jakub 在采访中反复重申一点:

我们没有做特别的训练,也没有告诉模型要怎么做 AtCoder。

也就是说,不是提前靠背题,而是模型在比赛现场学会了应对策略。

IMO 模拟测试也是类似:他们不是做数学题目练习,而是看模型能不能自己理解题意、尝试建模,再验证解法。

他们特别提到了一道数学题,模型在一开始答错了,但后来又通过反复尝试和复盘,得出了正确解法。

这种能力,恰恰是第二节讲到的“自研流水线”训练出的效果。

成绩背后,是推理能力的转折点

这两个测试,标志着一个重要变化:

模型不再只是照搬答案,而是真正在“建构思路”。

Mark Chen 总结说:

“我们更关心的是——模型是否能面对一个没有标准答案的问题,自己试着搞清楚要怎么做,然后做出来。”

这句话听起来普通,其实是模型迈向自主研究的一大步。

以前的 AI 更像是“聪明的答题机器”; 现在,它开始像个有逻辑、有思路的“研究助理”。

Jakub 强调:

这类任务,才是真正能检验模型有没有‘深度推理能力’。

这种转变正在整个行业发生。

2025年7月,OpenAI 和 DeepMind 几乎同时在国际数学奥林匹克中获得金牌成绩(35/42分),而 OpenAI 在 AtCoder 编程世界赛中也仅以微弱劣势获得亚军。

这些成绩的真正意义不在于排名,而在于验证了一个关键能力转变:从"检索答案"到"构建推理"。

Jakub 说:

“我们不是在追求一场比赛的胜利,而是在用它验证模型的一种能力。”

✅ 小结

从数学到编程,从答题到思考,OpenAI 把 AI 推理力的验证标准,提高到了新的维度:

  • 不只是答对,而是主动理解、拆解问题;

  • 不只是跑模型,而是完整经历提问—尝试—复盘—总结的过程;

  • 不只是演示,而是预演“AI 自己做研究”的未来日常。

AtCoder 和 IMO,只是第一批测试场。

下一步,是把这种能力迁移到更多真实世界的问题上。

第四节|GPT 开始变成“科研搭档”了?

Jakub 最近提到一件事:

我们想做的不是让模型输出一个答案, 而是引导它完成一次完整的探索过程。

这不是概念层面的改变的说法,而是真正的研究动作变化:

模型不再只是回答问题,而是开始学会自己提出问题、梳理思路、寻找突破口、总结结果。

不是在答题,而是在“做研究”

Jakub 举了一个细节:

“模型以前思考的时间是几秒,现在我们训练它延长到 30 分钟, 中间不断反思、修改方向,然后再决定下一步要做什么。”

这个“30 分钟”的时间感,不是随便说说。

  • 它代表模型第一次被训练去:

  • 把一个大目标分解成多个小步骤;

  • 中途检查效果,再决定下一步走哪条路;

  • 最后整理出一套思路,并能用语言讲清楚过程。

他说:

“AI 能不能做科研,关键看它能不能自己安排计划、选择方向。”

以前的模型像是只看一页纸的速读者; 现在,它要像研究者一样,从一个想法出发,走完整个思考路径。

三个“卡点”:OpenAI 面临的关键挑战

要让 GPT 真正成为科研助手,而不只是“聪明答题器”,OpenAI 遇到三个新挑战。

Jakub 直接列出了它们:

① 记得住:上下文记忆

“模型得记住它三十分钟前做了什么,才能接得上思路,形成完整的推理链。”

这意味着模型不仅要记住字面上的对话,还要理解背后的逻辑。

否则,它就像每五分钟换一个大脑——永远无法把前后的想法连成线。

② 做得完:多轮任务管理

“科研不是一步就能完成的,模型必须能自主调动多个能力模块,一会儿查数据,一会儿写代码,一会儿复盘逻辑。”

这听起来简单,其实对模型是一次认知升级:

它需要有计划地调用工具,就像一个科学家知道何时该做实验、何时该查文献。

③ 选得准:研究价值评估

这是最难的一点。

Szymon 提出一个问题:

AI 真聪明了之后,我们怎么知道它还在干我们想要的事?

换句话说,当模型开始“自己探索”时,谁来判断它探索的方向对不对?值不值得继续?

这个问题,正在让 OpenAI 重新定义“控制”和“监督”的方式。

方向转变:“从输出变成探索”

OpenAI 内部的表述非常清晰:

“我们过去是让模型输出答案;现在我们要让它主动发现新问题,学会怎么去试,怎么去解释,怎么知道对不对。”

Jakub 把这称为一次“范式转变”。

Szymon 则称之为“从输出变成探索”(from output to exploration):

“我们不想让模型一直等人提问,而是让它自己主动寻找未知。”

这是他们未来五年的核心目标之一。

GPT-5:下一代验证点

在整场对话中,Jakub 多次提到 GPT-5 不是单纯升级版本。

它的一个核心任务,是验证“模型能否稳定走完科研流程”。

换句话说:

  • 能不能自己设目标;

  • 能不能拆解任务并坚持完成;

  • 能不能解释过程,让人类理解它做了什么;

  • 能不能拒绝那些偏离主题、或不靠谱的想法。

这就是 OpenAI 所说的“可验证范式”(verifiable paradigm)。

Jakub 总结得很简洁:

“未来的模型不是输出一个句子,而是走一条研究路径,然后告诉你它怎么走的。”

OpenAI 正在训练 AI 进入一个全新的角色:不再是被提问的助手,而是主动探索的研究者。

这种能力一旦成熟,影响将远超科研领域本身。

任何需要深度思考和逻辑推理的工作——法律分析、教育设计、工程规划、金融建模、医疗诊断——都将面临根本性改变。

结语|AI 开始自学,人类如何接招?

在这场长达一小时的深度访谈里,两位科学家没有夸大宣传,只是冷静地分享了一个观察:

AI 已经开始具备独立思考的雏形。

它不再只是听命行事的工具,而是可以自主提问、拆解任务、完成实验的"合作者"。

OpenAI 用最朴素的方式,走出了一条极不寻常的路:

  • 不靠人海战术,而是让小团队构建自驱工具;

  • 不追发布节奏,而是打造能验证、能迭代的研究体系;

  • 不迷信"智能涌现",而是用数学竞赛、编程大赛反复测试推理能力。

这不是一场关于“超智能”的喧哗。

而是一场关于“AI 自学”的静悄悄实验。

正如 Jakub 所说:

“如果有一天,AI 可以自己做研究、自己提升自己,那它就不只是工具了。”

这一天,也许比我们想的更近。

本文由AI深度研究院出品,内容综合整理自OpenAI核心研究团队的最新访谈:Jakub Pachocki & Szymon Sidor("AGI之前"播客),Mark Chen & Jakub Pachocki(MIT Technology Review)。未经授权,不得转载。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料:

https://www.youtube.com/watch?v=LauSf7HoxwM&t=727s&ab_channel=BeforeAGI

https://www.technologyreview.com/2025/07/31/1120885/the-two-people-shaping-the-future-of-openais-research/

https://www.ainews.com/p/openai-s-chief-scientist-ai-could-produce-novel-research-by-the-end-of-the-decade

https://taptwicedigital.com/stats/openai

https://aitopics.org/doc/news%3A88693F0E

来源:官方媒体/网络新闻

排版:Atlas

编辑:深思

主编: 图灵

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
归化了13人也没用!亚洲球队钻了国际足联漏洞,仍无缘世界杯

归化了13人也没用!亚洲球队钻了国际足联漏洞,仍无缘世界杯

星耀国际足坛
2025-11-19 23:23:03
成都27岁女子家门口遇害案开庭,被告人此前曾携刀具敲门滋扰部分住户

成都27岁女子家门口遇害案开庭,被告人此前曾携刀具敲门滋扰部分住户

澎湃新闻
2025-11-20 16:04:27
新华时评丨高市开历史倒车必将失败

新华时评丨高市开历史倒车必将失败

新华社
2025-11-19 20:58:01
从11月份开始,国内或将迎来4大降价潮,建议大家提前做好准备!

从11月份开始,国内或将迎来4大降价潮,建议大家提前做好准备!

猫叔东山再起
2025-11-19 13:00:03
爆冷6分惜败,又24分惨败!三状元成为摆设,你们确实要拆队了

爆冷6分惜败,又24分惨败!三状元成为摆设,你们确实要拆队了

篮球扫地僧
2025-11-20 11:34:17
大阪府前知事:派官员赴华解释的瞬间,日本已经“输了”

大阪府前知事:派官员赴华解释的瞬间,日本已经“输了”

中国青年报
2025-11-19 16:07:30
本人确认!上季得分王萨姆纳确认加盟广东男篮 组建四外援争冠

本人确认!上季得分王萨姆纳确认加盟广东男篮 组建四外援争冠

醉卧浮生
2025-11-20 14:39:45
中国公民赴俄将免签,飞莫斯科、圣彼得堡搜索量激增3倍以上

中国公民赴俄将免签,飞莫斯科、圣彼得堡搜索量激增3倍以上

纵相新闻
2025-11-19 15:05:03
有趣!今晚决赛广东兵战广东队,单场轰36分,郑永刚能锁死他吗?

有趣!今晚决赛广东兵战广东队,单场轰36分,郑永刚能锁死他吗?

南海浪花
2025-11-20 06:30:32
“漏X装”,火了!

“漏X装”,火了!

微微热评
2025-11-19 14:51:31
如果高市早苗坚决不撤回其涉台言论,我们接下来又该怎么办呢?

如果高市早苗坚决不撤回其涉台言论,我们接下来又该怎么办呢?

翻开历史和现实
2025-11-19 23:19:34
电池不变续航升级821公里,Model Y含金量还在提高

电池不变续航升级821公里,Model Y含金量还在提高

邱小铖
2025-11-18 17:43:19
妻子逼我拿30万给小舅子买车,我62岁妈妈冷静开口:过不下去就离

妻子逼我拿30万给小舅子买车,我62岁妈妈冷静开口:过不下去就离

李子木说
2025-10-29 17:39:15
宋慧乔懒得装了,挤出三分讥笑,就差冷哼一声了

宋慧乔懒得装了,挤出三分讥笑,就差冷哼一声了

安宁007
2025-11-20 07:44:21
两次拒绝黎明,无视钟汉良示爱,被折磨20年后55岁的她憔悴成大妈

两次拒绝黎明,无视钟汉良示爱,被折磨20年后55岁的她憔悴成大妈

可乐谈情感
2025-11-16 06:10:41
妻子晋升后提出离婚,我收拾行李赴中央任职,再见面她懊悔我畅快

妻子晋升后提出离婚,我收拾行李赴中央任职,再见面她懊悔我畅快

云端小院
2025-11-18 10:52:13
别再吹牛一发东风导弹就能搞沉美国航母了,做个有知识的人吧!

别再吹牛一发东风导弹就能搞沉美国航母了,做个有知识的人吧!

时分秒说
2025-09-22 11:25:36
争议!斯普利特甩锅球员,承诺重用小杨,却迷信12中1铁王弃用他

争议!斯普利特甩锅球员,承诺重用小杨,却迷信12中1铁王弃用他

嘴炮体坛
2025-11-20 17:02:37
多地学校临时停课!常州最新提醒

多地学校临时停课!常州最新提醒

中吴网
2025-11-20 15:42:05
场均22+7+4!队史最强新秀!联盟最烂球队终于迎来救世主

场均22+7+4!队史最强新秀!联盟最烂球队终于迎来救世主

阿浪的篮球故事
2025-11-20 16:53:17
2025-11-20 17:16:49
AI深度研究员 incentive-icons
AI深度研究员
AI时代刚刚到来,一切才刚开始,我们正当其时!
316文章数 156关注度
往期回顾 全部

科技要闻

英伟达单季狂揽570亿美元,手握5000亿订单

头条要闻

户外博主发现南太行失联43天男子遗体:先发现黑色鞋子

头条要闻

户外博主发现南太行失联43天男子遗体:先发现黑色鞋子

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌易梦玲恋情曝光,相差16岁

财经要闻

霸王茶姬创始人将与“光伏女神”结婚

汽车要闻

一汽丰田发布IT'S TiME 3.0 三款焕新产品同步亮相

态度原创

家居
艺术
手机
游戏
军事航空

家居要闻

黑白极简 慵懒通透空间

艺术要闻

陈洪绶:花鸟册二十开

手机要闻

三星旗舰手机规划曝光:首款三折叠12月登场

Steam游戏100%好评被打破 差评竟与游戏无关

军事要闻

日本称已向美国出口爱国者导弹

无障碍浏览 进入关怀版