全文 3,000字 | 阅读约 8 分钟
![]()
(对谈片段:Jakub Pachocki深度解析 AI 长时推理突破)
不是更会聊天。
是更会长思考。
最近,硅谷风投 a16z Podcast 发布一场深度对谈,OpenAI 首席科学家 Jakub Pachocki 与首席研究官 Mark Chen 同台, 首次完整披露 GPT-5 背后的核心发展方向:
长时推理(long-horizon reasoning),强化学习(RL)的持续突破,以及在基准测试分数趋于饱和的情况下,AI 如何实现进一步发展。
他们提出了一个重要观点:我们正在进入 AI 的“长思考”时代。
Jakub 说,GPT-5 代表着关键转变:AI 从秒级反应走向小时级思考。
而Mark 补充说,在内测中,专业研究人员发现模型已经具备了协同思考的能力:“氛围编程”,正在演化成“氛围研究”。
这不仅是技术突破,更预示着 AI 应用模式的根本转变:
当 AI 进入“长思考时代”,企业的使用方式、协作节奏、组织结构都要重新设计。
第一节|AI 的工作方式,从秒反应变成小时思考
过去几年,大家习惯了和 AI 聊天,一问一答,几秒钟内出结果。 但 GPT-5 发布后,OpenAI 内部传递出一个新信号:
“AI 不该只在几秒钟内反应,而应该在几小时内真正想清楚。”
这正是模型背后的根本设计方向。
Jakub 解释说,在 GPT-5 之前,OpenAI 其实有两条不同的模型路径:
一条是我们熟悉的 GPT-3.5、GPT-4,追求快速响应、即时输出;
另一条是 O 系列,比如 O3,模型在内部想一会儿,再慢慢给出更靠谱的答案。
GPT-5 的目标,就是把这两种能力合并,让模型能自动选择合适的思考时长。
Mark Chen 解释说:“我们想让用户不用操心到底该用哪个版本、选哪个速度。模型会自己判断:这个问题需要想多久,再开始动手。”
OpenAI 内部团队认为,AI 正在从快速响应转向深度思考。
比如在数学建模、代码改写、策略规划这些场景中, 用户不再只是要一个答案,而是希望 AI 能:
想清楚问题到底是什么;
拆成哪几步来解;
每一步要不要重新推理;
哪一步错了,能不能调整;
形成一套完整的解决思路。
Jakub 说,这类长时间推理的任务能力,以前靠人来做,现在AI已经能够胜任:
现在的模型已经能在 1 小时到 5 小时的时间范围内持续工作。
就像一个研究生不再是看一眼题目就给答案,而是能盯着一道难题琢磨一下午,最终得出一套完整思路。
Mark 也强调,O3是第一个真正适合日常推理工作的模型,而GPT-5进一步增强了这种能力,能在更长时间内保持稳定和准确。
这对企业意味着什么?
你需要重新认识 AI 的能力边界。它不再只是快速输出答案,而是能够进行长时间、深层次的问题分析。
AI 工作模式的这种根本转变,要求企业也要调整自己的使用策略。
第二节|提示词没用,AI 要你陪它做研究
过去几年,很多企业围着 AI 搭场景、搞培训、练提示词。 但 OpenAI 两位高管给出的提醒很明确:
我们现在要做的,不只是让模型回答,而是让它能“自己想办法”。
在这次访谈中,主持人提到了一个真实场景:几位高中生使用GPT编程时发现,现在写代码变成了 “氛围编程 (Vibe Coding)”,更像是在跟 AI 讨论、试探,根据AI的建议逐步完成。
对此,Mark 表示:“我觉得未来会进入一个新阶段,叫'氛围研究(Vibe Researching) '。”
这句话意思是:AI 开始具备辅助发现的能力。
在GPT-5 的内部测试中,OpenAI 把模型交给专业科学家和数学家试用。Jakub 发现了一个意外现象:他们拿出真正困难的问题,模型能够找到全新的解法,这些是之前版本做不到的。
这些专家的反馈是:GPT-5 已经不是在给答案,而是在和他们一起思考、一起寻找解题路径。
这种使用方式与传统的 AI 交互完全不同:
不是下个指令等输出;
而是与 AI 共同解决难题,愿意等它深度思考后再给出结论。
Mark 强调了这一转变:“我们发现,旧一代模型在简单问题上花费过多时间,复杂问题上反而处理得太快。新的 Codex 正在寻找平衡点:简单任务快速完成,复杂问题投入充足时间。”
模型不再只是被动执行指令,而是开始主导思考过程。
与此同时,企业需要适应是: 从追求完美的提示词技巧,转向设定清晰目标, 然后给系统充分的思考空间。
就像与专业顾问合作,你描述清楚问题,然后信任对方的判断和工作方式。
第三节|别只看答得准,要看能不能发现新东西
很多企业在上线智能工具后,习惯用传统指标评估效果:模型在测试题里答对了多少;响应速度如何;有没有犯错误。
但在 OpenAI 看来,这类评估标准,已经不够用了。
Jakub 明确表示:
“我们过去几年用的这些评估指标,已经快饱和了。”
什么意思?
比如数学题、编程题这种测试方式,从 GPT-3 到 GPT-4 到 GPT-5, 准确率从 96% 到 98%、99%,进步空间已经很有限。
就像一位学生,已经能稳定考 98 分,再追问他能否考 99 分意义不大。
Jakub 提出,真正重要的,是看模型能不能发现新东西。
我们希望看到的标志,是模型在科学或工程上,能有一些真正的实际进展。
举个例子:
OpenAI 最近在 AtCoder 编程比赛中测试模型, 它的表现已经能拿下全球第二名。主持人调侃说:“那你们只差第一名了。”
Jakub 并没有纠结于排名,而是强调了比赛的深层意义:
“这些比赛其实是未来研究成功的真实标志。世界上很多优秀的研究员都是从这种竞赛走出来的。”
但他也指出,这些标准仍有局限,因为它们还是人为设定的任务,都有固定答案。
接下来,OpenAI 更关注的是:
模型能否在没人给方向的情况下自己探索
能否真正提出别人没想到的做法
能否在开放的、没有标准答案的领域里持续推进
这类过程已经远超答对错的范畴,更像是在考验独立研究能力。
Mark 透露,为了训练这种能力,OpenAI 内部会让模型完全自主解决问题,不提供任何提示或答案。
回到实际应用层面,企业不应只关注工具做对几道题,而要重点评估:
创新性:它是否带来了你没想到的解决方法
效率性:它是否显著提升了工作效率,解决了原本耗时很久的任务
价值性:它是否产生了真正的经济价值,解决了实际问题
这才是下一个阶段,评估 AI 能力的核心标准。
第四节|AI具备持续推理能力,组织要适应变化
当 AI 具备了长时间思考的能力,企业能否真正用好它,关键在于组织结构是否匹配。
在 GPT-5 的研发背后,OpenAI 也面临着一样的问题: 如何让团队适应更复杂、更长周期的 AI 研发?
为了解决这一问题,Mark Chen 提到,OpenAI 持续推出新模型的背后,是一种专注攻克难题的研究文化:
我们不是靠模仿别人,也不是靠盯着竞争对手。我们知道自己要做什么,大家被这个目标吸引而来。
这句话的重点,不在信念,关键在于组织方式:不依赖个别天才单打独斗,而是构建一个不怕失败、有储备、有接力能力的团队。
Jacob 分享了一个细节:
“我们最成功的一些研究员,加入 OpenAI 前根本没做过深度学习。他们原来是做物理、做数学、做金融的。”
但他们有两个共同特征:
有技术基础;
能在一个方向上反复尝试,愿意做难题。
这也意味着,招聘重点不应该是工具使用的熟练程度,而应该是持续学习和适应变化的能力。
当然,学习适应能力也有不同的表现形式。Mark 说,OpenAI 内部有两种研究员都很重要:
一种擅长提出新想法,探索多个方向;
另一种擅长深挖一个想法,逐步验证和打磨。
他们的策略是把不同专长的人才组合起来,实现优势互补。
同样地,对企业而言,要发挥 AI 价值,组织结构也需要相应调整:
专注长期目标持续推进,而非只追短期热点;
建立能够留人、培养人、支持迭代的机制;
培养团队与智能系统协同工作的能力。
正如 Jakub 所说:
“一个好的研究组织,最明显的标志是团队永远在学习新东西,从没停下来过。
这个趋势下,AI 进入新阶段,组织调整必须跟上。
结语|AI 不再只是工具,而是思考伙伴
OpenAI 的 Jakub Pachocki 与 Mark Chen 花了一个小时只讲一件事:AI 正在从聊天工具变成思考伙伴。
具体来说:
AI 开始会深度思考、持续推进、主动规划。
这要求企业同步调整四个方面:
任务周期:适应长时间推理过程
协作方式:从下指令转向共同探索
评估标准:从准确率转向创新能力
团队结构:匹配 AI协作需求
企业如果还停留在提示词优化和试点项目上,就会被时代抛弃。
GPT-5 标志着新协作模式的开始。
AI 进入“长思考”时代, 企业面临的不再是如何用好 AI,而是如何跟上 AI。
本文由AI深度研究院出品,内容翻译整理自OpenAI首席科学家Jakub Pachocki与首席研究官Mark Chen在a16z Podcast的访谈。未经授权,不得转载。
星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标
https://www.youtube.com/watch?v=KSgPNVmZ8jQ&utm
https://podcasts.apple.com/be/podcast/from-vibe-coding-to-vibe-researching-openais-mark-chen/id842818711?i=1000728378665
来源:官方媒体/网络新闻,
排版:Atlas
编辑:深思
主编:图灵
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.