OpenAI 双高管：AI 进入“长思考”时代，企业要改这四件事|图灵|编程|推理|大模型|mark|openai

OpenAI 双高管：AI 进入“长思考”时代，企业要改这四件事

2025-09-29 08:01:33　来源: AI深度研究员

上海举报

分享至

全文 3,000字 | 阅读约 8 分钟

（对谈片段：Jakub Pachocki深度解析 AI 长时推理突破）

不是更会聊天。

是更会长思考。

最近，硅谷风投 a16z Podcast 发布一场深度对谈，OpenAI 首席科学家 Jakub Pachocki 与首席研究官 Mark Chen 同台，首次完整披露 GPT-5 背后的核心发展方向：

长时推理（long-horizon reasoning），强化学习（RL）的持续突破，以及在基准测试分数趋于饱和的情况下，AI 如何实现进一步发展。

他们提出了一个重要观点：我们正在进入 AI 的“长思考”时代。

Jakub 说，GPT-5 代表着关键转变：AI 从秒级反应走向小时级思考。

而Mark 补充说，在内测中，专业研究人员发现模型已经具备了协同思考的能力：“氛围编程”，正在演化成“氛围研究”。

这不仅是技术突破，更预示着 AI 应用模式的根本转变：

当 AI 进入“长思考时代”，企业的使用方式、协作节奏、组织结构都要重新设计。

第一节｜AI 的工作方式，从秒反应变成小时思考

过去几年，大家习惯了和 AI 聊天，一问一答，几秒钟内出结果。但 GPT-5 发布后，OpenAI 内部传递出一个新信号：

“AI 不该只在几秒钟内反应，而应该在几小时内真正想清楚。”

这正是模型背后的根本设计方向。

Jakub 解释说，在 GPT-5 之前，OpenAI 其实有两条不同的模型路径：

一条是我们熟悉的 GPT-3.5、GPT-4，追求快速响应、即时输出；
另一条是 O 系列，比如 O3，模型在内部想一会儿，再慢慢给出更靠谱的答案。

GPT-5 的目标，就是把这两种能力合并，让模型能自动选择合适的思考时长。

Mark Chen 解释说：“我们想让用户不用操心到底该用哪个版本、选哪个速度。模型会自己判断：这个问题需要想多久，再开始动手。”

OpenAI 内部团队认为，AI 正在从快速响应转向深度思考。

比如在数学建模、代码改写、策略规划这些场景中，用户不再只是要一个答案，而是希望 AI 能：

想清楚问题到底是什么；
拆成哪几步来解；
每一步要不要重新推理；
哪一步错了，能不能调整；
形成一套完整的解决思路。

Jakub 说，这类长时间推理的任务能力，以前靠人来做，现在AI已经能够胜任：

现在的模型已经能在 1 小时到 5 小时的时间范围内持续工作。

就像一个研究生不再是看一眼题目就给答案，而是能盯着一道难题琢磨一下午，最终得出一套完整思路。

Mark 也强调，O3是第一个真正适合日常推理工作的模型，而GPT-5进一步增强了这种能力，能在更长时间内保持稳定和准确。

这对企业意味着什么？

你需要重新认识 AI 的能力边界。它不再只是快速输出答案，而是能够进行长时间、深层次的问题分析。

AI 工作模式的这种根本转变，要求企业也要调整自己的使用策略。

第二节｜提示词没用，AI 要你陪它做研究

过去几年，很多企业围着 AI 搭场景、搞培训、练提示词。但 OpenAI 两位高管给出的提醒很明确：

我们现在要做的，不只是让模型回答，而是让它能“自己想办法”。

在这次访谈中，主持人提到了一个真实场景：几位高中生使用GPT编程时发现，现在写代码变成了 “氛围编程 (Vibe Coding)”，更像是在跟 AI 讨论、试探，根据AI的建议逐步完成。

对此，Mark 表示：“我觉得未来会进入一个新阶段，叫'氛围研究（Vibe Researching） '。”

这句话意思是：AI 开始具备辅助发现的能力。

在GPT-5 的内部测试中，OpenAI 把模型交给专业科学家和数学家试用。Jakub 发现了一个意外现象：他们拿出真正困难的问题，模型能够找到全新的解法，这些是之前版本做不到的。

这些专家的反馈是：GPT-5 已经不是在给答案，而是在和他们一起思考、一起寻找解题路径。

这种使用方式与传统的 AI 交互完全不同：

不是下个指令等输出；
而是与 AI 共同解决难题，愿意等它深度思考后再给出结论。

Mark 强调了这一转变：“我们发现，旧一代模型在简单问题上花费过多时间，复杂问题上反而处理得太快。新的 Codex 正在寻找平衡点：简单任务快速完成，复杂问题投入充足时间。”

模型不再只是被动执行指令，而是开始主导思考过程。

与此同时，企业需要适应是：从追求完美的提示词技巧，转向设定清晰目标，然后给系统充分的思考空间。

就像与专业顾问合作，你描述清楚问题，然后信任对方的判断和工作方式。

第三节｜别只看答得准，要看能不能发现新东西

很多企业在上线智能工具后，习惯用传统指标评估效果：模型在测试题里答对了多少；响应速度如何；有没有犯错误。

但在 OpenAI 看来，这类评估标准，已经不够用了。

Jakub 明确表示：

“我们过去几年用的这些评估指标，已经快饱和了。”

什么意思？

比如数学题、编程题这种测试方式，从 GPT-3 到 GPT-4 到 GPT-5，准确率从 96% 到 98%、99%，进步空间已经很有限。

就像一位学生，已经能稳定考 98 分，再追问他能否考 99 分意义不大。

Jakub 提出，真正重要的，是看模型能不能发现新东西。

我们希望看到的标志，是模型在科学或工程上，能有一些真正的实际进展。

举个例子：

OpenAI 最近在 AtCoder 编程比赛中测试模型，它的表现已经能拿下全球第二名。主持人调侃说：“那你们只差第一名了。”

Jakub 并没有纠结于排名，而是强调了比赛的深层意义：

“这些比赛其实是未来研究成功的真实标志。世界上很多优秀的研究员都是从这种竞赛走出来的。”

但他也指出，这些标准仍有局限，因为它们还是人为设定的任务，都有固定答案。

接下来，OpenAI 更关注的是：

模型能否在没人给方向的情况下自己探索
能否真正提出别人没想到的做法
能否在开放的、没有标准答案的领域里持续推进

这类过程已经远超答对错的范畴，更像是在考验独立研究能力。

Mark 透露，为了训练这种能力，OpenAI 内部会让模型完全自主解决问题，不提供任何提示或答案。

回到实际应用层面，企业不应只关注工具做对几道题，而要重点评估：

创新性：它是否带来了你没想到的解决方法
效率性：它是否显著提升了工作效率，解决了原本耗时很久的任务
价值性：它是否产生了真正的经济价值，解决了实际问题

这才是下一个阶段，评估 AI 能力的核心标准。

第四节｜AI具备持续推理能力，组织要适应变化

当 AI 具备了长时间思考的能力，企业能否真正用好它，关键在于组织结构是否匹配。

在 GPT-5 的研发背后，OpenAI 也面临着一样的问题：如何让团队适应更复杂、更长周期的 AI 研发？

为了解决这一问题，Mark Chen 提到，OpenAI 持续推出新模型的背后，是一种专注攻克难题的研究文化：

我们不是靠模仿别人，也不是靠盯着竞争对手。我们知道自己要做什么，大家被这个目标吸引而来。

这句话的重点，不在信念，关键在于组织方式：不依赖个别天才单打独斗，而是构建一个不怕失败、有储备、有接力能力的团队。

Jacob 分享了一个细节：

“我们最成功的一些研究员，加入 OpenAI 前根本没做过深度学习。他们原来是做物理、做数学、做金融的。”

但他们有两个共同特征：

有技术基础；
能在一个方向上反复尝试，愿意做难题。

这也意味着，招聘重点不应该是工具使用的熟练程度，而应该是持续学习和适应变化的能力。

当然，学习适应能力也有不同的表现形式。Mark 说，OpenAI 内部有两种研究员都很重要：

一种擅长提出新想法，探索多个方向；
另一种擅长深挖一个想法，逐步验证和打磨。

他们的策略是把不同专长的人才组合起来，实现优势互补。

同样地，对企业而言，要发挥 AI 价值，组织结构也需要相应调整：

专注长期目标持续推进，而非只追短期热点；
建立能够留人、培养人、支持迭代的机制；
培养团队与智能系统协同工作的能力。

正如 Jakub 所说：

“一个好的研究组织，最明显的标志是团队永远在学习新东西，从没停下来过。

这个趋势下，AI 进入新阶段，组织调整必须跟上。

结语｜AI 不再只是工具，而是思考伙伴

OpenAI 的 Jakub Pachocki 与 Mark Chen 花了一个小时只讲一件事：AI 正在从聊天工具变成思考伙伴。

具体来说：

AI 开始会深度思考、持续推进、主动规划。

这要求企业同步调整四个方面：

任务周期：适应长时间推理过程
协作方式：从下指令转向共同探索
评估标准：从准确率转向创新能力
团队结构：匹配 AI协作需求

企业如果还停留在提示词优化和试点项目上，就会被时代抛弃。

GPT-5 标志着新协作模式的开始。

AI 进入“长思考”时代，企业面临的不再是如何用好 AI，而是如何跟上 AI。

本文由AI深度研究院出品，内容翻译整理自OpenAI首席科学家Jakub Pachocki与首席研究官Mark Chen在a16z Podcast的访谈。未经授权，不得转载。

星标公众号，点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

https://www.youtube.com/watch?v=KSgPNVmZ8jQ&utm

https://podcasts.apple.com/be/podcast/from-vibe-coding-to-vibe-researching-openais-mark-chen/id842818711?i=1000728378665

来源：官方媒体/网络新闻，

排版：Atlas

编辑：深思

主编：图灵

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

OpenAI 双高管：AI 进入“长思考”时代，企业要改这四件事

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

男子被指用SIM卡炼出近200克黄金价值21万元 最新回应

男子被指用SIM卡炼出近200克黄金价值21万元 最新回应

杜兰特鏖战44分钟累瘫 轰36+7却致命失误

演员孙涛澄清闫学晶言论 落泪维护妻子

“百年老字号”张小泉遭60亿债务压顶

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

高大上？错，刚够吃：揭秘历代画家混饭史

耳石脱落为何让人天旋地转+恶心？

养娃四大套路 轻松教出好孩子

“马”上免费！全国多地景区推出马年限定福利

外省考江西警校难？别急！招生政策揭秘

男子被指用SIM卡炼出近200克黄金价值21万元最新回应

男子被指用SIM卡炼出近200克黄金价值21万元最新回应

杜兰特鏖战44分钟累瘫轰36+7却致命失误

演员孙涛澄清闫学晶言论落泪维护妻子

主打家庭大六座奕境首款SUV将北京车展亮相

养娃四大套路轻松教出好孩子