你急它不急：GPT-5先判断，再决定「速答」还是「深想」|数学|推理|思考者|jerry

你急它不急：GPT-5先判断，再决定「速答」还是「深想」

2025-11-17 14:14:53　来源: 新智元

北京举报

分享至

新智元报道

编辑：倾倾

【新智元导读】GPT-5不再只是更聪明的模型，而是一台学会犹豫的机器。它能判断问题的难度，分配自己的思考时间，甚至决定何时该停下。OpenAI副总裁Jerry Tworek在最新访谈中透露：GPT-5的真正突破，是让AI拥有了「时间感」。当机器学会克制，人类却愈加焦躁。也许我们教给AI的，不只是如何思考，而是如何重新做人。

十年前，人类教机器「算」；如今，机器开始学会「想」。

OpenAI副总裁Jerry Tworek在一次访谈里，随口提到一句话：

GPT-5可以自己决定要思考多久。

这句话让AI圈炸开了锅。

因为这意味着，AI不再只是被动接收指令的工具，而是开始调控自己的思维节奏。

有的问题，它几秒就能答出；有的问题，它会「犹豫」、停顿、再推几步。仿佛第一次拥有了时间感。

而这，可能是从生成答案的机器到真正会思考的智能体之间，最关键的一步。

从「算」到「想」

AI也该学会先想再答

当我们向GPT-5提问时，它并不总是最先给出答案。有时，它会停一停，先把内部的逻辑梳理清楚，再做选择。

这个停顿并非性能拉胯，而是其思考能力成熟的信号：AI不再是盲目输出，而是在思考要输出什么、如何输出最优解。

在Matt Turck的访谈中，Jerry Tworek提出了一个核心观点：

AI的「推理」，并不是逻辑或数学证明，而是在语言空间中学习搜索与组合模式。

他认为，AI的思考发生在语言的概率空间中。模型在生成每一个词（token）时，都会进行无数次隐形的比较与判断，这种语言层面的搜索，构成了它的推理过程。

为让这种「思考」更易于理解，研究者们在2022年提出了Chain of Thought（思维链）技术。

简单来说，就是在提示词中要求模型「一步步思考再回答」，从而显著提升复杂推理任务的正确率。

GPT-5则在此基础上更进一步。Tworek提到，GPT-5不仅会展开推理链，还能「判断自己要思考多久」。

我们发现，模型能根据问题的难度动态决定思考时间——难题思考更久，简单题思考更短。

这意味着，GPT-5的升级不只是推理更强，而是让机器第一次拥有了时间感。

它会在每一步内部问自己：「要不要再想一想？」、「这一步够了吗？」

这种控制思维深度的机制，被研究者称为Dynamic Reasoning Depth（动态推理深度）。

就像人解数学题，GPT-3可能秒回，GPT-5 却选择斟酌：它会先想清思路，再回答问题。

这不是迟缓，而是一种更高层次的克制。

AI的「犹豫」

机器如何学会自己决定思考多久？

在过去的语言模型里，AI的推理都是一口气完成的。

输入问题，模型沿着概率最高的路径一路生成，直到遇到结束符号。

这就像一个不会停下来的学生：无论题目多难，都用同样的时间、同样的思维方式作答。

而GPT-5的关键进化，是让机器学会了「犹豫」：它能判断自己是否「想得够不够」，要不要再推几步。

Jerry Tworek在与Matt Turck的访谈中提到：

我们一直在实验一种机制，让模型自己决定要思考多久。你几乎能看到它在复杂问题上分配更多步骤来推理。

这种机制的原理，与2024年一项研究提出的思路相似。

一篇论文曾提出：模型可以在生成过程中「在线评估」当前答案的置信度，并据此选择继续推理或提前终止。

作者在论文中写道：

模型可以在推理阶段自适应地决定推理步数，从而同时提升效率与准确度。

换句话说，GPT-5不是在死记硬背，而是在分配思考预算：它会用更多计算资源处理逻辑链更长、变量更多的问题，在较简单的输入上则快速收敛。

这样的「时间自控力」，让AI从一个被动的应答者，变成了有节奏的思考者。

它不再一次性输出结果，而是像人一样先审题，再推理，再决定：「我是不是该再想一想？」

目前，OpenAI内部称这一思路为Controlled Deliberation（受控思考）。

在实践中，这种机制不仅提升了复杂任务的正确率，也减少了幻觉的出现，因为模型有更多机会在中间步骤中自我验证。

根据2024年OpenAI的一份技术备忘录，这种动态推理模型在数学与逻辑类benchmark上的平均准确率提升了约18%。

当我们重新看向GPT-5的「犹豫」，会发现那其实是一种成熟。

它不再追求立刻回答，而是学会了——在正确之前，先想清楚。

从o1到GPT-5

OpenAI如何教出一台会思考的机器？

如果说GPT-5的犹豫是它的新能力，那么这场蜕变的起点，来自OpenAI内部的一系列试验模型。

在访谈中，Jerry Tworek首次公开提到一个很少见的版本序列：O1→O3→GPT-5。

这不是单纯的命名升级，而是一条清晰的演化线——每一代，都在回答一个问题：机器能不能更好地「想」？

Tworek解释道：

o1是我们第一次看到模型真正展现出推理能力的时候。o3让它能更稳定地使用中间步骤，而GPT-5则让整个思考过程变得可控。

这一演化路径，代表着 OpenAI在「让模型思考」这件事上从启蒙到自觉的过程：

o1阶段：模型开始显露出零星的推理迹象，能够在算术、逻辑题中表现出超出「模仿」层面的理解。
o3阶段：通过强化学习和思维链优化，模型能更系统地展开中间步骤，不再轻易跳步或遗忘关键逻辑。
GPT-5阶段：引入「动态推理深度控制」，让模型在推理过程中具备时间自我管理的能力。

从技术角度看，GPT-5很可能使用了一种结合Reinforcement Learning with Deliberation (RLD) 的框架，即在训练阶段为模型引入奖励信号，不仅评估「答对没」，还评估「思考得好不好」。

在这方面，一篇具有代表性的论文——Let’s Verify Step by Step提出了「过程监督（process supervision）」的概念。

论文指出：

在具有挑战性的MATH数据集上，用过程监督训练模型，显著优于只监督最终结果的方法。

OpenAI此后也在官方博客中多次提到，他们正在探索利用「中间步骤奖励」来改进推理模型的训练，以减少幻觉并增强模型在数学和逻辑任务上的可靠性。

从o1的「会想」，到o3的「想得稳」，再到GPT-5的「懂得停」， OpenAI完成了一次看似微小却决定性的飞跃：

智能，不只是计算力，更是对思考过程的调控力。

机器的耐心，人类的焦虑

GPT-5的进化，让机器第一次学会了慢下来。

它不再以最快速度给出答案，而是懂得分配推理时间、验证中间步骤、再谨慎地输出结果。

这种「克制」，在技术语境中被称作Controlled Deliberation（受控思考）。

换句话说，AI越能「克制」，越能「正确」。这是一种与人类思维截然相反的进化路径。

在我们的时代，一切都在追求快：即时通讯、即时反馈、即时决策。

人类的思维越来越依赖短线反应，而机器却在被训练得越来越耐心。

OpenAI的研究人员在博客中写道：

思考步数越多的模型往往更准确，但我们也必须教它们——何时该停下。

这句话更像是在对人类说的。我们同样被效率困住，却忘了「停下」也是一种智慧。

当AI开始拥有思考时间的自我管理能力，它反而比我们更像人。

它懂得在复杂中沉默，在不确定中思索，而我们则在碎片化中一次次打断自己的思考。

有人将这种变化称为「耐心的反转」：

机器在学会慢，而人类却越来越快。

也许有一天，我们不再问「AI什么时候比人聪明」，而是会开始反思——我们是不是还配得上「思考」这个词。

从o1的稚嫩，到o3的沉稳，再到GPT-5的自控，OpenAI用十年时间，让一台机器学会了「慢」。

它不再只是追求速度的算子，而是一个有节奏的思考者。

它能判断问题的复杂度，分配自己的「思考预算」，甚至懂得在恰当的时刻停下。

而这一切的背后，是人类第一次教出了一种懂得克制的智能。

也许，这才是真正的「推理」起点。

当机器在追求「想得更清楚」，而我们忙着「做得更快」，

那一刻，AI 不再只是镜像我们的理性，它反而照出了我们早已遗忘的耐心。

人类让机器思考，最后被提醒的，可能正是——如何去想。

参考资料：

https://x.com/mattturck/status/1978838545008927034

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.