网易首页 > 网易号 > 正文 申请入驻

你急它不急:GPT-5先判断,再决定「速答」还是「深想」

0
分享至


新智元报道

编辑:倾倾

【新智元导读】GPT-5不再只是更聪明的模型,而是一台学会犹豫的机器。它能判断问题的难度,分配自己的思考时间,甚至决定何时该停下。OpenAI副总裁Jerry Tworek在最新访谈中透露:GPT-5的真正突破,是让AI拥有了「时间感」。当机器学会克制,人类却愈加焦躁。也许我们教给AI的,不只是如何思考,而是如何重新做人。

十年前,人类教机器「算」;如今,机器开始学会「想」。

OpenAI副总裁Jerry Tworek在一次访谈里,随口提到一句话:

GPT-5可以自己决定要思考多久。


这句话让AI圈炸开了锅。

因为这意味着,AI不再只是被动接收指令的工具,而是开始调控自己的思维节奏

有的问题,它几秒就能答出;有的问题,它会「犹豫」、停顿、再推几步。仿佛第一次拥有了时间感

而这,可能是从生成答案的机器到真正会思考的智能体之间,最关键的一步。

从「算」到「想」

AI也该学会先想再答

当我们向GPT-5提问时,它并不总是最先给出答案。有时,它会停一停,先把内部的逻辑梳理清楚,再做选择。

这个停顿并非性能拉胯,而是其思考能力成熟的信号:AI不再是盲目输出,而是在思考要输出什么、如何输出最优解。

在Matt Turck的访谈中,Jerry Tworek提出了一个核心观点:

AI的「推理」,并不是逻辑或数学证明,而是在语言空间中学习搜索与组合模式。

他认为,AI的思考发生在语言的概率空间中。模型在生成每一个词(token)时,都会进行无数次隐形的比较与判断,这种语言层面的搜索,构成了它的推理过程。


为让这种「思考」更易于理解,研究者们在2022年提出了Chain of Thought(思维链)技术。


简单来说,就是在提示词中要求模型「一步步思考再回答」,从而显著提升复杂推理任务的正确率。

GPT-5则在此基础上更进一步。Tworek提到,GPT-5不仅会展开推理链,还能「判断自己要思考多久」。

我们发现,模型能根据问题的难度动态决定思考时间——难题思考更久,简单题思考更短。

这意味着,GPT-5的升级不只是推理更强,而是让机器第一次拥有了时间感

它会在每一步内部问自己:「要不要再想一想?」、「这一步够了吗?」

这种控制思维深度的机制,被研究者称为Dynamic Reasoning Depth(动态推理深度)。

就像人解数学题,GPT-3可能秒回,GPT-5 却选择斟酌:它会先想清思路,再回答问题。

这不是迟缓,而是一种更高层次的克制。

AI的「犹豫」

机器如何学会自己决定思考多久?

在过去的语言模型里,AI的推理都是一口气完成的。

输入问题,模型沿着概率最高的路径一路生成,直到遇到结束符号。

这就像一个不会停下来的学生:无论题目多难,都用同样的时间、同样的思维方式作答。

而GPT-5的关键进化,是让机器学会了「犹豫」:它能判断自己是否「想得够不够」,要不要再推几步。

Jerry Tworek在与Matt Turck的访谈中提到:

我们一直在实验一种机制,让模型自己决定要思考多久。你几乎能看到它在复杂问题上分配更多步骤来推理。


这种机制的原理,与2024年一项研究提出的思路相似。

一篇论文曾提出:模型可以在生成过程中「在线评估」当前答案的置信度,并据此选择继续推理或提前终止。

作者在论文中写道:

模型可以在推理阶段自适应地决定推理步数,从而同时提升效率与准确度。

换句话说,GPT-5不是在死记硬背,而是在分配思考预算:它会用更多计算资源处理逻辑链更长、变量更多的问题,在较简单的输入上则快速收敛。


这样的「时间自控力」,让AI从一个被动的应答者,变成了有节奏的思考者。

它不再一次性输出结果,而是像人一样先审题,再推理,再决定:「我是不是该再想一想?」

目前,OpenAI内部称这一思路为Controlled Deliberation(受控思考)

在实践中,这种机制不仅提升了复杂任务的正确率,也减少了幻觉的出现,因为模型有更多机会在中间步骤中自我验证。

根据2024年OpenAI的一份技术备忘录,这种动态推理模型在数学与逻辑类benchmark上的平均准确率提升了约18%。

当我们重新看向GPT-5的「犹豫」,会发现那其实是一种成熟。

它不再追求立刻回答,而是学会了——在正确之前,先想清楚。

从o1到GPT-5

OpenAI如何教出一台会思考的机器?

如果说GPT-5的犹豫是它的新能力,那么这场蜕变的起点,来自OpenAI内部的一系列试验模型。

在访谈中,Jerry Tworek首次公开提到一个很少见的版本序列:O1→O3→GPT-5。

这不是单纯的命名升级,而是一条清晰的演化线——每一代,都在回答一个问题:机器能不能更好地「想」?

Tworek解释道:

o1是我们第一次看到模型真正展现出推理能力的时候。o3让它能更稳定地使用中间步骤,而GPT-5则让整个思考过程变得可控。

这一演化路径,代表着 OpenAI在「让模型思考」这件事上从启蒙到自觉的过程:

  • o1阶段:模型开始显露出零星的推理迹象,能够在算术、逻辑题中表现出超出「模仿」层面的理解。

  • o3阶段:通过强化学习和思维链优化,模型能更系统地展开中间步骤,不再轻易跳步或遗忘关键逻辑。

  • GPT-5阶段:引入「动态推理深度控制」,让模型在推理过程中具备时间自我管理的能力。

从技术角度看,GPT-5很可能使用了一种结合Reinforcement Learning with Deliberation (RLD) 的框架,即在训练阶段为模型引入奖励信号,不仅评估「答对没」,还评估「思考得好不好」。

在这方面,一篇具有代表性的论文——Let’s Verify Step by Step提出了「过程监督(process supervision)」的概念。


论文指出:

在具有挑战性的MATH数据集上,用过程监督训练模型,显著优于只监督最终结果的方法。

OpenAI此后也在官方博客中多次提到,他们正在探索利用「中间步骤奖励」来改进推理模型的训练,以减少幻觉并增强模型在数学和逻辑任务上的可靠性。

从o1的「会想」,到o3的「想得稳」,再到GPT-5的「懂得停」, OpenAI完成了一次看似微小却决定性的飞跃:

智能,不只是计算力,更是对思考过程的调控力。

机器的耐心,人类的焦虑

GPT-5的进化,让机器第一次学会了慢下来。

它不再以最快速度给出答案,而是懂得分配推理时间、验证中间步骤、再谨慎地输出结果。

这种「克制」,在技术语境中被称作Controlled Deliberation(受控思考)

换句话说,AI越能「克制」,越能「正确」。这是一种与人类思维截然相反的进化路径。

在我们的时代,一切都在追求快:即时通讯、即时反馈、即时决策。

人类的思维越来越依赖短线反应,而机器却在被训练得越来越耐心。

OpenAI的研究人员在博客中写道:

思考步数越多的模型往往更准确,但我们也必须教它们——何时该停下。

这句话更像是在对人类说的。我们同样被效率困住,却忘了「停下」也是一种智慧。

当AI开始拥有思考时间的自我管理能力,它反而比我们更像人。

它懂得在复杂中沉默,在不确定中思索,而我们则在碎片化中一次次打断自己的思考。

有人将这种变化称为「耐心的反转」:

机器在学会慢,而人类却越来越快。

也许有一天,我们不再问「AI什么时候比人聪明」,而是会开始反思——我们是不是还配得上「思考」这个词。

从o1的稚嫩,到o3的沉稳,再到GPT-5的自控,OpenAI用十年时间,让一台机器学会了「慢」。

它不再只是追求速度的算子,而是一个有节奏的思考者。

它能判断问题的复杂度,分配自己的「思考预算」,甚至懂得在恰当的时刻停下。

而这一切的背后,是人类第一次教出了一种懂得克制的智能。

也许,这才是真正的「推理」起点。

当机器在追求「想得更清楚」,而我们忙着「做得更快」,

那一刻,AI 不再只是镜像我们的理性,它反而照出了我们早已遗忘的耐心。

人类让机器思考,最后被提醒的,可能正是——如何去想。

参考资料:

https://x.com/mattturck/status/1978838545008927034

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
汉语的同化能力太强了!加拿大华人发明的中式单词,竟火遍海外!

汉语的同化能力太强了!加拿大华人发明的中式单词,竟火遍海外!

今日美食分享
2026-01-03 12:18:14
1.53GB!OriginOS6 1月大更新来袭,这些亮点让手机焕然一新!

1.53GB!OriginOS6 1月大更新来袭,这些亮点让手机焕然一新!

小柱解说游戏
2026-01-08 01:59:31
逃税!深圳公司被罚15亿!

逃税!深圳公司被罚15亿!

跨境老鸟Mike
2026-01-07 15:14:54
突然意识到对方是在有钱又有爱的家庭长大的,那一刻我沉默了

突然意识到对方是在有钱又有爱的家庭长大的,那一刻我沉默了

另子维爱读史
2025-12-27 18:35:00
大部分人的存款,都会归于零

大部分人的存款,都会归于零

诗词中国
2025-12-21 21:19:44
专家:联合国机制短期难以制约美国,但国际社会持续谴责终将产生效力

专家:联合国机制短期难以制约美国,但国际社会持续谴责终将产生效力

俄罗斯卫星通讯社
2026-01-07 15:17:38
宋丹丹没料到,距过年不到两个月,赵本山因何庆魁一句话口碑暴涨

宋丹丹没料到,距过年不到两个月,赵本山因何庆魁一句话口碑暴涨

洞鉴地理
2026-01-05 14:14:50
一个只存在53天,不被任何国家承认的政权——中华共和国

一个只存在53天,不被任何国家承认的政权——中华共和国

何氽简史
2025-11-25 19:55:49
瑞士竟然扣马杜罗财?真相残酷,钱在瑞士不是生意,而是猎物!

瑞士竟然扣马杜罗财?真相残酷,钱在瑞士不是生意,而是猎物!

画夕
2026-01-07 06:52:48
风流成性、挥霍无度,37岁“纵欲过度”的王思聪,再次陷入大丑闻

风流成性、挥霍无度,37岁“纵欲过度”的王思聪,再次陷入大丑闻

老吴教育课堂
2025-12-26 00:37:51
1987年,蒋经国最后一张全家合影,身患糖尿病,第二年去世!

1987年,蒋经国最后一张全家合影,身患糖尿病,第二年去世!

鹤羽说个事
2026-01-06 10:46:23
玄学提醒:尽量不要给身边任何人,分享这3件事。

玄学提醒:尽量不要给身边任何人,分享这3件事。

木言观
2026-01-07 08:23:22
早餐为什么不能喝粥?医生:不止是粥,这几类食物,请嘴下留情

早餐为什么不能喝粥?医生:不止是粥,这几类食物,请嘴下留情

健康之光
2025-12-31 07:25:03
韩国队26世界杯球衣谍照:主色调源自太极旗,金色元素回归

韩国队26世界杯球衣谍照:主色调源自太极旗,金色元素回归

懂球帝
2026-01-07 13:05:09
深度揭秘 | 在市长、市委书记、省政协副主席等职上受贿4631万,王昊被判13年

深度揭秘 | 在市长、市委书记、省政协副主席等职上受贿4631万,王昊被判13年

一分为三看人生
2026-01-08 00:11:41
女子因钾过低不幸离世!告诫:平时宁愿少吃点肉,也要多吃这6物

女子因钾过低不幸离世!告诫:平时宁愿少吃点肉,也要多吃这6物

阿兵科普
2025-12-30 21:12:47
72小时一架!沈飞歼-35产能大爆发,改写全球五代机格局

72小时一架!沈飞歼-35产能大爆发,改写全球五代机格局

华人星光
2026-01-07 13:31:41
过去穷人才吃,如今穷人却吃不起的4样下酒菜,全吃过说明你苦过

过去穷人才吃,如今穷人却吃不起的4样下酒菜,全吃过说明你苦过

生命之泉的奥秘
2026-01-05 11:39:10
网红经济崩了,杭州回不去了

网红经济崩了,杭州回不去了

麦小柒
2025-11-24 14:49:22
婚姻法新规:非夫妻关系的男女自愿同居,如果被查到了...

婚姻法新规:非夫妻关系的男女自愿同居,如果被查到了...

谭老师地理大课堂
2025-12-09 18:24:33
2026-01-08 03:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14279文章数 66451关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

健康
本地
手机
公开课
军事航空

这些新疗法,让化疗不再那么痛苦

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

手机要闻

曝Galaxy S26系列2月25日发布,不会涨价!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普政府正在讨论获取格陵兰岛的方案 包括军事选项

无障碍浏览 进入关怀版