OpenAI高管自爆：Scaling不死，GPT-5「双轴训练」撕开智能天花板|算法|agi|gpt|大模型|人工智能|openai|scaling

OpenAI高管自爆：Scaling不死，GPT-5「双轴训练」撕开智能天花板

2025-08-20 09:49:31　来源: 新智元

北京举报

分享至

新智元报道

编辑：KingHZ

【新智元导读】奥特曼称GPT-5「比人聪明」，但OpenAI首席运营官Lightcap澄清：这不是AGI。这只是能力过剩的冰山一角——我们仍有十年产品可建，模型越智能，融合越要精妙。GPT-5标志着从纯智商到反思能力的全面跃进。

GPT-5的能力到底有什么提升与意义？人工智能未来走向何处？这款惊艳亮相的OpenAI新模型，如何揭示智能的多种形态？

OpenAI的首席运营官Brad Lightcap在深度对话中揭开了这些问题的答案。

GPT-5为何如此特殊？

GPT-5实现了一个非常有趣的突破：可自主判断是否先进行深度推理再回答。

过去用户必须通过ChatGPT的模型选择器，手动为不同任务挑选模型。提问后，有时你会选思考模式，有时则不会。OpenAI认为这种体验说实话容易让人困惑。

GPT-5彻底简化了这个流程。它不仅自动替你决策，本质上也更聪明。在写作、编程、健康等领域，它准确性更高、响应更快，整体体验全面升级。

大家本以为GPT-5的智能将爆炸式增长，为何OpenAI选择以可用性而非智能提升作为主要卖点？

Brad Lightcap解释道，这是因为智能本质上取决于模型投入的思考时间。

分配越多的思考时长，答案质量就越高——这是基本规律。当在特定基准测试中允许模型思考时，AI的表现远超现有所有模型。

即便不启用思考时间，它给出的答案依然普遍优于GPT-4.1这类非思考型模型。

因此，这是一次全维度的智能飞跃。但关键在于动态分配思考时间的能力——OpenAI认为这才是提升用户体验的核心。

这种进步很难用简单的「指数级」或「渐进式」来界定。

现在人类已经进入需要从多维度评估智能的阶段——OpenAI不是在回避问题，而是为了说明GPT-5为何如此特殊。

在核心能力上，它的提升显而易见：SWEBench测试得分更高，各类学术评估表现更优。OpenAI还特别强化了GPT-5在健康领域的基准表现。

但如今衡量模型优劣的标准已经变得非常多元。

根据训练方式和问题处理机制的不同，我们可以从多个角度进行评估：

-速度本身即质量：单位思考时间内能给出更优答案，这本身就是重要的进步指标

-隐形能力升级：结构化思考、问题分解、工具调用等底层能力全面提升

所有这些维度，GPT-5都超越了前代模型。

Scaling Law未死

从GPT-1到GPT-2、GPT-3，再到GPT-4的每次跃进，能力都是全面提升的。

那时候，「更大的模型=全面更好的模型」。而GPT-5似乎并非如此。所以，情况变了吗？

Brad Lightcap表示：「从技术角度看，情况确实变了。」

从GPT-2到GPT-3，再到GPT-3到GPT-4，主要是利用了当时的Scaling范式。训练规模越大的模型，结果就得到更好的模型。

这个规律依然成立，但现在有了另一类训练方式，即后训练（post-training）。用更有趣的方式使用测试时计算（test-time compute），几乎像是训练的第二阶段。

这提供了一种推动力，让OpenAI能将模型推向新的智能水平，同时还能训练「智多星」。

比如，使用工具对整体智能非常重要。GPT-2和GPT-3在这方面做得不太好。GPT-4在这方面很初级。而现在GPT-5内置了这些能力，结合了多步骤和更长远的推理过程。

既然训练方式开始变化，那OpenAI现在是否认为预训练（pre-training）的回报在递减？

Brad Lightcap强调他们并不认为预训练（pre-training）的回报在递减。

Scaling Law依然成立。从经验上看，没有理由认为预训练的回报会递减。

而在后训练方面，大家才刚开始触及这个新范式的表面。o系列模型，即之前的推理模型，只是OpenAI开始探索后训练的起点。

Brad Lightcap认为未来一两年，主要方向是继续在后训练维度上Scaling，继续看到显著的收益。因为这些收益太明显了。所以现在从两个轴向上改进模型：预训练和后训练。这会加速创新。

从现在起，大多数改进会来自Scaling，还是算法？

Brad Lightcap表示总是组合拳。

算法、规模、计算力和数据，这些都缺一不可。展望未来，OpenAI它们都超级重要，需要全方位发力。

最难的部分当然是让它们完美融合。训练更大的模型，通常意味着你得用更多数据和计算力。这是个微妙的平衡，因为单纯放大规模，不一定总能带来同等的进步。你得把其他元素也带上。

OpenAI不是只按一个按钮，而是真的很用心，把所有这些拉到一起。

GPT-5能力过剩

但不叫「AGI」

在Theo Von的播客节目中，奥特曼说：「GPT-5在几乎所有方面都比人聪明。」

这听起来就像他想象中的AGI。他似乎想叫它 AGI，但OpenAI又没有明确这样说。所以，为什么GPT-5不是AGI？

Brad Lightcap解释道：「AGI确实难以定义」。

有个笑话说，你问五个人AGI是什么，会得到七种答案。

OpenAI看待AGI的方式是，AGI是个积累过程，是个系统。你得定义这个系统是什么，你期待它能做什么。

对Brad来说，至少，AGI是一个能稳定学习新事物（哪怕超出其训练分布）的系统，这种能力源自它的推理、思考、解决问题、使用工具以及提出新想法的能力。但他不认为GPT-5就是AGI：GPT-5以及后续模型中，开始看到的是这种「通用化学习系统」的部分雏形和模块。

而且很难确定AGI和非AGI的分界点。即便真有这个时刻，也不确定大家会在第一时间意识到。因为在和这些模型共事中，「能力储备过剩」很显著。奥特曼说的「口袋里的博士」这种智能水平，其实大家还没有真正完全利用好。

从某种意义上说，即使现在AI的发展暂停十年，大家依然会有大约十年的新产品可以构建，依然会有新方法来把GPT-5这种水平的模型融入有趣的产品和流程中。

一个有趣的现象是，模型越聪明，反而越要求产品设计方在如何将它融入系统方面投入更多。

Brad Lightcap常打个比方：

实习生非常聪明，但他们最终做的事情有限：记会议笔记、写摘要、做基础分析。

但如果你带来的是一位博士，他们的能力范围就很广了，只是第一天上班时可能并不立即高效。你要做的就是给他们足够的背景、信息和工具，让他们在后续发挥最大价值。而这个过程比让实习生上手所需的时间更长。

他认为AI模型也类似，这是一个持续的过程，并不会是线性的。

这引出个超级有趣的问题：从现在起，继续让模型更聪明有意义吗？还是该建哪些辅助能力？那么对于OpenAI来说，接下来的目标是继续增强智能，还是专注于那些「非智力」能力？

Brad Lightcap表示全都要。

一部分就是纯IQ：对事物运作的知识信息回忆的能力。

但还有推理能力：

怎么用其他工具解决问题；

反思能力：回顾自己的思路链，当你觉得走错路、没想对策略时，及时修正。

在这些问题上，GPT-5比之前系统好。

对OpenAI来说，现实世界基准作为智能标志，越来越重要，比学术基准更关键。

而「持续学习」（continual learning）这绝对是OpenAI优先事项之一。

首次用上推理AI

震撼免费用户

沃顿商学院的Ethan Mollick提前测试了GPT-5，他提出了一个有趣的观点：

如果你一直在关注这条发展曲线，那么GPT-5的进步可以说是一个巨大的飞跃，但也是一个出乎意料的飞跃。

他还提到：「这些模型在数学奥林匹克竞赛中获得了金牌。我越来越难以理解这些巨大的进步到底意味着什么。」

现在的所有模型都在快速改进。那么问题来了，如果你有一个大学水平生物学的模型，然后它达到了研究生水平的生物学，普通聊天机器人的用户可能不会感受到这种变化，尽管它变得更聪明了。

有人说，对于ChatGPT重度用户来说，这次提升会被感知到，但可能是比较细微的提升。

但对于普通用户，尤其是免费用户来说，这将是一种巨大的飞跃。大多数免费用户从未体验过推理模型的威力。他们大多用的是GPT-4.0，而且主要是进行类似搜索的简短、回合式对话，这种方式并不能体现模型的全部能力。

所以，对很多人来说，这将是他们第一次使用具备推理能力的模型。而且不仅如此，这也是他们第一次体验到「自我反思」的模型：根据问题的难度，GPT-5模型会自行决定花多少时间思考、给出多高质量的答案。

这其实是一件好事——如果一直紧追最强AI，那么你会感到目眩神迷，但进步也会显得更连续。而如果你一直用的是一两年前的最佳模型，那么这次的跃迁会让你非常震撼。

每个人的切入点都不一样，这也是有趣之处——它对每个人来说都是很个人化的体验。

GPT-5特别关注了健康领域，因为这是用户使用AI最常见的起点之一，尤其是有健康问题时。这是OpenAI的重要目标。

两大落地场景

健康与企业

Brad Lightcap认为AI不会取代医生：

人们依然需要与全科医生或专科医生合作进行治疗。

但有一个可以陪伴左右、在整个过程中提供指导的工具，对很多人来说是很有安慰感的，并且在很多情况下确实能发挥作用。

OpenAI推动模型在健康领域的能力提升，一直是他们重点关注的方向。

从GPT-5开始，未来的模型，准确率持续上升，幻觉率持续下降。

具体来说，GPT-5的准确率大约是前代模型的4到5倍（取决于测量方式）

在很多方面，还没有看到企业界人工智能的「ChatGPT时刻」。

相对于消费者，AI对企业是另一类难度。

企业流程复杂，多用户依赖很常见，必须处理大量的上下文，必须使用许多工具。这些工具必须以某种方式、在某些限制下依次使用。当它们不起作用时，容错率没有那么高。

只有能力基线的提升，AI在企业领域才能有所作用，包括使用工具、有条理思考、解决问题、递归纠正自身错误、进行长上下文检索等能力。

这些能力在边缘确实很重要。

OpenAI与多家企业合作测试这些模型，特别是GPT-5。从像Uber、Amgen、Harvey、Cursor、Lovable、JetBrains等公司那里，OpenAI得到了很多反馈。

如Cursor、JetBrains、Windsurf、Cognition等，都反馈说GPT-5现在感觉是最强大的编码模型，无论是在交互式编码环境中还是在更具代理性的编码环境中。

此外，GPT-5在其他领域中的推理和解决问题的能力有了显著提高。

Harvey就是一个很好的例子，Harvey AI与律师事务所合作，非常依赖其可靠、准确和一致地分析案例的能力，提供法律分析时所需的那种结构化思维水平。

GPT-5已经非常强大，未来肯定会有更优秀的模型，这一点毋庸置疑。

但目前OpenAI只专注于两件事：如何让更多人用上GPT-5，以及如何支持合作伙伴基于它开发生态。

我们仍处于科学探索阶段——这才是最令人兴奋的地方，就像比赛才刚开局，OpenAI自己也还在理解当前的范式。

GPT-5是重要的第一步，只有认清现状，才能看清未来。

参考资料：

https://www.bigtechnology.com/p/799049c8-5054-45c0-8ee7-9de1f2191759

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

OpenAI高管自爆：Scaling不死，GPT-5「双轴训练」撕开智能天花板

中兴阶跃荣耀齐出手，AI手机争夺系统入口

媒体：赫格塞思要求测睾酮 难道嫌美军缺乏阳刚之气

媒体：赫格塞思要求测睾酮 难道嫌美军缺乏阳刚之气

西班牙捧起大力神杯 美国总统特朗普颁奖

王侃因病逝世 两年前与父亲牛犇同台

“国家队”护盘，稳市机制持续护航A股

细节见真章 神行者8内饰首发体验

态度原创

PS官方宣传《光环》新作！被玩家狂喷8000多楼

张大千：千万别学郑板桥题字

刮痧也会刮出脑梗？讲个真实案例

十年了，为什么鬼怪CP还能让人美美嗑上？

三星显示开始供应全球最亮笔记本OLED 面向多家PC厂商

媒体：赫格塞思要求测睾酮难道嫌美军缺乏阳刚之气

媒体：赫格塞思要求测睾酮难道嫌美军缺乏阳刚之气

西班牙捧起大力神杯美国总统特朗普颁奖

王侃因病逝世两年前与父亲牛犇同台

细节见真章神行者8内饰首发体验