网易首页 > 网易号 > 正文 申请入驻

OpenAI高管自爆:Scaling不死,GPT-5「双轴训练」撕开智能天花板

0
分享至

新智元报道

编辑:KingHZ

【新智元导读】奥特曼称GPT-5「比人聪明」,但OpenAI首席运营官Lightcap澄清:这不是AGI。这只是能力过剩的冰山一角——我们仍有十年产品可建,模型越智能,融合越要精妙。GPT-5标志着从纯智商到反思能力的全面跃进。

GPT-5的能力到底有什么提升与意义?人工智能未来走向何处?这款惊艳亮相的OpenAI新模型,如何揭示智能的多种形态?

OpenAI的首席运营官Brad Lightcap在深度对话中揭开了这些问题的答案。

GPT-5为何如此特殊?

GPT-5实现了一个非常有趣的突破:可自主判断是否先进行深度推理再回答。

过去用户必须通过ChatGPT的模型选择器,手动为不同任务挑选模型。提问后,有时你会选思考模式,有时则不会。OpenAI认为这种体验说实话容易让人困惑。

GPT-5彻底简化了这个流程。它不仅自动替你决策,本质上也更聪明。在写作、编程、健康等领域,它准确性更高、响应更快,整体体验全面升级。

大家本以为GPT-5的智能将爆炸式增长,为何OpenAI选择以可用性而非智能提升作为主要卖点?

Brad Lightcap解释道,这是因为智能本质上取决于模型投入的思考时间。

分配越多的思考时长,答案质量就越高——这是基本规律。当在特定基准测试中允许模型思考时,AI的表现远超现有所有模型。

即便不启用思考时间,它给出的答案依然普遍优于GPT-4.1这类非思考型模型。

因此,这是一次全维度的智能飞跃。但关键在于动态分配思考时间的能力——OpenAI认为这才是提升用户体验的核心。

这种进步很难用简单的「指数级」或「渐进式」来界定。

现在人类已经进入需要从多维度评估智能的阶段——OpenAI不是在回避问题,而是为了说明GPT-5为何如此特殊。

在核心能力上,它的提升显而易见:SWEBench测试得分更高,各类学术评估表现更优。OpenAI还特别强化了GPT-5在健康领域的基准表现。

但如今衡量模型优劣的标准已经变得非常多元。

根据训练方式和问题处理机制的不同,我们可以从多个角度进行评估:

-速度本身即质量:单位思考时间内能给出更优答案,这本身就是重要的进步指标

-隐形能力升级:结构化思考、问题分解、工具调用等底层能力全面提升

所有这些维度,GPT-5都超越了前代模型。

Scaling Law未死

从GPT-1到GPT-2、GPT-3,再到GPT-4的每次跃进,能力都是全面提升的。

那时候,「更大的模型=全面更好的模型」。而GPT-5似乎并非如此。所以,情况变了吗?

Brad Lightcap表示:「从技术角度看,情况确实变了。」

从GPT-2到GPT-3,再到GPT-3到GPT-4,主要是利用了当时的Scaling范式。训练规模越大的模型,结果就得到更好的模型。

这个规律依然成立,但现在有了另一类训练方式,即后训练(post-training)。用更有趣的方式使用测试时计算(test-time compute),几乎像是训练的第二阶段。

这提供了一种推动力,让OpenAI能将模型推向新的智能水平,同时还能训练「智多星」。

比如,使用工具对整体智能非常重要。GPT-2和GPT-3在这方面做得不太好。GPT-4在这方面很初级。而现在GPT-5内置了这些能力,结合了多步骤和更长远的推理过程。

既然训练方式开始变化,那OpenAI现在是否认为预训练(pre-training)的回报在递减?

Brad Lightcap强调他们并不认为预训练(pre-training)的回报在递减。

Scaling Law依然成立。从经验上看,没有理由认为预训练的回报会递减。

而在后训练方面,大家才刚开始触及这个新范式的表面。o系列模型,即之前的推理模型,只是OpenAI开始探索后训练的起点。

Brad Lightcap认为未来一两年,主要方向是继续在后训练维度上Scaling,继续看到显著的收益。因为这些收益太明显了。所以现在从两个轴向上改进模型:预训练和后训练。这会加速创新。

从现在起,大多数改进会来自Scaling,还是算法?

Brad Lightcap表示总是组合拳。

算法、规模、计算力和数据,这些都缺一不可。展望未来,OpenAI它们都超级重要,需要全方位发力。

最难的部分当然是让它们完美融合。训练更大的模型,通常意味着你得用更多数据和计算力。这是个微妙的平衡,因为单纯放大规模,不一定总能带来同等的进步。你得把其他元素也带上。

OpenAI不是只按一个按钮,而是真的很用心,把所有这些拉到一起。

GPT-5能力过剩

但不叫「AGI」

在Theo Von的播客节目中,奥特曼说:「GPT-5在几乎所有方面都比人聪明。」

这听起来就像他想象中的AGI。他似乎想叫它 AGI,但OpenAI又没有明确这样说。所以,为什么GPT-5不是AGI?

Brad Lightcap解释道:「AGI确实难以定义」。

有个笑话说,你问五个人AGI是什么,会得到七种答案。

OpenAI看待AGI的方式是,AGI是个积累过程,是个系统。你得定义这个系统是什么,你期待它能做什么。

对Brad来说,至少,AGI是一个能稳定学习新事物(哪怕超出其训练分布)的系统,这种能力源自它的推理、思考、解决问题、使用工具以及提出新想法的能力。但他不认为GPT-5就是AGI:GPT-5以及后续模型中,开始看到的是这种「通用化学习系统」的部分雏形和模块。

而且很难确定AGI和非AGI的分界点。即便真有这个时刻,也不确定大家会在第一时间意识到。因为在和这些模型共事中,「能力储备过剩」很显著。奥特曼说的「口袋里的博士」这种智能水平,其实大家还没有真正完全利用好。

从某种意义上说,即使现在AI的发展暂停十年,大家依然会有大约十年的新产品可以构建,依然会有新方法来把GPT-5这种水平的模型融入有趣的产品和流程中。

一个有趣的现象是,模型越聪明,反而越要求产品设计方在如何将它融入系统方面投入更多。

Brad Lightcap常打个比方:

实习生非常聪明,但他们最终做的事情有限:记会议笔记、写摘要、做基础分析。

但如果你带来的是一位博士,他们的能力范围就很广了,只是第一天上班时可能并不立即高效。你要做的就是给他们足够的背景、信息和工具,让他们在后续发挥最大价值。而这个过程比让实习生上手所需的时间更长。

他认为AI模型也类似,这是一个持续的过程,并不会是线性的。

这引出个超级有趣的问题:从现在起,继续让模型更聪明有意义吗?还是该建哪些辅助能力?那么对于OpenAI来说,接下来的目标是继续增强智能,还是专注于那些「非智力」能力?

Brad Lightcap表示全都要。

一部分就是纯IQ:对事物运作的知识信息回忆的能力。

但还有推理能力:

怎么用其他工具解决问题;

反思能力:回顾自己的思路链,当你觉得走错路、没想对策略时,及时修正。

在这些问题上,GPT-5比之前系统好。

对OpenAI来说,现实世界基准作为智能标志,越来越重要,比学术基准更关键。

而「持续学习」(continual learning)这绝对是OpenAI优先事项之一。

首次用上推理AI

震撼免费用户

沃顿商学院的Ethan Mollick提前测试了GPT-5,他提出了一个有趣的观点:

如果你一直在关注这条发展曲线,那么GPT-5的进步可以说是一个巨大的飞跃,但也是一个出乎意料的飞跃。

他还提到:「这些模型在数学奥林匹克竞赛中获得了金牌。我越来越难以理解这些巨大的进步到底意味着什么。」

现在的所有模型都在快速改进。那么问题来了,如果你有一个大学水平生物学的模型,然后它达到了研究生水平的生物学,普通聊天机器人的用户可能不会感受到这种变化,尽管它变得更聪明了。

有人说,对于ChatGPT重度用户来说,这次提升会被感知到,但可能是比较细微的提升。

但对于普通用户,尤其是免费用户来说,这将是一种巨大的飞跃。大多数免费用户从未体验过推理模型的威力。他们大多用的是GPT-4.0,而且主要是进行类似搜索的简短、回合式对话,这种方式并不能体现模型的全部能力。

所以,对很多人来说,这将是他们第一次使用具备推理能力的模型。而且不仅如此,这也是他们第一次体验到「自我反思」的模型:根据问题的难度,GPT-5模型会自行决定花多少时间思考、给出多高质量的答案。

这其实是一件好事——如果一直紧追最强AI,那么你会感到目眩神迷,但进步也会显得更连续。而如果你一直用的是一两年前的最佳模型,那么这次的跃迁会让你非常震撼。

每个人的切入点都不一样,这也是有趣之处——它对每个人来说都是很个人化的体验。

GPT-5特别关注了健康领域,因为这是用户使用AI最常见的起点之一,尤其是有健康问题时。这是OpenAI的重要目标。

两大落地场景

健康与企业

Brad Lightcap认为AI不会取代医生:

人们依然需要与全科医生或专科医生合作进行治疗。

但有一个可以陪伴左右、在整个过程中提供指导的工具,对很多人来说是很有安慰感的,并且在很多情况下确实能发挥作用。

OpenAI推动模型在健康领域的能力提升,一直是他们重点关注的方向。

从GPT-5开始,未来的模型,准确率持续上升,幻觉率持续下降。

具体来说,GPT-5的准确率大约是前代模型的4到5倍(取决于测量方式)

在很多方面,还没有看到企业界人工智能的「ChatGPT时刻」。

相对于消费者,AI对企业是另一类难度。

企业流程复杂,多用户依赖很常见,必须处理大量的上下文,必须使用许多工具。这些工具必须以某种方式、在某些限制下依次使用。当它们不起作用时,容错率没有那么高。

只有能力基线的提升,AI在企业领域才能有所作用,包括使用工具、有条理思考、解决问题、递归纠正自身错误、进行长上下文检索等能力。

这些能力在边缘确实很重要。

OpenAI与多家企业合作测试这些模型,特别是GPT-5。从像Uber、Amgen、Harvey、Cursor、Lovable、JetBrains等公司那里,OpenAI得到了很多反馈。

如Cursor、JetBrains、Windsurf、Cognition等,都反馈说GPT-5现在感觉是最强大的编码模型,无论是在交互式编码环境中还是在更具代理性的编码环境中。

此外,GPT-5在其他领域中的推理和解决问题的能力有了显著提高。

Harvey就是一个很好的例子,Harvey AI与律师事务所合作,非常依赖其可靠、准确和一致地分析案例的能力,提供法律分析时所需的那种结构化思维水平。

GPT-5已经非常强大,未来肯定会有更优秀的模型,这一点毋庸置疑。

但目前OpenAI只专注于两件事:如何让更多人用上GPT-5,以及如何支持合作伙伴基于它开发生态。

我们仍处于科学探索阶段——这才是最令人兴奋的地方,就像比赛才刚开局,OpenAI自己也还在理解当前的范式。

GPT-5是重要的第一步,只有认清现状,才能看清未来。

参考资料:

https://www.bigtechnology.com/p/799049c8-5054-45c0-8ee7-9de1f2191759

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
天价合同!北京队曾给1球员开出了700万美元的工资

天价合同!北京队曾给1球员开出了700万美元的工资

体育哲人
2026-03-04 13:54:35
英媒评选本赛季十大中锋:大罗第1 凯恩第2 哈兰德第3 德罗巴第6

英媒评选本赛季十大中锋:大罗第1 凯恩第2 哈兰德第3 德罗巴第6

智道足球
2026-03-04 10:52:13
态度转变!特朗普决定出席白宫记者晚宴:因为我在他们眼里是“史上最佳”

态度转变!特朗普决定出席白宫记者晚宴:因为我在他们眼里是“史上最佳”

上观新闻
2026-03-04 11:14:16
我擦!历史第1次,13年了,马刺你这是要统治数据版啊!

我擦!历史第1次,13年了,马刺你这是要统治数据版啊!

体育新角度
2026-03-04 14:29:08
唏嘘!马蓉澳洲超市打零工,时薪22澳元,王宝强豪掷2.5亿拍新片

唏嘘!马蓉澳洲超市打零工,时薪22澳元,王宝强豪掷2.5亿拍新片

今朝牛马
2026-03-02 21:46:30
45岁,我上岸冰岛公务员,年休120天

45岁,我上岸冰岛公务员,年休120天

投稿指南
2026-02-12 00:56:56
班凯罗37+5+6无缘今日最佳球员!因为爱德华兹41+6+2+5创纪录!

班凯罗37+5+6无缘今日最佳球员!因为爱德华兹41+6+2+5创纪录!

Tracy的篮球博物馆
2026-03-04 14:58:13
哈梅内伊有多少资产?或许他才是世界首富,李嘉诚都远不及他

哈梅内伊有多少资产?或许他才是世界首富,李嘉诚都远不及他

张老师担扑
2026-03-02 22:51:06
电力部老同志联名反对李鹏当部长,陈云怒:干部年轻化阻力很大啊

电力部老同志联名反对李鹏当部长,陈云怒:干部年轻化阻力很大啊

楚风说历史
2026-03-02 09:20:03
曼联养狼攻略受益匪浅!年末送分一举两得,副班长连阻两争四劲敌

曼联养狼攻略受益匪浅!年末送分一举两得,副班长连阻两争四劲敌

罗米的曼联博客
2026-03-04 10:43:40
深圳两次“拒绝”网友建议,为何评论区却一致点赞?

深圳两次“拒绝”网友建议,为何评论区却一致点赞?

南方都市报
2026-03-04 14:24:01
美军在中东被捆住手脚,解放军组织海空兵力,进入菲美日澳巡航区

美军在中东被捆住手脚,解放军组织海空兵力,进入菲美日澳巡航区

面包夹知识
2026-03-02 19:06:41
学生返校被逐个开包检查 还用金属探测仪扫描

学生返校被逐个开包检查 还用金属探测仪扫描

闪电新闻
2026-03-03 15:05:21
黄金白银,急跌!什么原因?

黄金白银,急跌!什么原因?

环球网资讯
2026-03-03 21:38:12
47岁的蔡磊,ALSFRS-R评分只剩7分,病情终末,三个约定看哭无数

47岁的蔡磊,ALSFRS-R评分只剩7分,病情终末,三个约定看哭无数

离离言几许
2026-03-01 14:57:21
为什么说南京是一个体制内城市?

为什么说南京是一个体制内城市?

虔青
2026-03-04 07:45:36
伊朗称动用“卡德尔-380”等导弹击中美国驱逐舰

伊朗称动用“卡德尔-380”等导弹击中美国驱逐舰

新华社
2026-03-04 10:39:09
你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

带你感受人间冷暖
2026-01-29 00:10:05
她是体坛冠军中的“败类”,为捞钱共侍二夫,坑了44亿逃到美国

她是体坛冠军中的“败类”,为捞钱共侍二夫,坑了44亿逃到美国

削桐作琴
2026-03-02 15:10:50
纯纸上谈兵:伊朗局势的后续推演

纯纸上谈兵:伊朗局势的后续推演

渊海探心
2026-03-03 09:20:03
2026-03-04 15:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14636文章数 66648关注度
往期回顾 全部

科技要闻

多位核心离职,阿里亲手废掉最强AI天团?

头条要闻

致美军6死18重伤 伊朗反击"杀手锏"成本仅需5万美元

头条要闻

致美军6死18重伤 伊朗反击"杀手锏"成本仅需5万美元

体育要闻

“头铁”拼图在NBA也有生存环境

娱乐要闻

迪丽热巴转机滞留迪拜 错过巴黎时装周

财经要闻

伊朗,正在打破特朗普的幻想

汽车要闻

续航更长/实用性升级 方程豹钛3/钛7闪充版3月5日亮相

态度原创

时尚
数码
本地
健康
家居

三件外套拍出17万美元天价!为什么时装精都想买她的同款?

数码要闻

RX 9070 XT实战《生化危机9》:流畅玩转游戏的高性能显卡首选

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

转头就晕的耳石症,能开车上班吗?

家居要闻

极简无界 静居自安然

无障碍浏览 进入关怀版