网易首页 > 网易号 > 正文 申请入驻

OpenAI高管自爆:Scaling不死,GPT-5「双轴训练」撕开智能天花板

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】奥特曼称GPT-5「比人聪明」,但OpenAI首席运营官Lightcap澄清:这不是AGI。这只是能力过剩的冰山一角——我们仍有十年产品可建,模型越智能,融合越要精妙。GPT-5标志着从纯智商到反思能力的全面跃进。

GPT-5的能力到底有什么提升与意义?人工智能未来走向何处?这款惊艳亮相的OpenAI新模型,如何揭示智能的多种形态?

OpenAI的首席运营官Brad Lightcap在深度对话中揭开了这些问题的答案。


GPT-5为何如此特殊?

GPT-5实现了一个非常有趣的突破:可自主判断是否先进行深度推理再回答。

过去用户必须通过ChatGPT的模型选择器,手动为不同任务挑选模型。提问后,有时你会选思考模式,有时则不会。OpenAI认为这种体验说实话容易让人困惑。

GPT-5彻底简化了这个流程。它不仅自动替你决策,本质上也更聪明。在写作、编程、健康等领域,它准确性更高、响应更快,整体体验全面升级。


大家本以为GPT-5的智能将爆炸式增长,为何OpenAI选择以可用性而非智能提升作为主要卖点?

Brad Lightcap解释道,这是因为智能本质上取决于模型投入的思考时间。

分配越多的思考时长,答案质量就越高——这是基本规律。当在特定基准测试中允许模型思考时,AI的表现远超现有所有模型。

即便不启用思考时间,它给出的答案依然普遍优于GPT-4.1这类非思考型模型。


因此,这是一次全维度的智能飞跃。但关键在于动态分配思考时间的能力——OpenAI认为这才是提升用户体验的核心。

这种进步很难用简单的「指数级」或「渐进式」来界定。

现在人类已经进入需要从多维度评估智能的阶段——OpenAI不是在回避问题,而是为了说明GPT-5为何如此特殊。

在核心能力上,它的提升显而易见:SWEBench测试得分更高,各类学术评估表现更优。OpenAI还特别强化了GPT-5在健康领域的基准表现。





但如今衡量模型优劣的标准已经变得非常多元。

根据训练方式和问题处理机制的不同,我们可以从多个角度进行评估:

-速度本身即质量:单位思考时间内能给出更优答案,这本身就是重要的进步指标

-隐形能力升级:结构化思考、问题分解、工具调用等底层能力全面提升

所有这些维度,GPT-5都超越了前代模型。

Scaling Law未死

从GPT-1到GPT-2、GPT-3,再到GPT-4的每次跃进,能力都是全面提升的。


那时候,「更大的模型=全面更好的模型」。而GPT-5似乎并非如此。所以,情况变了吗?

Brad Lightcap表示:「从技术角度看,情况确实变了。」

从GPT-2到GPT-3,再到GPT-3到GPT-4,主要是利用了当时的Scaling范式。训练规模越大的模型,结果就得到更好的模型。

这个规律依然成立,但现在有了另一类训练方式,即后训练(post-training)。用更有趣的方式使用测试时计算(test-time compute),几乎像是训练的第二阶段。

这提供了一种推动力,让OpenAI能将模型推向新的智能水平,同时还能训练「智多星」。

比如,使用工具对整体智能非常重要。GPT-2和GPT-3在这方面做得不太好。GPT-4在这方面很初级。而现在GPT-5内置了这些能力,结合了多步骤和更长远的推理过程。


既然训练方式开始变化,那OpenAI现在是否认为预训练(pre-training)的回报在递减?

Brad Lightcap强调他们并不认为预训练(pre-training)的回报在递减。

Scaling Law依然成立。从经验上看,没有理由认为预训练的回报会递减。

而在后训练方面,大家才刚开始触及这个新范式的表面。o系列模型,即之前的推理模型,只是OpenAI开始探索后训练的起点。

Brad Lightcap认为未来一两年,主要方向是继续在后训练维度上Scaling,继续看到显著的收益。因为这些收益太明显了。所以现在从两个轴向上改进模型:预训练和后训练。这会加速创新。

从现在起,大多数改进会来自Scaling,还是算法?

Brad Lightcap表示总是组合拳。

算法、规模、计算力和数据,这些都缺一不可。展望未来,OpenAI它们都超级重要,需要全方位发力。

最难的部分当然是让它们完美融合。训练更大的模型,通常意味着你得用更多数据和计算力。这是个微妙的平衡,因为单纯放大规模,不一定总能带来同等的进步。你得把其他元素也带上。

OpenAI不是只按一个按钮,而是真的很用心,把所有这些拉到一起。

GPT-5能力过剩

但不叫「AGI」

在Theo Von的播客节目中,奥特曼说:「GPT-5在几乎所有方面都比人聪明。」


这听起来就像他想象中的AGI。他似乎想叫它 AGI,但OpenAI又没有明确这样说。所以,为什么GPT-5不是AGI?

Brad Lightcap解释道:「AGI确实难以定义」。

有个笑话说,你问五个人AGI是什么,会得到七种答案。

OpenAI看待AGI的方式是,AGI是个积累过程,是个系统。你得定义这个系统是什么,你期待它能做什么。

对Brad来说,至少,AGI是一个能稳定学习新事物(哪怕超出其训练分布)的系统,这种能力源自它的推理、思考、解决问题、使用工具以及提出新想法的能力。但他不认为GPT-5就是AGI:GPT-5以及后续模型中,开始看到的是这种「通用化学习系统」的部分雏形和模块。

而且很难确定AGI和非AGI的分界点。即便真有这个时刻,也不确定大家会在第一时间意识到。因为在和这些模型共事中,「能力储备过剩」很显著。奥特曼说的「口袋里的博士」这种智能水平,其实大家还没有真正完全利用好。

从某种意义上说,即使现在AI的发展暂停十年,大家依然会有大约十年的新产品可以构建,依然会有新方法来把GPT-5这种水平的模型融入有趣的产品和流程中。

一个有趣的现象是,模型越聪明,反而越要求产品设计方在如何将它融入系统方面投入更多。

Brad Lightcap常打个比方:

实习生非常聪明,但他们最终做的事情有限:记会议笔记、写摘要、做基础分析。

但如果你带来的是一位博士,他们的能力范围就很广了,只是第一天上班时可能并不立即高效。你要做的就是给他们足够的背景、信息和工具,让他们在后续发挥最大价值。而这个过程比让实习生上手所需的时间更长。

他认为AI模型也类似,这是一个持续的过程,并不会是线性的。

这引出个超级有趣的问题:从现在起,继续让模型更聪明有意义吗?还是该建哪些辅助能力?那么对于OpenAI来说,接下来的目标是继续增强智能,还是专注于那些「非智力」能力?

Brad Lightcap表示全都要。

一部分就是纯IQ:对事物运作的知识信息回忆的能力。

但还有推理能力:

怎么用其他工具解决问题;

反思能力:回顾自己的思路链,当你觉得走错路、没想对策略时,及时修正。

在这些问题上,GPT-5比之前系统好。

对OpenAI来说,现实世界基准作为智能标志,越来越重要,比学术基准更关键。

而「持续学习」(continual learning)这绝对是OpenAI优先事项之一。

首次用上推理AI

震撼免费用户

沃顿商学院的Ethan Mollick提前测试了GPT-5,他提出了一个有趣的观点:

如果你一直在关注这条发展曲线,那么GPT-5的进步可以说是一个巨大的飞跃,但也是一个出乎意料的飞跃。

他还提到:「这些模型在数学奥林匹克竞赛中获得了金牌。我越来越难以理解这些巨大的进步到底意味着什么。」


现在的所有模型都在快速改进。那么问题来了,如果你有一个大学水平生物学的模型,然后它达到了研究生水平的生物学,普通聊天机器人的用户可能不会感受到这种变化,尽管它变得更聪明了。

有人说,对于ChatGPT重度用户来说,这次提升会被感知到,但可能是比较细微的提升。

但对于普通用户,尤其是免费用户来说,这将是一种巨大的飞跃。大多数免费用户从未体验过推理模型的威力。他们大多用的是GPT-4.0,而且主要是进行类似搜索的简短、回合式对话,这种方式并不能体现模型的全部能力。

所以,对很多人来说,这将是他们第一次使用具备推理能力的模型。而且不仅如此,这也是他们第一次体验到「自我反思」的模型:根据问题的难度,GPT-5模型会自行决定花多少时间思考、给出多高质量的答案。

这其实是一件好事——如果一直紧追最强AI,那么你会感到目眩神迷,但进步也会显得更连续。而如果你一直用的是一两年前的最佳模型,那么这次的跃迁会让你非常震撼。

每个人的切入点都不一样,这也是有趣之处——它对每个人来说都是很个人化的体验。

GPT-5特别关注了健康领域,因为这是用户使用AI最常见的起点之一,尤其是有健康问题时。这是OpenAI的重要目标。

两大落地场景

健康与企业

Brad Lightcap认为AI不会取代医生:

人们依然需要与全科医生或专科医生合作进行治疗。

但有一个可以陪伴左右、在整个过程中提供指导的工具,对很多人来说是很有安慰感的,并且在很多情况下确实能发挥作用。

OpenAI推动模型在健康领域的能力提升,一直是他们重点关注的方向。

从GPT-5开始,未来的模型,准确率持续上升,幻觉率持续下降。


具体来说,GPT-5的准确率大约是前代模型的4到5倍(取决于测量方式)

在很多方面,还没有看到企业界人工智能的「ChatGPT时刻」。

相对于消费者,AI对企业是另一类难度。

企业流程复杂,多用户依赖很常见,必须处理大量的上下文,必须使用许多工具。这些工具必须以某种方式、在某些限制下依次使用。当它们不起作用时,容错率没有那么高。

只有能力基线的提升,AI在企业领域才能有所作用,包括使用工具、有条理思考、解决问题、递归纠正自身错误、进行长上下文检索等能力。


这些能力在边缘确实很重要。

OpenAI与多家企业合作测试这些模型,特别是GPT-5。从像Uber、Amgen、Harvey、Cursor、Lovable、JetBrains等公司那里,OpenAI得到了很多反馈。

如Cursor、JetBrains、Windsurf、Cognition等,都反馈说GPT-5现在感觉是最强大的编码模型,无论是在交互式编码环境中还是在更具代理性的编码环境中。

此外,GPT-5在其他领域中的推理和解决问题的能力有了显著提高。

Harvey就是一个很好的例子,Harvey AI与律师事务所合作,非常依赖其可靠、准确和一致地分析案例的能力,提供法律分析时所需的那种结构化思维水平。

GPT-5已经非常强大,未来肯定会有更优秀的模型,这一点毋庸置疑。

但目前OpenAI只专注于两件事:如何让更多人用上GPT-5,以及如何支持合作伙伴基于它开发生态。

我们仍处于科学探索阶段——这才是最令人兴奋的地方,就像比赛才刚开局,OpenAI自己也还在理解当前的范式。

GPT-5是重要的第一步,只有认清现状,才能看清未来。

参考资料:

https://www.bigtechnology.com/p/799049c8-5054-45c0-8ee7-9de1f2191759


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
笑死了!章泽天做节目采访刘嘉玲,没想到评论区句句都是梗!

笑死了!章泽天做节目采访刘嘉玲,没想到评论区句句都是梗!

八卦南风
2026-01-15 17:27:12
官媒发文,官宣与辉同行传来“噩耗”,网友:董宇辉该何去何从

官媒发文,官宣与辉同行传来“噩耗”,网友:董宇辉该何去何从

阿纂看事
2026-01-14 14:24:33
痛心!贺娇龙意外坠马,头部重伤不幸离世 生前曾谈及为何坚持骑马拍视频

痛心!贺娇龙意外坠马,头部重伤不幸离世 生前曾谈及为何坚持骑马拍视频

红星新闻
2026-01-15 01:12:10
妈妈,这双鞋你应该会喜欢。

妈妈,这双鞋你应该会喜欢。

超级数学建模
2026-01-14 22:52:55
瓦良格号送到中国后有多震撼?专家刮掉表面的锈迹:钢材品质极佳

瓦良格号送到中国后有多震撼?专家刮掉表面的锈迹:钢材品质极佳

古书记史
2026-01-06 16:31:56
章小蕙首次曝与子女不和内幕!探视权被钟镇涛剥夺,更多细节曝光

章小蕙首次曝与子女不和内幕!探视权被钟镇涛剥夺,更多细节曝光

小徐讲八卦
2026-01-14 08:10:40
比恒大还惨!中国第二大民企倒了,负债7500亿,创始人被带走

比恒大还惨!中国第二大民企倒了,负债7500亿,创始人被带走

芳芳历史烩
2025-12-25 20:32:52
世界第一,055B型驱逐舰,1.7万吨级王牌,到底有多强悍?

世界第一,055B型驱逐舰,1.7万吨级王牌,到底有多强悍?

今墨缘
2026-01-15 08:26:48
“死了么”App突然被下架!此前宣布改名,创始人称公司估值近1亿元,用户数翻800倍

“死了么”App突然被下架!此前宣布改名,创始人称公司估值近1亿元,用户数翻800倍

每日经济新闻
2026-01-15 21:26:47
东方电气,再签880亿订单!

东方电气,再签880亿订单!

投研邦V
2026-01-15 19:45:38
李章洙:中国足球条件变好了但没进步,韩国一块场地几个队用

李章洙:中国足球条件变好了但没进步,韩国一块场地几个队用

懂球帝
2026-01-15 15:49:24
周杰伦澳网首赛!戴假发上场、5秒出局球都没碰到,昆凌憋不住笑

周杰伦澳网首赛!戴假发上场、5秒出局球都没碰到,昆凌憋不住笑

人间无味啊
2026-01-15 00:45:38
全新一代奔驰S级来了,审美终于回归,击中年轻人审美!

全新一代奔驰S级来了,审美终于回归,击中年轻人审美!

米粒说车唯一呀
2026-01-14 16:15:13
心梗、脑梗、脑出血突发!记住这3个“黄金求救法”,能救命!

心梗、脑梗、脑出血突发!记住这3个“黄金求救法”,能救命!

孟大夫之家1
2025-08-26 20:00:38
伊朗:骚乱事件主要幕后人员落网

伊朗:骚乱事件主要幕后人员落网

新京报
2026-01-15 07:24:05
2026年韩国最低时薪10320韩元!最低月薪是…

2026年韩国最低时薪10320韩元!最低月薪是…

奋斗在韩国
2026-01-04 14:03:39
董宇辉被“麻黄鸡”绊了一跤?

董宇辉被“麻黄鸡”绊了一跤?

互联网那些事
2026-01-15 18:07:05
杨瀚森参加混音赛后大合影!站在最边上出镜 搂住队友一脸微笑

杨瀚森参加混音赛后大合影!站在最边上出镜 搂住队友一脸微笑

罗说NBA
2026-01-15 15:06:11
林文龙郭可盈为女儿举办16岁生日派对 寿星女和一众女同学打扮成熟

林文龙郭可盈为女儿举办16岁生日派对 寿星女和一众女同学打扮成熟

陈意小可爱
2026-01-15 01:06:36
小米YU7首推7年低息购车政策:首付4.99万起 最高可省2.9万元

小米YU7首推7年低息购车政策:首付4.99万起 最高可省2.9万元

快科技
2026-01-15 23:35:06
2026-01-16 00:19:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14342文章数 66497关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

柬埔寨副首相放话:特朗普让我们醒悟 不能只依靠中国

头条要闻

柬埔寨副首相放话:特朗普让我们醒悟 不能只依靠中国

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

92岁陶玉玲去世,冯远征曹可凡悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

亲子
数码
本地
家居
公开课

亲子要闻

网友吐槽:最能干活的那代人回来了!孩子太勤快 家长懒人有懒福

数码要闻

华硕停产英伟达GeForce RTX 5070 Ti 16GB / 5060 Ti 16GB显卡

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

家居要闻

自在自宅 个性自由

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版