网易首页 > 网易号 > 正文 申请入驻

刚刚!GPT-5淘汰所有OpenAI模型,地表最强编程惊艳全场,马斯克不服开怼

0
分享至


智东西
作者 陈骏达 李水青
编辑 李水青

GPT-5终于来了!

智东西8月8日报道,今天凌晨1点,OpenAI发布了万众瞩目的新一代旗舰模型GPT-5,即日起向所有免费、Plus、Pro、Team用户推出,企业和教育用户将在一周内获得访问权限。一经发布,GPT-5便冲上大模型竞技场榜首,并在文本、编程、数学等全方面排名第一。


GPT-5将非推理模型与推理模型融为一体,支持“按需思考”,即根据任务难度,自行判断是否进行思考,并提供合适的回答。它还拥有4种“人格”,分别为愤世嫉俗者、机器人、倾听者和书呆子。

OpenAI CEO Sam Altman认为,GPT-5已经达到了博士级别的智能,与其对话就像是与一位在任何领域都拥有博士学位的专家沟通。同时,GPT-5不仅是用来“问问题”的,现在还能“为你做事”,完成日常规划、发送邀请函、采购物资等任务。

OpenAI研究员Tina Kim在发布中称:“有了GPT-5,我们将淘汰所有旧模型。”一个GPT-5模型就集成多模态、推理等多种能力,相当于融合GPT和o系列模型,用户无需再为复杂的产品族选择纠结。

多项基准测试中,GPT-5超过了OpenAI o3、GPT-4o等OpenAI最强大的模型,在数学、编码、视觉感知和健康方面表现尤其出色。凭借GPT-5-pro的扩展推理,该模型还在科学知识基准测试GPQA上获得了新的SOTA,无需工具即可得分88.4%。


不过,GPT-5也可能是OpenAI历史上最复杂的模型家族之一,拥有GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro四个版本。免费用户的GPT-5用量有限,超过限额后将自动转至GPT-5-mini。GPT-5-pro仅供Pro订阅用户使用,可凭借扩展推理功能,提供更全面、更准确的答案。

GPT-5、GPT-5-mini、GPT-5-nano三款模型也提供API服务,GPT-5的输入、输出价格分别为每百万token 1.25美元/10美元,GPT-5-mini的定价为GPT-5的1/5,而GPT-5-nano的定价为GPT-5的1/25。与主要竞争对手Anthropic和谷歌相比,OpenAI的GPT-5模型对于开发人员来说成本相当甚至更低。


▲GPT-5 API与Anthropic、谷歌模型价格对比(图源:VentureBeat)

GPT-5刚刚发布,马斯克就在X社交平台发起攻势,称“Grok 4在ARC-AGI上击败了GPT-5”。对此,有网友认为这是对Grok 4更强推理和泛化能力的证实,也有网友认为氪金300美元才能用上的Grok 4赶不上免费的GPT-5更有性价比。


发布会上,Altman分享了一组数据:32个月之前,OpenAI发布了ChatGPT,并在发布首周获得超100万用户。而如今,ChatGPT在全球范围内已有超过7亿用户。GPT-5是对GPT-4的一次重大升级,也是迈向AGI的重要一步。

但GPT-5不是AGI。Altman称:“我有点讨厌‘通用人工智能(AGI)’这个词,因为现在每个人都用它来指代略有不同的事物,但GPT-5是朝着真正强大的模型迈出的重要一步。我们仍然缺少一些非常重要的东西。”这一重要的东西就是模型在部署过程中能够持续学习,而GPT-5却没有。

一、靠自主判断规避“过度思考”,编程能力获Cursor创始人认可

现场演示中,OpenAI首先展示了GPT-5按需思考的能力。工作人员让GPT-5解释伯努利现象(流体力学里的一个基本原理),这对其而言相对简单。GPT-5判断无需思考,并迅速给出答案。

紧接着,工作人员提出想让GPT-5打造一张动态SVG演示图,来进一步解释这一概念。此时,无需手动调整,GPT-5便会自动进行思考,只需一个简单的提示,GPT-5就创建了交互式的演示。用户也可以在提示词中引导GPT-5是否开启思考,只需输入认真想想、仔细思考等类似表述即可。

在其给出的演示中,用户可以拉动进度条改变空气速度,以查看升力和压力变化,也可以调整迎角,看模拟的飞机是否真的会坠毁。所以GPT-5可以随时将任何硬核概念带入生活,让学习物化生和数学变得更加容易。


GPT-5在写作方面得到显著提升。比如OpenAI研发人员现场让GPT-5为GPT-4o写了一篇悼文。研究人员称,从生成内容来看,这不像在跟AI聊天,而像一位高智商、高情商的朋友在交流和上课。


研发人员称,GPT-5是迄今为止最好的编程模型。比如他让GPT-5建立了一个学习法语的网络应用,同时要求GPT-5嵌入一款教育游戏。大约两分钟后,GPT-5生成了一个带有标签、抽认卡、测试等功能的应用,并且成功嵌入了一款贪吃蛇游戏。


为了进一步证明GPT-5在生产场景中的编程能力,OpenAI还特地邀请了明星AI编程创企Cursor联合创始人兼首席执行官Michael Truell进行现场演示。Truell打开了OpenAI API GitHub页面上的一则PR。这一问题历经3周还未被修复,说明存在一定难度。

Truell认为,GPT-5在API调用中展现出了不错的稳定性,在Cursor里解决上述问题时,它面对的是一组从未见过的定制模型、从未见过的定制工具,还需要从网上抓取文本、在代码库里搜索等,解决问题的速度比他本人要快很多。


在官网上,OpenAI也分享了更多编程案例。其开发出的小游戏画面精美,游戏机制也比较合理。


还能遵循用户指令,打造出Lofi视觉化效果器。从官方Demo来看,GPT-5的前端能力较此前的OpenAI模型有了不错的提升。


GPT-5改进了语音功能,听起来就像跟人对话一样自然。免费用户每天可以聊上几个小时。比如,结合ChatGPT学习模式,用户可以以引导的方式教用户学习韩语,OpenAI现场对此进行了演示。

OpenAI还宣布一项新功能,面向付费用户推出更加定制化的ChatGPT,支持自定义聊天功能,可调整模型的性格,四项初始选项包括:愤世嫉俗者、机器人、倾听者和书呆子,还能改变聊天界面的颜色。


为了让GPT-5更符合个人用户的沟通方式,研发团队内存方面做了很多改进,使其具备更强的记忆功能。比如这使GPT-5在为用户指定日程时,能顾考虑到此前提及的安排,更符合定制化需求。下周起Pro用户可先接入Gmail和谷歌日历,自动规划日程、回复邮件。


在API中,所有GPT‑5模型最多可接受272000个(272k)tokens,并生成最多128000个(128k)推理及输出tokens,总上下文长度为400000个(400k)tokens。

通用Agent明星创企Manus联合创始人兼首席科学家Yichao ‘Peak’ Ji称,GPT‑5 “在各种智能体任务中表现出色,即使在未修改任何代码或调整提示的情况下”。

OpenAI在API中引入了新功能,让开发人员对模型回复具有更多控制权。GPT‑5支持新的verbosity参数(取值:低、中、高),帮助控制控制回答是简短扼要还是详尽全面。GPT‑5还支持最低模式,该模式会将GPT‑5的推理强度降到到最低,以快速返回答案。

二、多项基准测试实现业界SOTA,事实性错误较o3减少80%

OpenAI称,GPT‑5是其迄今为止在编码和智能体任务方面表现最佳的模型。它在编码基准测试和实际应用场景中均优于o3,并且经过专门优化,在Cursor、Windsurf和Codex CLI等智能体编码产品中表现尤为出色。

GPT‑5在关键编码基准测试中处于行业领先水平 (SOTA),在SWE-bench验证测试中得分74.9%,较o3版本的69.1%有所提升。值得注意的是,GPT‑5以更高的效率和速度获得了高分:与o3在高推理强度下相比,GPT‑5的输出tokens数量减少了22%,工具调用次数减少了45%。


同时,GPT‑5在Aider polyglot测试中得分88%。在内部测试中,其在70%的Web任务开发中表现和OpenAI o3。此外,GPT‑5在深度分析代码库方面表现出色,能够精准解答关于代码模块运作机制及相互协作的问题。


GPT‑5在长背景信息性能方面也展现出显著提升。在OpenAI-MRCR(一种衡量长背景信息检索能力的指标)中,GPT‑5的表现优于o3和GPT‑4.1,且随着输入长度的增加,这种优势会显著扩大。


OpenAI与一些客户就编程功能进行了合作。Cursor首席执行官Truell称,GPT‑5“具有显著的智能,易于操控,甚至拥有其他模型中不具备的人格特质”。AI编程公司Windsurf相关负责人称,GPT‑5在其评估中达到最先进水平,且“与其他前沿模型相比,工具调用错误率仅为其一半”。

GPT‑5在持续型智能体任务中同样表现卓越,在两个月前刚发布的工具调用基准测试τ2-bench telecom中,以96.7%的成绩刷新了业界最优水平。


在事实性方面,GPT‑5比其之前的模型更值得信赖。在事实准确性基准测试LongFact和FActScore中,GPT‑5的错误率仅为o3的五分之一。这使得GPT‑5尤其适用于正确性要求高的智能体任务场景,特别是在代码生成、数据处理和决策支持等关键领域。


GPT‑5改进的工具智能使其能够可靠地串联数十次工具调用(无论串行还是并行),保持路径一致性,这使其在执行复杂的现实世界端到端任务时表现得远优于其他模型。它还更精确地遵循工具指令,更好地处理工具错误,并在长背景信息内容检索方面表现出色。

OpenAI还开源了BrowseComp Long Context⁠,这是一个用于评估长背景信息问答的新基准。在此基准中,模型会收到用户查询、一长串相关搜索结果,并必须基于搜索结果回答问题。

以下是GPT-5的一些基准测试成绩。但OpenAI研发人员称,GPT-5训练的重点是现实的实用性,而不是基准测试。








三、解决GPT“阿谀奉承”问题,靠新方法减少非必要“拒绝回复”

OpenAI的多名研究人员分享了GPT-5背后的技术创新。

在安全问题上,ChatGPT过去主要依赖于基于拒绝的安全训练:根据用户的提示,模型应该要么遵守,要么拒绝。

这种类型的训练适用于明显的恶意提示词,但是在用户意图模棱两可的情况下,可能出现问题。比如拒绝应该回答的问题,或是给有风险的问题做出回答。

对于GPT-5,OpenAI引入了一种新的安全训练形式——安全完成(safe completions)。这种训练形式教会模型尽可能给出最有用的答案,同时仍然保持在安全范围内。

如今,对于一些可能有潜在风险的问题,GPT-5会减少不必要的过度拒绝,转而告诉拒绝的原因,并提供安全的替代方案。

GPT-5还改善了GPT系列模型阿谀奉承的问题,减少了过度讨好和无意义的表情符号的使用。OpenAI已经开发出新的评估方法,来衡量模型阿谀奉承的程度,并改进训练方法了,使模型更少地阿谀奉承。

在针对阿谀奉承问题的专门评估中,GPT-5显著减少了此类回复的比例(从 14.5%降至不到 6%)。

GPT-5 Pro是OpenAI推理模型OpenAI o3-pro的替代品,能提出给出更为全面、高质量的答案,这得益于一项名为并行测试时计算的技术(同时进行多项推理)

在多个具有挑战性的基准测试中,GPT-5 Pro实现了同家族模型中的最佳性能。OpenAI还进行了1000个实际测试,67.8%外部专家更偏好GPT-5 pro的回答,而非开启思考模式的GPT-5。GPT-5 pro犯下重大错误的比例降低了 22%,在健康、科学、数学和编程方面表现尤为出色。

在发布会的尾声,OpenAI首席科学家Jakub Pochocki做了一番总结。他称,GPT-5的模型的诞生,是多年研究的结果,这些研究不仅以推出新版本为目的,还旨在构建对底层技术本身的理解。GPT-5呈现的许多技术,会在未来得到进一步发展。

Pochocki称,OpenAI仍然有很多需要了解的东西,并期待AI能够发现全新的知识,并真正地使我们的生活变得更好。

结语:靠“视觉欺骗”夸大性能提升?GPT-5实际表现有待进一步验证

GPT-5的发布,毫无疑问是今年AI圈最受关注的事件之一。GPT-5官宣推文发布2小时后,已经获得超160万浏览,并且仍在持续增长。然而,这一发布也带来了一定争议——OpenAI在发布会使用了“视觉骗局”的方式呈现基准测试,柱状图中OpenAI o3的高度被不成比例地压缩了,这从某种程度上夸大了GPT-5实现的能力提升。


GPT-5在真实使用场景中的性能与体验,尚待市场反馈,但OpenAI的估值已经飙升。此前周三外媒The Information消息称,OpenAI正洽谈潜在的二级股票发行,估值飙升至5000亿美元(约合3.6万亿人民币),比年初翻了一倍。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026年慢病报销巨变!6种病免办卡直接省一半钱,大多数还不知情

2026年慢病报销巨变!6种病免办卡直接省一半钱,大多数还不知情

复转这些年
2026-01-11 23:32:18
日系车败退中国:2.9L油耗击碎“省油神话”,00后为何不再买账?

日系车败退中国:2.9L油耗击碎“省油神话”,00后为何不再买账?

财经保探长
2025-09-11 22:20:43
又来?胜利门将上场离谱失误,本场比赛击打对手遭罚下

又来?胜利门将上场离谱失误,本场比赛击打对手遭罚下

懂球帝
2026-01-13 03:17:08
4-1大胜!维尔茨传射,索博斯洛伊世界波,利物浦晋级

4-1大胜!维尔茨传射,索博斯洛伊世界波,利物浦晋级

小皷拍客在北漂
2026-01-13 06:55:17
柬埔寨首相感谢中国

柬埔寨首相感谢中国

新民周刊
2026-01-12 09:07:08
携程大面积误发离职通知引发争议,员工回应

携程大面积误发离职通知引发争议,员工回应

大象新闻
2026-01-12 20:13:09
难以置信!冷战五天,浙江女子拒丈夫提夫妻生活要求,被网友炮轰

难以置信!冷战五天,浙江女子拒丈夫提夫妻生活要求,被网友炮轰

火山诗话
2026-01-13 07:23:45
闫学晶事件升级!中戏否认12年招收新疆班,网传其儿子读的是11级

闫学晶事件升级!中戏否认12年招收新疆班,网传其儿子读的是11级

火山诗话
2026-01-12 06:12:18
“极寒躺冰” 、冰上龙舟……今冬冰雪“花式”玩法层出不穷

“极寒躺冰” 、冰上龙舟……今冬冰雪“花式”玩法层出不穷

新华社
2026-01-12 14:23:39
特朗普震怒,美国对31国发出通牒,24小时内英法德对美让步

特朗普震怒,美国对31国发出通牒,24小时内英法德对美让步

徐云流浪中国
2026-01-13 07:54:23
网坛第五大满贯来了?这一决定可能改变整个网球史

网坛第五大满贯来了?这一决定可能改变整个网球史

网球之家
2026-01-12 23:02:47
镜报:卡里克将出任曼联临时主帅,部分球员反对索尔斯克亚回归

镜报:卡里克将出任曼联临时主帅,部分球员反对索尔斯克亚回归

懂球帝
2026-01-12 23:45:08
俄罗斯榛树导弹故意不装弹头,乌方承认:雷达完全失效,看不见

俄罗斯榛树导弹故意不装弹头,乌方承认:雷达完全失效,看不见

科普100克克
2026-01-11 11:44:23
遗憾满满!《罚罪2》40集大结局,是今年看过最无语结局

遗憾满满!《罚罪2》40集大结局,是今年看过最无语结局

娱君坠星河
2026-01-12 17:39:53
徐达常遇春他们都是农民,为何起义后却成了军事天才?原因很现实

徐达常遇春他们都是农民,为何起义后却成了军事天才?原因很现实

铭记历史呀
2026-01-10 13:09:37
86年我在哨所执勤,遇到几个喇嘛,领头的盯着我说:今天别下山

86年我在哨所执勤,遇到几个喇嘛,领头的盯着我说:今天别下山

五元讲堂
2026-01-07 07:45:03
皇马队史执教至少30场主帅场均积分榜:阿隆索2.24分第7

皇马队史执教至少30场主帅场均积分榜:阿隆索2.24分第7

懂球帝
2026-01-13 07:53:07
69岁资深男演员离世,生前因车祸瘫痪二十余年,曾出演《一剪梅》

69岁资深男演员离世,生前因车祸瘫痪二十余年,曾出演《一剪梅》

红星新闻
2026-01-11 20:25:26
1957年,毛主席得知救命恩人被降级处理,下令道:享受副省级待遇

1957年,毛主席得知救命恩人被降级处理,下令道:享受副省级待遇

历史龙元阁
2026-01-12 06:00:17
当了半辈子“台独”分子,突然说自己是中国人,背后算计不得不防

当了半辈子“台独”分子,突然说自己是中国人,背后算计不得不防

南风不及你温柔
2026-01-13 08:00:47
2026-01-13 08:36:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11058文章数 116941关注度
往期回顾 全部

科技要闻

面对SpaceX疯狂“下饺子” 中国正面接招

头条要闻

医院施工不合格 监理白天要求拆除当晚被打折4根肋骨

头条要闻

医院施工不合格 监理白天要求拆除当晚被打折4根肋骨

体育要闻

一场安东尼奥式胜利,给中国足球带来惊喜

娱乐要闻

蔡少芬结婚18周年,与张晋过二人世界

财经要闻

倍轻松信披迷雾 实控人占用资金金额存疑

汽车要闻

增配不加价 北京现代 第五代 胜达2026款上市

态度原创

教育
健康
家居
艺术
数码

教育要闻

孩子教会我们,失误无需畏惧

血常规3项异常,是身体警报!

家居要闻

包络石木为生 野性舒适

艺术要闻

Andrew Festing:当代英国肖像画家

数码要闻

微星推出PRO DP10 A14MG迷你主机,适配多场景且配置灵活

无障碍浏览 进入关怀版