网易首页 > 网易号 > 正文 申请入驻

刚刚!GPT-5淘汰所有OpenAI模型,地表最强编程惊艳全场,马斯克不服开怼

0
分享至


智东西
作者 陈骏达 李水青
编辑 李水青

GPT-5终于来了!

智东西8月8日报道,今天凌晨1点,OpenAI发布了万众瞩目的新一代旗舰模型GPT-5,即日起向所有免费、Plus、Pro、Team用户推出,企业和教育用户将在一周内获得访问权限。一经发布,GPT-5便冲上大模型竞技场榜首,并在文本、编程、数学等全方面排名第一。


GPT-5将非推理模型与推理模型融为一体,支持“按需思考”,即根据任务难度,自行判断是否进行思考,并提供合适的回答。它还拥有4种“人格”,分别为愤世嫉俗者、机器人、倾听者和书呆子。

OpenAI CEO Sam Altman认为,GPT-5已经达到了博士级别的智能,与其对话就像是与一位在任何领域都拥有博士学位的专家沟通。同时,GPT-5不仅是用来“问问题”的,现在还能“为你做事”,完成日常规划、发送邀请函、采购物资等任务。

OpenAI研究员Tina Kim在发布中称:“有了GPT-5,我们将淘汰所有旧模型。”一个GPT-5模型就集成多模态、推理等多种能力,相当于融合GPT和o系列模型,用户无需再为复杂的产品族选择纠结。

多项基准测试中,GPT-5超过了OpenAI o3、GPT-4o等OpenAI最强大的模型,在数学、编码、视觉感知和健康方面表现尤其出色。凭借GPT-5-pro的扩展推理,该模型还在科学知识基准测试GPQA上获得了新的SOTA,无需工具即可得分88.4%。


不过,GPT-5也可能是OpenAI历史上最复杂的模型家族之一,拥有GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro四个版本。免费用户的GPT-5用量有限,超过限额后将自动转至GPT-5-mini。GPT-5-pro仅供Pro订阅用户使用,可凭借扩展推理功能,提供更全面、更准确的答案。

GPT-5、GPT-5-mini、GPT-5-nano三款模型也提供API服务,GPT-5的输入、输出价格分别为每百万token 1.25美元/10美元,GPT-5-mini的定价为GPT-5的1/5,而GPT-5-nano的定价为GPT-5的1/25。与主要竞争对手Anthropic和谷歌相比,OpenAI的GPT-5模型对于开发人员来说成本相当甚至更低。


▲GPT-5 API与Anthropic、谷歌模型价格对比(图源:VentureBeat)

GPT-5刚刚发布,马斯克就在X社交平台发起攻势,称“Grok 4在ARC-AGI上击败了GPT-5”。对此,有网友认为这是对Grok 4更强推理和泛化能力的证实,也有网友认为氪金300美元才能用上的Grok 4赶不上免费的GPT-5更有性价比。


发布会上,Altman分享了一组数据:32个月之前,OpenAI发布了ChatGPT,并在发布首周获得超100万用户。而如今,ChatGPT在全球范围内已有超过7亿用户。GPT-5是对GPT-4的一次重大升级,也是迈向AGI的重要一步。

但GPT-5不是AGI。Altman称:“我有点讨厌‘通用人工智能(AGI)’这个词,因为现在每个人都用它来指代略有不同的事物,但GPT-5是朝着真正强大的模型迈出的重要一步。我们仍然缺少一些非常重要的东西。”这一重要的东西就是模型在部署过程中能够持续学习,而GPT-5却没有。

一、靠自主判断规避“过度思考”,编程能力获Cursor创始人认可

现场演示中,OpenAI首先展示了GPT-5按需思考的能力。工作人员让GPT-5解释伯努利现象(流体力学里的一个基本原理),这对其而言相对简单。GPT-5判断无需思考,并迅速给出答案。

紧接着,工作人员提出想让GPT-5打造一张动态SVG演示图,来进一步解释这一概念。此时,无需手动调整,GPT-5便会自动进行思考,只需一个简单的提示,GPT-5就创建了交互式的演示。用户也可以在提示词中引导GPT-5是否开启思考,只需输入认真想想、仔细思考等类似表述即可。

在其给出的演示中,用户可以拉动进度条改变空气速度,以查看升力和压力变化,也可以调整迎角,看模拟的飞机是否真的会坠毁。所以GPT-5可以随时将任何硬核概念带入生活,让学习物化生和数学变得更加容易。


GPT-5在写作方面得到显著提升。比如OpenAI研发人员现场让GPT-5为GPT-4o写了一篇悼文。研究人员称,从生成内容来看,这不像在跟AI聊天,而像一位高智商、高情商的朋友在交流和上课。


研发人员称,GPT-5是迄今为止最好的编程模型。比如他让GPT-5建立了一个学习法语的网络应用,同时要求GPT-5嵌入一款教育游戏。大约两分钟后,GPT-5生成了一个带有标签、抽认卡、测试等功能的应用,并且成功嵌入了一款贪吃蛇游戏。


为了进一步证明GPT-5在生产场景中的编程能力,OpenAI还特地邀请了明星AI编程创企Cursor联合创始人兼首席执行官Michael Truell进行现场演示。Truell打开了OpenAI API GitHub页面上的一则PR。这一问题历经3周还未被修复,说明存在一定难度。

Truell认为,GPT-5在API调用中展现出了不错的稳定性,在Cursor里解决上述问题时,它面对的是一组从未见过的定制模型、从未见过的定制工具,还需要从网上抓取文本、在代码库里搜索等,解决问题的速度比他本人要快很多。


在官网上,OpenAI也分享了更多编程案例。其开发出的小游戏画面精美,游戏机制也比较合理。


还能遵循用户指令,打造出Lofi视觉化效果器。从官方Demo来看,GPT-5的前端能力较此前的OpenAI模型有了不错的提升。


GPT-5改进了语音功能,听起来就像跟人对话一样自然。免费用户每天可以聊上几个小时。比如,结合ChatGPT学习模式,用户可以以引导的方式教用户学习韩语,OpenAI现场对此进行了演示。

OpenAI还宣布一项新功能,面向付费用户推出更加定制化的ChatGPT,支持自定义聊天功能,可调整模型的性格,四项初始选项包括:愤世嫉俗者、机器人、倾听者和书呆子,还能改变聊天界面的颜色。


为了让GPT-5更符合个人用户的沟通方式,研发团队内存方面做了很多改进,使其具备更强的记忆功能。比如这使GPT-5在为用户指定日程时,能顾考虑到此前提及的安排,更符合定制化需求。下周起Pro用户可先接入Gmail和谷歌日历,自动规划日程、回复邮件。


在API中,所有GPT‑5模型最多可接受272000个(272k)tokens,并生成最多128000个(128k)推理及输出tokens,总上下文长度为400000个(400k)tokens。

通用Agent明星创企Manus联合创始人兼首席科学家Yichao ‘Peak’ Ji称,GPT‑5 “在各种智能体任务中表现出色,即使在未修改任何代码或调整提示的情况下”。

OpenAI在API中引入了新功能,让开发人员对模型回复具有更多控制权。GPT‑5支持新的verbosity参数(取值:低、中、高),帮助控制控制回答是简短扼要还是详尽全面。GPT‑5还支持最低模式,该模式会将GPT‑5的推理强度降到到最低,以快速返回答案。

二、多项基准测试实现业界SOTA,事实性错误较o3减少80%

OpenAI称,GPT‑5是其迄今为止在编码和智能体任务方面表现最佳的模型。它在编码基准测试和实际应用场景中均优于o3,并且经过专门优化,在Cursor、Windsurf和Codex CLI等智能体编码产品中表现尤为出色。

GPT‑5在关键编码基准测试中处于行业领先水平 (SOTA),在SWE-bench验证测试中得分74.9%,较o3版本的69.1%有所提升。值得注意的是,GPT‑5以更高的效率和速度获得了高分:与o3在高推理强度下相比,GPT‑5的输出tokens数量减少了22%,工具调用次数减少了45%。


同时,GPT‑5在Aider polyglot测试中得分88%。在内部测试中,其在70%的Web任务开发中表现和OpenAI o3。此外,GPT‑5在深度分析代码库方面表现出色,能够精准解答关于代码模块运作机制及相互协作的问题。


GPT‑5在长背景信息性能方面也展现出显著提升。在OpenAI-MRCR(一种衡量长背景信息检索能力的指标)中,GPT‑5的表现优于o3和GPT‑4.1,且随着输入长度的增加,这种优势会显著扩大。


OpenAI与一些客户就编程功能进行了合作。Cursor首席执行官Truell称,GPT‑5“具有显著的智能,易于操控,甚至拥有其他模型中不具备的人格特质”。AI编程公司Windsurf相关负责人称,GPT‑5在其评估中达到最先进水平,且“与其他前沿模型相比,工具调用错误率仅为其一半”。

GPT‑5在持续型智能体任务中同样表现卓越,在两个月前刚发布的工具调用基准测试τ2-bench telecom中,以96.7%的成绩刷新了业界最优水平。


在事实性方面,GPT‑5比其之前的模型更值得信赖。在事实准确性基准测试LongFact和FActScore中,GPT‑5的错误率仅为o3的五分之一。这使得GPT‑5尤其适用于正确性要求高的智能体任务场景,特别是在代码生成、数据处理和决策支持等关键领域。


GPT‑5改进的工具智能使其能够可靠地串联数十次工具调用(无论串行还是并行),保持路径一致性,这使其在执行复杂的现实世界端到端任务时表现得远优于其他模型。它还更精确地遵循工具指令,更好地处理工具错误,并在长背景信息内容检索方面表现出色。

OpenAI还开源了BrowseComp Long Context⁠,这是一个用于评估长背景信息问答的新基准。在此基准中,模型会收到用户查询、一长串相关搜索结果,并必须基于搜索结果回答问题。

以下是GPT-5的一些基准测试成绩。但OpenAI研发人员称,GPT-5训练的重点是现实的实用性,而不是基准测试。








三、解决GPT“阿谀奉承”问题,靠新方法减少非必要“拒绝回复”

OpenAI的多名研究人员分享了GPT-5背后的技术创新。

在安全问题上,ChatGPT过去主要依赖于基于拒绝的安全训练:根据用户的提示,模型应该要么遵守,要么拒绝。

这种类型的训练适用于明显的恶意提示词,但是在用户意图模棱两可的情况下,可能出现问题。比如拒绝应该回答的问题,或是给有风险的问题做出回答。

对于GPT-5,OpenAI引入了一种新的安全训练形式——安全完成(safe completions)。这种训练形式教会模型尽可能给出最有用的答案,同时仍然保持在安全范围内。

如今,对于一些可能有潜在风险的问题,GPT-5会减少不必要的过度拒绝,转而告诉拒绝的原因,并提供安全的替代方案。

GPT-5还改善了GPT系列模型阿谀奉承的问题,减少了过度讨好和无意义的表情符号的使用。OpenAI已经开发出新的评估方法,来衡量模型阿谀奉承的程度,并改进训练方法了,使模型更少地阿谀奉承。

在针对阿谀奉承问题的专门评估中,GPT-5显著减少了此类回复的比例(从 14.5%降至不到 6%)。

GPT-5 Pro是OpenAI推理模型OpenAI o3-pro的替代品,能提出给出更为全面、高质量的答案,这得益于一项名为并行测试时计算的技术(同时进行多项推理)

在多个具有挑战性的基准测试中,GPT-5 Pro实现了同家族模型中的最佳性能。OpenAI还进行了1000个实际测试,67.8%外部专家更偏好GPT-5 pro的回答,而非开启思考模式的GPT-5。GPT-5 pro犯下重大错误的比例降低了 22%,在健康、科学、数学和编程方面表现尤为出色。

在发布会的尾声,OpenAI首席科学家Jakub Pochocki做了一番总结。他称,GPT-5的模型的诞生,是多年研究的结果,这些研究不仅以推出新版本为目的,还旨在构建对底层技术本身的理解。GPT-5呈现的许多技术,会在未来得到进一步发展。

Pochocki称,OpenAI仍然有很多需要了解的东西,并期待AI能够发现全新的知识,并真正地使我们的生活变得更好。

结语:靠“视觉欺骗”夸大性能提升?GPT-5实际表现有待进一步验证

GPT-5的发布,毫无疑问是今年AI圈最受关注的事件之一。GPT-5官宣推文发布2小时后,已经获得超160万浏览,并且仍在持续增长。然而,这一发布也带来了一定争议——OpenAI在发布会使用了“视觉骗局”的方式呈现基准测试,柱状图中OpenAI o3的高度被不成比例地压缩了,这从某种程度上夸大了GPT-5实现的能力提升。


GPT-5在真实使用场景中的性能与体验,尚待市场反馈,但OpenAI的估值已经飙升。此前周三外媒The Information消息称,OpenAI正洽谈潜在的二级股票发行,估值飙升至5000亿美元(约合3.6万亿人民币),比年初翻了一倍。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄罗斯领空已禁止日本航空飞行,如果中国也禁飞,看它怎么去欧洲

俄罗斯领空已禁止日本航空飞行,如果中国也禁飞,看它怎么去欧洲

我心纵横天地间
2025-11-18 20:07:05
日本公然挑衅,金一南将军:我们30多年没打仗,正好趁机锻炼下

日本公然挑衅,金一南将军:我们30多年没打仗,正好趁机锻炼下

文史旺旺旺
2025-11-17 20:38:45
8年给瘫痪父亲换了4个保姆后,我得出一个结论:不能对保姆太好

8年给瘫痪父亲换了4个保姆后,我得出一个结论:不能对保姆太好

小马达情感故事
2025-10-27 19:45:03
一高管花25万欧元,在希腊办理买房移民,半年后懵了

一高管花25万欧元,在希腊办理买房移民,半年后懵了

老黄有话
2024-09-24 08:00:03
4000吨“沉睡氢弹”被击中,北约火速大撤退,乌:都怪俄干的好事

4000吨“沉睡氢弹”被击中,北约火速大撤退,乌:都怪俄干的好事

阿策聊实事
2025-11-19 02:54:40
台湾34个团体联合发表抗议声明:台湾人民拒绝成为日本军国主义的牺牲品

台湾34个团体联合发表抗议声明:台湾人民拒绝成为日本军国主义的牺牲品

环球网资讯
2025-11-17 15:05:32
X欲最强的星座,没有之一!

X欲最强的星座,没有之一!

同道大叔
2025-11-15 22:01:52
维尼修斯比阿隆索更重要:皇马主帅已遭到弗洛伦蒂诺质疑

维尼修斯比阿隆索更重要:皇马主帅已遭到弗洛伦蒂诺质疑

K唐伯虎
2025-11-18 07:57:12
回顾:上海31岁美女博士,因无法接受丈夫身份,从23楼一跃而下

回顾:上海31岁美女博士,因无法接受丈夫身份,从23楼一跃而下

星宇共鸣
2025-03-07 11:41:25
一旦开打,要让解放军“找不着北”,继王世坚之后,于北辰也火了

一旦开打,要让解放军“找不着北”,继王世坚之后,于北辰也火了

沧海旅行家
2025-11-18 12:52:41
救人时接触私密部位算侵入吗?网友:不是,命都没了还在乎这些啊

救人时接触私密部位算侵入吗?网友:不是,命都没了还在乎这些啊

解读热点事件
2025-10-02 00:10:03
毛宁昭告全球,中方不见高市,钝刀子割肉开始,日本股票应声暴跌

毛宁昭告全球,中方不见高市,钝刀子割肉开始,日本股票应声暴跌

南宫一二
2025-11-18 15:49:22
西班牙王后抵京,大衣配光腿不怕冷?王毅外长率队亲自到场接机!

西班牙王后抵京,大衣配光腿不怕冷?王毅外长率队亲自到场接机!

小lu侃侃而谈
2025-11-17 18:47:45
权臣张廷玉被抄家,搜出白银40万两,次日早朝乾隆:快快送还回去

权臣张廷玉被抄家,搜出白银40万两,次日早朝乾隆:快快送还回去

卡西莫多的故事
2025-11-14 10:21:28
前拉玛西亚队友:梅西做的那些动作,他在小时候就能做

前拉玛西亚队友:梅西做的那些动作,他在小时候就能做

懂球帝
2025-11-19 00:22:18
“漏奶风”女装火了,比巴黎世家还炸裂!

“漏奶风”女装火了,比巴黎世家还炸裂!

首席品牌观察
2025-11-15 10:51:57
19岁男子KTV上班,三名女孩来喝酒,男子下体过度使用成永久创伤

19岁男子KTV上班,三名女孩来喝酒,男子下体过度使用成永久创伤

丫头舫
2025-09-22 20:39:00
谁说屁股大就不能穿瑜伽裤?黄色T恤搭薄荷绿瑜伽裤,成熟有活力

谁说屁股大就不能穿瑜伽裤?黄色T恤搭薄荷绿瑜伽裤,成熟有活力

小乔古装汉服
2025-11-12 11:46:01
张艺谋也没想到,金鸡奖结束的第二天,他就被扒了一个底朝天

张艺谋也没想到,金鸡奖结束的第二天,他就被扒了一个底朝天

东方不败然多多
2025-11-19 01:12:36
吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

傲娇的马甲线
2025-09-17 18:06:44
2025-11-19 04:51:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10757文章数 116898关注度
往期回顾 全部

科技要闻

谷歌CEO警告:若AI泡沫破裂,没公司能幸免

头条要闻

27岁女孩家门口遇害 妈妈痛哭:墙上还有女儿血迹

头条要闻

27岁女孩家门口遇害 妈妈痛哭:墙上还有女儿血迹

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

家居
旅游
亲子
教育
军事航空

家居要闻

彰显奢华 意式经典风格

旅游要闻

铜锅沸山海,非遗润新年!螺髻山彝历盛宴奏响文旅融合新乐章

亲子要闻

程晓玥展示大肚子,二胎4个多月就显怀,孕中期胃口大开才92斤

教育要闻

留学降温“AI化留学”泛滥海归人设崩塌?

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版