网易首页 > 网易号 > 正文 申请入驻

GPT-5 为什么没有带来更多惊喜?

0
分享至

“我们可以推出聪明得多的模型(我们也会这么做),但这次的模型可以让超过十亿人受益。”

作者|何简

编辑|蒋浇

封面|ChatGPT 截图

GPT-4 发布两年半之后,OpenAI 终于发布了旗下最新模型 GPT-5。行业早已为此等待多时,山姆·阿尔特曼(Sam Altman)也持续半年对外预告,吊足公众胃口。但这款旗舰模型上新之初收到的反馈却不尽如人意。

GPT-4 发布时,同行们尚需花费半年乃至更长时间才能追赶上 OpenAI。但 GPT-5 没有与主流模型拉开显著差距。它的部分性能指标甚至有所落后,在一些基准测试中落后马斯克的 Grok 4 以及刚刚发布的 Claude Opus 4.1,上下文长度也不及 Google 的 Gemini 2.5 Pro。

普通用户对 GPT-5 的不满声音更强烈一些,他们并没有感受到太多 GPT-5 相较于 GPT-4o 的性能升级,反而更加怀念熟悉的 GPT-4o。OpenAI 原本下架了旧模型,但在遭到用户的强烈反对之后,OpenAI 不得不为 Plus 用户重新上架了 GPT-4o 模型。

我们或许不得不面临一个这样的事实,即便强如 OpenAI,也不得不面临 Scaling laws(缩放定律)的局限。模型规模的持续扩张已经不再像过去那样带来成比例的性能跃迁,迭代周期难免放缓。

从 GPT-4 到 GPT-5 间隔了 29 个月,但这一次没有出现 GPT-3 到 GPT-4 时的那种跨越式提升。过去一年,OpenAI 维持着平均两个月发布一款细分模型的节奏,用令人眼花缭乱的型号填补模型代际更新的真空期,强调推理的 o 系列、更小的 mini 型号、更强性能的 Pro 版本。

和最新发布的 GPT-5 强调可靠性和易用性一样,这些更新都是在性能增长变得越来越昂贵和稀缺背景下的工程创新。它当然变得更好用、更可靠,但也越来越缺少惊喜了。

好在用户也并不总是需要这么强劲的模型。事实上更多普通用户使用大模型仅仅只是完成一些基础的问答,或者仅仅将大模型作为一个情感伙伴。

ChatGPT 是有史以来用户数破亿最快的应用,现在它的周活跃用户已经达到 7 亿,全球有接近 1/10 的人口都是 ChatGPT 的用户,但更多用户只是使用免费的基础模型。根据 The Information 今年 4 月的报道,ChatGPT 的付费订阅用户约为 2000 万。

GPT-5 目前已经开放给所有用户使用。打开 ChatGPT,更明显的感知是对话界面变得多彩了,用户现在可以自定义对话气泡颜色——但紫色仅限 Plus 用户使用,Pro 用户能使用更尊贵的黑色。总是靠模型能力区分用户等级的 OpenAI,终于也学到了 QQ 会员的精髓。

OpenAI 没有公布 GPT-5 的参数规模。山姆·阿尔特曼在发布会后接受 CNBC 采访时表示,他们未来仍将会优先考虑在训练和算力上的投入,并甘愿为此承受较长时间的亏损。

性能未拉开显著差距,但仍是最全面的模型

马斯克可能是 GPT-5 发布会召开时最兴奋的那个人。发布会还没结束,他就早早地在 X 上宣告 Grok-4 的胜利。

在 Humanity’s Last Exam 测试中,GPT-5 Pro 在启用工具后的准确率为 42.0%,略低于 Grok 4 Heavy 模型的 44.4%。在 ARC-AGI-2 基准测试中,Grok-4(Thinking)的成绩为 16.0%,而 GPT-5(High)的得分只有 9.9%。

马斯克专门在 X 上将二者的测试结果对比置顶,“一句话:两周前的 Grok 4 Heavy 比现在的 GPT-5 更聪明。”他随后发出预告,年底发布的 Grok 5 将更加强大。

xAI 联合创始人吴宇怀同样在 X 上表示,GPT-5 发布之后,xAI 团队感到非常自豪。“尽管团队规模小的多,但我们在许多方面都处于领先地位。”他称 xAI 将在未来几周发布更多新模型。

比 GPT-5 早发布 2 天的 Claude Opus 4.1 也在部分测试中超越 GPT-5。在 SWE-bench Verified 测试中,启用了深度思考模式的 GPT-5 得分为 74.9%,仅仅只比 Claude Opus 4.1 领先 0.4%——这还是在 Claude Opus 4.1 未启用深度思考的得分。

同样未启用深度思考,GPT-5 得分比 Claude Opus 4.1 低了接近 30%。或许是照顾到前司的面子,Anthropic 创始人达里奥·阿莫迪(Dario Amodei)未像马斯克那样对外强调这一领先。

与性能有限的升级相比,GPT-5 的成本下降更为突出。GPT-5 的输入成本仅为 1.25 美元/百万 tokens,较 GPT-4o 下降约一半,nano 版本甚至低至 0.05 美元/百万 tokens。

与之相比,Claude Opus 4.1 的输入价格高达 15 美元/百万 tokens,Gork 4 为 3 美元/百万 tokens。即便其他模型在部分测试场景下有一定领先,但 GPT-5 仍然是目前你能在市面上找到的性价比最高、能力最全面的模型之一。

在中立评测平台 LMArena 的最新“竞技场”榜单中,GPT-5 依然位列所有测评项目第一,包括文本理解、编程、视觉等类别。“GPT-5 以史上最高分登上 LMArena 榜首。” LMArena 形容称。

OpenAI 在发布会上也明显更重视行业落地应用。发布会开场的性能介绍一笔带过,更多的时间留给了 GPT-5 在编程、写作和医疗等特定行业的升级,这也是人们使用 ChatGPT 最核心的三个场景。

尤其是编程领域,接近一个半小时的发布会中至少有一半时间都是关于编程。“GPT-5 是世界上最优秀的编程模型。” OpenAI 总裁格雷格・布罗克曼 (Reg Brockman)说。

他们不仅邀请了 AI 编程创业公司 Cursor 的创始人兼 CEO 迈克尔・特鲁埃尔(Michael Truell )专门上台演示,还在官网中列举了包括 Windsurf、JetBrains、Manus、Genspark 等 22 家 AI 领域公司高管的测试评价和赞赏。在 OpenAI 过去的产品更新中,这种做法并不常见。

GPT-5 可能是 OpenAI 在 B 端落地速度最快的模型之一。发布会尚未结束,微软 CEO 萨提亚·纳德拉就宣布微软旗下多款产品已接入 GPT-5,包括 Cursor、Manus、Notion 在内的多家公司也都宣布完成集成。

更可靠、更易用

山姆·阿尔特曼在 GPT-5 发布后强调,GPT-5 是他们迄今开发的最智能的模型,但他们核心追求的是现实世界的实用性、大规模的可访问性/可负担性。

按照 OpenAI 官网的定义,GPT-5 是一个更加智能、同时应用更广泛的模型。“GPT-5 不仅在基准测试中超越前代模型、响应速度更快,更重要的是对现实场景的提问更具实用价值。”他们着重介绍了 GPT-5 在减少幻觉、提升指令遵循能力和降低模型谄媚性方面的进展。

比如在启用网络搜索的情况下,GPT-5 出现事实错误的概率比 GPT-4o 降低了近一半。深度思考模式下,GPT-5 的事实错误率比 o3 低了约 80%。GPT-5 也会“更诚实”地面对用户。它能更准确地识别无法完成的任务,诚实地表达自己的能力局限。

你或许遇到过不少推理模型一本正经扯谎的情况,尤其是 DeepSeek-R1——它现在是国内应用最广泛的推理模型,但它同时也是幻觉程度最高的模型之一。过去半年 DeepSeek 风格的 AI 虚假文章几乎已经席卷了整个中文互联网,甚至不少专业媒体未能幸免。

比如前段时间的“特朗普爱上白宫保洁”短剧狂揽 1.5 亿美元的虚假文章,又或者香港浸会大学取消武大学生博士录取资格的虚假消息。这些 AI 虚假新闻都曾被大量国内媒体转发报道。

部分原因在于过去大模型更多依赖单一的奖惩式训练(RLHF),在面对信息不足或无解问题时,这种机制容易让模型倾向于迎合用户预期,给出虚假内容。

而 OpenAI 在 GPT-5 中加入了更精细的多维度优化机制,比如增加了多目标奖励信号,即便模型无法得出答案,也会因为明确表达不确定性而获得正向反馈。又或者在推理过程中加入思维链(CoT)监控,实时识别并纠正虚构或逻辑漏洞。

OpenAI 还为 GPT-5 加入了一种新的安全补全机制(Safe completions),模型在面临危险问题是不再是干脆地回答或者拒绝。比如当你想了解了解制作炸药,GPT-4o 要么拒绝回答要么给你详细步骤,而 GPT-5 则会告知出于安全它无法提供具体步骤,但它可以向你介绍 TNT 的历史、化学性质、工业用途。

和此前总是无脑选择谄媚用户的模型相比,GPT-5 也更中立一些,减少了过度迎合的倾向,更少使用表情符号,表达也更为含蓄和深思熟虑。“它给人的感觉更像是与一位有着博士智商的贴心朋友聊天,而不是与 AI 对话。”OpenAI 在产品文档中形容。但这一定程度上引发了习惯此前模型用户的不满,OpenAI 为 GPT-5 加入了 4 种自定义风格的调整,并承诺此后将加入更多个性化的调整。

简而言之,这些更新都是围绕着模型的可靠性和易用性上做文章,让用户可以更放心地将 AI 引入到自己的工作流程中。OpenAI 的研究员 Christina Kim 在 X 上说,虽然 GPT-5 的性能达到业界顶尖水平,但它真正的价值在于实用性。“它经过更好的校准,会说‘我不知道’,能够区分事实与猜测,并且在你需要时可以提供引用来源来支持答案。”

对于更多用户而言,GPT-5 更重要的升级是他们可以免费使用 ChatGPT 的推理能力。GPT-5 的成本更低、准确率更高且速度更快,免费开放给所有用户,订阅用户享有更高额度。这种普惠策略或许也限制了性能,OpenAI 原本计划推出支持 100 万上下文的版本,但最终因算力成本限制而放弃。

“我们可以推出聪明得多的模型(我们也会这么做),但这次的模型可以让超过十亿人受益。”山姆·阿尔特曼说,“世界上的大多数人可能只是用过类似于 GPT-4o 的模型。”“对于大多数 ChatGPT 用户来说,这是他们首次接触推理能力。”OpenAI 副总裁尼克·特利(Nick Turley)说。

只是,在如此强调模型准确率的发布会上,OpenAI 的多个图表却出现了低级错误。比如在对比 GPT-5 思考模式和 o3 的“代码欺骗率”图表上, 50% 柱状图长度却不到 47.4%的柱状图的一半。山姆后来解释称,数据本身是准确的,只是直播时搞错了图表,"工作人员熬夜加班非常疲惫,人为失误在所难免。直播前最后几小时需要协调太多环节了。"

为什么普通用户更喜爱旧模型?

专业开发者尤其是软件从业人员对 GPT-5 充满了赞扬,多数普通用户对这款旗舰模型的更新却满是怨言。

和此前 OpenAI 通过多个不同模型提供服务不同,GPT-5 采用了统一模型策略,模型可在后台自主判断是否调用深度思考模式、自主选择不同体量的模型回答。“它旨在通过恰到好处的思考,为你提供完美答案。”OpenAI 的研究员在发布会中介绍。

但这一设计上线之初就出了问题,GPT-5 在多数场景下的反应和回答都不如旧模型。山姆·阿尔特曼随后解释说,自动切换器(Autoswitcher)因为故障停摆了大半天,导致系统无法按需调用更高性能的推理模式。他称故障已经修复,并承诺将会对模型切换进行调整和干预,让用户更方便地获得正确的模型。

但《山上》实测对比当前 GPT-5 以及 GPT-4o 模型,发现在部分简单问题下 GPT-5 表现仍然不如 GPT-4o。比如询问它 GPT-5 有哪几个版本,GPT-5 无法给出准确回答。社交平台上也有大量用户在山姆表示故障修复后,强调 GPT-5 回答质量不如 GPT-4o。

OpenAI 统一模型的初衷是为了减轻用户的选择烦恼。GPT-4 时代以来,OpenAI 一改此前只发布一款通用模型的做法,开始针对特定场景发布更多专业模型。产品命名上也有些混乱,推理模型从 OpenAI o1 到 o3,GPT-4 Turbo 之后却是代表多模态的 GPT-4o。GPT-5 更新前,ChatGPT 上可供选择的模型多达 5 款之多,客观上确实增加了用户的理解成本。

“这是第一次用户无需在不同模型间做选择,甚至不用考虑模型名称。”OpenAI 的研究员 Elaine Ya Le 说,她在发布会中介绍了 GPT-5 的模型自主切换功能,是这一功能的团队负责人。

只是,多数普通用户可能仍然没办法接受 OpenAI 统一模型的做法。GPT-5 目前已成为 ChatGPT 的默认模型,但用户无法在前端判断 ChatGPT 调用的到底是 GPT-5 标准版还是 mini 版本。和此前多个模型供用户选择相比,GPT-5 统一模型后用户实际可使用限额也降低了,尤其是取消了 mini 模型的推理模式。

OpenAI 后续称他们将为用户开发 GPT-5 mini 的思考模式,以实现相同的总体推理限额。面向 Plus 用户,GPT-5 最大只能支持 32k 的上下文长度也引发不少吐槽,Gemini、Claude 在相同价格下都支持更长的上下文长度。

山姆不得不连发两条推文安抚用户,承诺将更清晰地向用户展示哪个模型在回答问题、更便捷地切换深度思考以及将 Plus 用户使用限额提高一倍至 160 条——但 OpenAI 在官网表示,这只是临时性额度提升,近期将恢复至原有限额。

这些都还只是工程上的优化,通过一定时间迭代就能解决。OpenAI 另一个没有预料到的问题可能是部分用户对旧版模型的情感依赖。即便 GPT-5 的能力更强,但更多普通用户仍然更习惯使用旧版模型。Reddit 平台上的 ChatGPT 板块中,有大量用户分享他们对旧版模型的偏爱,他们甚至不在意模型能力是否升级,“只要还是 4o 我就愿意一直付费。”

发布会次日,山姆·阿尔特曼带着 OpenAI 团队在 Reddit 平台上举办了一次问答活动,排名第一的提问就是要求 OpenAI 恢复 GPT-4o 及其他旧版模型,“用户有不同的使用习惯!”

山姆·阿尔特曼回复称,他们已经听到了用户的反馈,将会为 Plus 用户重新开放这一功能。山姆此后在 X 上说,他们低估了用户对于 GPT-4o 的喜爱程度。目前,OpenAI 已经为 Plus 用户恢复了 GPT-4o 模型的使用权限,付费用户可在 ChatGPT 网页版启用旧版模型。但山姆补充称他们会视情况考虑保留旧模型的时长。

“你没有从根本上理解为什么大家珍视它们。”一位 ChatGPT 用户在山姆的帖子下留言说。“不同模型不仅在准确度和速度上有差异,它们同时拥有各自独特的性格、思维和互动方式以及独特的‘感觉’。将它们视为需要逐步淘汰的东西,实际上是在把它们当作过时的工具来对待,而对我们许多人来说,它们更像是独特的合作伙伴。”

这可能是即便山姆一直强调 GPT-5 要比旧模型优秀得多,但用户仍然不买账的原因之一。人们并不总是需要性能最强的模型,但人们对于习惯以及情感的依赖要强得多,即便和他们对话的只是一个 AI。

OpenAI 或许从未真正意识到这一点,否则他们也不会在发布会上安排 GPT-5 为 GPT-4o 以及旧版模型写悼词,目的还是为了展现 GPT-5 的性能优越。在后续官网的产品更新文档中,OpenAI 没有再展示这一场景,转而让 GPT-5 创作诗歌。

尤其是在前文所诉的种种减少幻觉、谄媚以及安全补全机制的更新下,GPT-5 的个性更加平淡了,它不会使用聊天表情,回答也更谨慎和含蓄,让习惯了 4o 的用户们感到陌生。

“它不能就这样从列表中删除然后被抹去,就好像从未存在过一样。”一位 ChatGPT 用户在 Reddit 上说。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“奔驰狂降10万跌至25万”正式上市!奔驰GLC掀桌子了!

“奔驰狂降10万跌至25万”正式上市!奔驰GLC掀桌子了!

蓝色海边
2026-05-04 23:45:57
海拔5000米以上的雪山堵成了人山人海,四川阿坝四姑娘山大雪难挡“冲顶大军”,大峰打卡排队超1小时,景区回应:雪山排队情况属实

海拔5000米以上的雪山堵成了人山人海,四川阿坝四姑娘山大雪难挡“冲顶大军”,大峰打卡排队超1小时,景区回应:雪山排队情况属实

扬子晚报
2026-05-04 18:57:09
NBA东西部4场半决时间!场场精彩,CCTV5直播,活塞骑士悬念最大

NBA东西部4场半决时间!场场精彩,CCTV5直播,活塞骑士悬念最大

老吴说体育
2026-05-04 11:15:55
人活着,其实就两件事,想通了,一辈子都顺了

人活着,其实就两件事,想通了,一辈子都顺了

心理观察局
2026-05-03 08:19:07
遍地倒闭、批量合并!央企国企扎堆成立的数科公司,为啥死了大半

遍地倒闭、批量合并!央企国企扎堆成立的数科公司,为啥死了大半

细说职场
2026-05-03 20:11:19
从金手指到不锈钢:航天是如何被拉下神坛的

从金手指到不锈钢:航天是如何被拉下神坛的

浪子说
2026-05-04 16:04:35
中国女队3-1波兰晋级:孙颖莎无对手轻松取2分,王曼昱实在重要

中国女队3-1波兰晋级:孙颖莎无对手轻松取2分,王曼昱实在重要

野渡舟山人
2026-05-04 23:47:48
广州南沙金洲派出所副所长贾依东:三次突破转型的95后“警营多面手”

广州南沙金洲派出所副所长贾依东:三次突破转型的95后“警营多面手”

兰妮搞笑分享
2026-05-04 21:55:41
上海交大调查470名心梗人士,吃惊发现:患心梗的人,有8大共性!

上海交大调查470名心梗人士,吃惊发现:患心梗的人,有8大共性!

摇感军事
2026-05-04 18:25:12
朱芳雨赌对了!广东队G3多赚1500万,杜锋打完京粤大战下课?

朱芳雨赌对了!广东队G3多赚1500万,杜锋打完京粤大战下课?

绯雨儿
2026-05-04 14:37:38
英超-埃弗顿0-3曼城:手下败将近期连败,曼城稳了?|前瞻

英超-埃弗顿0-3曼城:手下败将近期连败,曼城稳了?|前瞻

体育世界
2026-05-04 13:46:57
奥尼尔转发影响力历史前十榜:乔丹詹姆斯前二!库里强于科比!

奥尼尔转发影响力历史前十榜:乔丹詹姆斯前二!库里强于科比!

历史第一人梅西
2026-05-04 16:31:33
浏阳烟花爆竹企业爆炸事故已致3人死亡,25人受伤;涉事企业成立26年,周边居民称600米外玻璃被震碎

浏阳烟花爆竹企业爆炸事故已致3人死亡,25人受伤;涉事企业成立26年,周边居民称600米外玻璃被震碎

大风新闻
2026-05-04 22:05:03
【五四运动】当事人曹汝霖晚年回忆说:不明不白,牺牲了我们三人

【五四运动】当事人曹汝霖晚年回忆说:不明不白,牺牲了我们三人

年之父
2026-05-04 00:00:04
划红线动真格!公职人员全覆盖严管,碰线即丢饭碗

划红线动真格!公职人员全覆盖严管,碰线即丢饭碗

细说职场
2026-05-03 21:42:10
2-2绝平后,中超又1家俱乐部宣布上诉!主裁判唐顺齐或遭足协重罚

2-2绝平后,中超又1家俱乐部宣布上诉!主裁判唐顺齐或遭足协重罚

何老师呀
2026-05-04 17:16:31
任仲夷晚年时说:现在腐败得不到遏制,根本原因是权力得不到制约

任仲夷晚年时说:现在腐败得不到遏制,根本原因是权力得不到制约

帝哥说史
2026-05-04 21:57:53
猛龙主帅解析抢七失利原因,直言不讳一针见血

猛龙主帅解析抢七失利原因,直言不讳一针见血

奇迹行者在刷野
2026-05-05 00:25:16
92年高考前,班主任嘲笑我是去工厂的命,10年后同学会再见她懵了

92年高考前,班主任嘲笑我是去工厂的命,10年后同学会再见她懵了

白云故事
2025-04-05 19:55:04
世锦赛战报:决赛再爆大冷预警,吴宜泽两波三连鞭,10-7墨菲

世锦赛战报:决赛再爆大冷预警,吴宜泽两波三连鞭,10-7墨菲

安海客
2026-05-04 07:26:54
2026-05-05 01:04:49
山上 incentive-icons
山上
时间宝贵,读点有意思的。关注科技与商业变革。
258文章数 9关注度
往期回顾 全部

科技要闻

在中国市场搞「付费订阅」,豆包咋想的?

头条要闻

媒体:霍尔木兹海峡一声惊雷炸响 战争的引信已经点燃

头条要闻

媒体:霍尔木兹海峡一声惊雷炸响 战争的引信已经点燃

体育要闻

骑士破猛龙:加雷特·阿伦的活力

娱乐要闻

张敬轩还是站上了英皇25周年舞台

财经要闻

魔幻的韩国股市,父母给婴儿开户买股票

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

旅游
时尚
教育
数码
房产

旅游要闻

假期沪郊露营地人气旺,林下经济激活乡村休闲新场景

谁说每年都要穿新衣服?准备一些基础款,百搭耐看又不过时

教育要闻

不写论文也能获博士学位?成都多所高校已出现“实践博士”

数码要闻

华硕推出ZenScreen OLED MQ16FC便携显示器:16英寸,280欧元起

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

无障碍浏览 进入关怀版