网易首页 > 网易号 > 正文 申请入驻

GPT-5,放了个哑炮

0
分享至



自2022年11月ChatGPT隆重登场后,OpenAI的新品发布会就成了科技春晚,每场都格外引人关注,科技巨头们也是严阵以待。但OpenAI刚刚发布的GPT-5恐怕让用户失望了,这款大模型确实更强,但远没有科技圈预期的那么惊艳。

距离GPT-4发布两年半,GPT-5姗姗来迟。

从去年底开始,GPT-5的发布时间便备受瞩目,在业内被视为最被期待的大模型。社交媒体上,OpenAI的CEO山姆·奥特曼更将其称为“世界最强模型”,科技粉们被吊足了胃口。

但发布当日,GPT-5的表现似乎并不如奥特曼预言的那般神奇,也没有在业内激起如前作GPT-4那样凶猛的水花。

北京时间8月8日凌晨,GPT-5家族正式亮相。OpenAI共为其推出了4个版本,分别是主流模型GPT-5、面向开发者和企业的轻量版GPT‑5 Mini、超轻量版GPT‑5 Nano,以及只对企业版和每月需付费200美元的高级版开放的GPT-5 Pro模式。可以说,对企业、开发者、普通用户的需求进行了全套覆盖。

发布会上,山姆·奥特曼高调形容GPT-4到GPT-5的跨越,可以比作iPhone从像素屏进化到视网膜屏的跨越。他还类比以往模型举例:不管什么问题,GPT-5都能给你博士级别的解答。

事实是否果真如此?从性能上看,GPT-5是否仍具备此前OpenAI发布的多款模型产品的技术底气和行业领导力?

01、马斯克不服OpenAI

从产品端看,GPT-5最显而易见的改变,是在使用上更加简洁统一。过去,OpenAI的模型名称让用户眼花缭乱,如GPT-4o、o4、GPT-4.1等。这一次, GPT-5整合了所有模型,直接终结了用户的选择困难症。

价格方面,OpenAI也亮出了“杀手锏”。针对普通用户,GPT-5推出了限量免费策略,每5小时可免费发送10条信息,人人都可试用。在API价格方面,GPT-5每百万Token输入仅为1.25美元,输出为10美元。

曾经“高冷”的OpenAI这次算是拿出了诚意。和两个主要竞争对手相比,GPT-5的价格已降至Claude Opus 4.1的1/15,也比Gemini 2.5 Pro使用价格更低。

但不少熬夜看完整场发布会的应用者仍难掩对GPT-5的失望。

大模型从业者秦岚对《财经天下》说道,“整体看下来,没有感觉出GPT-5除了‘刷榜’之外的模型架构优势。虽然数据集提升了,(功能)没有给人眼前一亮的感觉”。

另一位大模型从业者观点更为理性:“毕竟以前GPT-4太轰动了,大家对GPT-5仍有碾压式的效果期待,但技术的发展从来都不是线性的。”



实事求是地说,GPT-5各项基准测试的表现,相较于上一代模型GPT-4o和o3都有所提升。特别是在编程表现上,GPT-5刷新了OpenAI历代模型纪录。

在1小时20分钟的发布会上,OpenAI高层率先介绍了GPT-5的编码性能,并自信地表示,“GPT-5是当今市场上最好的编码模型”。

如今AI编程能力,已成为科技巨头们的必争之地。在国内企业中,7月21日到7月23日的3天内,字节、腾讯、阿里三大巨头已相继推出了AI编程领域的新一代产品。

其中,字节推出了AI编程助手TRAE 2.0版本,腾讯云宣布CodeBuddy IDE开启内测,阿里云则发布通义千问AI编程大模型Qwen3-Coder。此外,Kimi、智谱AI等也于近日相继推出包含编程能力的K2模型和GLM-4.5模型。

国外企业中,谷歌旗下的Gemini 2.5 Pro被称为最强AI编程模型,主打长文本、多模态和多语言理解。同时,人工智能新“顶流”Anthropic也在今年4月推出了Claude 4系列大模型。

巨头火热入局,或是看中AI编程正在成为Agent(智能体)商业化的突破口。西部证券指出,企业开发效率的刚需创造了明确付费意愿,AI编程领域已逐步形成“技术验证-产品迭代-商业变现”的完整闭环。

相比之下,GPT-5虽然暂时坐上了“榜一大哥”的位置,却还没有与其他对手明显拉开差距。

OpenAI数据显示,在SWE-bench编程测试中,GPT-5的成绩为74.9%。几天前Anthropic公司发布的Claude Opus 4.1成绩则为74.5%,GPT-5只高出了0.4%。

由于GPT-5效果“不够惊艳”,马斯克甚至在社交媒体公开表示“不服”:GPT-5在ARC-AGI-2(一项专门评测AI流体智能的基准测试)上没有打败xAI公司开发的Grok 4。

02、基模训练摸到天花板

实际上,在对GPT-5褒贬不一的背后,还隐藏着大模型训练已逐渐摸到天花板的困局。

科技媒体“The Information”曾报道,GPT-5的研发遇到了比较大的困难。“一方面,高质量训练数据供应不足。另一方面,大规模预训练收益下降,使得GPT-5的提升难以像GPT-3到GPT-4那样实现明显飞跃。”

作为权宜之计,在GPT-5发布之前,曾坚持走闭源模型路线的OpenAI,也加入了大模型“开源生态”的竞技场。

8月6日,OpenAI发布了自2019年以来的首批开源大语言模型:GPT-oss-120b和GPT-oss-20b,二者分别有1168亿个参数和209亿个参数,并一举跻身全球人工智能领域权威的HuggingFace模型榜单前两名。

所谓“oss”,即“Open Source Series”的缩写,意为开源系列。OpenAI公布开源模型后,奥特曼骄傲地表示,“GPT-oss是OpenAI花费数十亿美元研究成果的结晶”。

不过对比之下,据报道,国内科技公司如DeepSeek、MiniMax等仅花了几百万美元,便训练出了同样开源的DeepSeek-R1和MiniMax M1模型。

那么,OpenAI数十亿美元的巨资花得值吗?从性能方面看,据OpenAI披露,GPT-oss-120b在核心推理基准测试中接近OpenAI o4-mini的表现,较小的GPT-oss-20b模型在相同评估中,达到或超过了OpenAI o3-mini的性能。

特别之处在于,两款GPT-oss模型采用了最先进的预训练和后训练技术,尤其注重推理、效率和跨部署环境的实用性。此外, 它们都使用了混合专家(MoE)架构设计的Transformer,以减少处理输入所需的活跃参数数量。



尽管OpenAI诚意满满地入局开源,但一个显而易见的问题也被人诟病——模型“幻觉”比例太高了。OpenAI表示,在公司内部用于评估人物知识准确性的PersonQA测试中,GPT-oss-20b有53%的回答存在事实错误。

要知道,如今DeepSeek-R1模型的幻觉率已经控制到了10.5%,若对比OpenAI自家最新的GPT-5闭源模型,其幻觉率已经降到了1%以下,这样的差距更是断崖式的。

“其实,各大开源模型厂商都在通过算法迭代的方式,持续攻克幻觉率高的难题,也已经有了显著提升。而GPT-oss-20b的53%幻觉率,不仅明显落后于DeepSeek-R1,也显著低于它自身闭源大模型的能力。”大模型算法工程师陈伟对《财经天下》表示。

不过,OpenAI对开源态度的扭转,仍有重大的意义。在OpenAI成立之初,其2018年发布的GPT-1模型,以及2019年发布的GPT-2模型,在一定程度上都体现了开源的理念。

2020年后,OpenAI拿出石破天惊的GPT-3模型,才全面踏入了闭源路线。这一次,OpenAI再次扭转态度,核心原因在于开源生态实在太繁荣了。

2025年1月,我国的DeepSeek掀起开源热潮后,奥特曼首次承认,OpenAI在开源技术上“站在了历史的错误一边”。

在DeepSeek的强势带动下,一众国产大模型开源大军齐头并进。到7月30日,全球知名AI开源社区Hugging Face趋势热门榜单更新中,前10名席位里,中国大模型已占据9席。

要想持续保持技术领导地位,OpenAI已难再躺赢。“开源模型厂商需要依靠开发者贡献的微调数据、评测集和RLHF等改进方案,来持续优化模型性能。如果只凭单一款模型实力,缺少持续的生态产出,就不能获得足够的市场声量。”陈伟对《财经天下》说。

而在开源生态伙伴建设方面,OpenAI已经有所行动。两款开源模型发布不久,OpenAI便与其大股东微软的Windows设备“建联”,同时获得全球最大云厂商亚马逊AWS的“带货认证”。

不过,OpenAI的开源也不忘给自己留“后手”:禁止年收入超过1亿美元,或日活跃用户超过100万的商业实体使用GPT-oss开发与OpenAI核心产品竞争的服务——这也几乎包含了OpenAI所有的竞争对手。

03、周活跃用户7亿,OpenAI仍不轻松

等待OpenAI亮出GPT-5的同时,众多科技巨头也不甘示弱,纷纷展开AI技术正面对垒。

8月6日,谷歌推出了一款通用型世界模型Genie 3,号称能以每秒24帧的速度实时生成可供自由探索的动态世界,并在720P分辨率下保持数分钟的画面一致性。不过,由于目前还在样本阶段,真实效果有待检验。

赶在GPT-5发布前夜,Anthropic也抢先出牌,发布了新模型Claude 4.1,在编程能力上抢了个风头。在定价上,Claude 4.1维持了前版的原价,“加量不加价”,继续捍卫其在编程领域的护城河。



国内市场中,大模型产品的竞争更加焦灼。7月以来,阿里曾在一周四次连发模型产品,Kimi、阶跃星辰、商汤科技也都你追我赶,亮出技术底牌。

反观OpenAI,最新数据显示,今年8月ChatGPT周活跃用户已达7亿,同比增长4倍。其付费用户数从2024年的300万增至500万,Pro会员和企业版用户贡献了超60%的收入。

庞大的用户规模,帮助ChatGPT的商业收入再创新高。曾有媒体报道,截至今年7月末,OpenAI预计将实现120亿美元的年度经常性收入,成为全球最大的AI创业公司。它的最大竞争对手Anthropic同期收入预计仅为50亿美元。

不过,OpenAI的挑战也显而易见。尤其是在企业级市场,OpenAI的市场份额正在迅速被竞争对手蚕食。

近期,海外投资机构Menlo Ventures发布的一份报告显示,Anthropic在企业大语言模型市场占有率已达32%。相比之下,OpenAI的市场份额仅为25%。

海内外开源大模型玩家也在悄然蚕食OpenAI的竞争优势。数据显示,截至今年7月,阿里Qwen系列已开源300余个模型,全球下载量超4亿次,衍生模型数超14万个,稳坐全球开源模型榜首。

最近两个月,Meta挖走十多位OpenAI研究员的消息,更让OpenAI的发展蒙上阴影。Meta不惜开出数亿美元天价年薪,这样的疯狂挖角终于让奥特曼坐不住了。据市场消息,OpenAI在内部已开启新一期比照5000亿美元估值的员工期权兑现计划。

这场人工智能的竞赛还远未到终点,未来的淘汰赛只会更加残酷。低垂的果实已被采摘殆尽,OpenAI想要继续横扫市场,已经越来越吃力。

(文中秦岚、陈伟为化名)

(作者 | 豆蔻,编辑 | 李不清,图片来源 | 视觉中国,本内容来自财经天下WEEKLY)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
如果你足够尊重孩子天性,会发现:他们怕苦怕累怕学习、又馋又懒

如果你足够尊重孩子天性,会发现:他们怕苦怕累怕学习、又馋又懒

棉花糖妈妈
2026-01-30 17:48:02
忍了两天,中方开了金口:日本敢碰红线,总账就从甲午战争开始算

忍了两天,中方开了金口:日本敢碰红线,总账就从甲午战争开始算

趣味八卦
2025-11-20 04:26:57
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
王祖蓝举家搬离上海,重回香港生活,当老板签约超百位艺人

王祖蓝举家搬离上海,重回香港生活,当老板签约超百位艺人

娱小余
2026-01-30 21:59:10
《太平年》5大忠臣结局:水丘昭券惨死,冯道被郭荣弃用后被封王

《太平年》5大忠臣结局:水丘昭券惨死,冯道被郭荣弃用后被封王

掠影后有感
2026-02-01 10:02:04
38岁德约科维奇澳网失利后,暗示可能退役,青梅竹马妻子发文力挺

38岁德约科维奇澳网失利后,暗示可能退役,青梅竹马妻子发文力挺

译言
2026-02-02 08:17:08
我带着闺女去墓地看她妈,她指着照片说:爸,她不是天天在咱家吗

我带着闺女去墓地看她妈,她指着照片说:爸,她不是天天在咱家吗

兰姐说故事
2026-01-29 17:20:03
有一种痛苦叫买了“loft公寓房”!入住5年,有些话不吐不快

有一种痛苦叫买了“loft公寓房”!入住5年,有些话不吐不快

装修秀
2026-01-04 10:50:03
人生建议,不要轻易带父母去旅游!网友:只有疯了的人才带

人生建议,不要轻易带父母去旅游!网友:只有疯了的人才带

另子维爱读史
2026-01-23 20:28:44
中国男篮决战日本队,最新大名单曝光,徐杰还没戏,顶级锋线加入

中国男篮决战日本队,最新大名单曝光,徐杰还没戏,顶级锋线加入

宗介说体育
2026-02-02 10:17:09
陪玩陪睡、风流成性、挤走原配?再封影后的宋佳,到底什么是真的

陪玩陪睡、风流成性、挤走原配?再封影后的宋佳,到底什么是真的

巧手晓厨娘
2025-12-12 21:19:47
钱再多有什么用?79岁身家525亿的特朗普,给全部中老年人提了醒

钱再多有什么用?79岁身家525亿的特朗普,给全部中老年人提了醒

阿器谈史
2026-01-19 19:33:57
70岁老人医院下跪求女儿出钱救老伴,女儿一句话,获在场众人支持

70岁老人医院下跪求女儿出钱救老伴,女儿一句话,获在场众人支持

磊子讲史
2025-08-12 14:56:11
瓜帅:平局是挫折,会继续前进

瓜帅:平局是挫折,会继续前进

体坛周报
2026-02-02 12:22:11
一级军士长王忠心简历,他享受什么待遇?退休后婉拒百万年薪

一级军士长王忠心简历,他享受什么待遇?退休后婉拒百万年薪

混沌录
2026-01-27 22:33:05
全村移民加拿大,70多年没回来,广东一无人村,村民斥巨资盖别墅

全村移民加拿大,70多年没回来,广东一无人村,村民斥巨资盖别墅

小熊侃史
2026-01-10 07:20:10
终于理解为啥吕布从没斩杀有名大将,却被称为第一猛将!评论太精辟

终于理解为啥吕布从没斩杀有名大将,却被称为第一猛将!评论太精辟

热闹的河马
2024-10-08 16:25:19
董明珠的言语经常惹争议,但是她做的事为何都做对了?

董明珠的言语经常惹争议,但是她做的事为何都做对了?

BT财经
2026-02-02 07:00:03
即将升温至25℃!春节假期广东有冷空气!下一轮降温+降雨时间也确定了→

即将升温至25℃!春节假期广东有冷空气!下一轮降温+降雨时间也确定了→

广东最生活v
2026-02-02 11:34:39
伊朗已被包围,美军开战在即,哈梅内伊进地堡,中方要做最坏打算

伊朗已被包围,美军开战在即,哈梅内伊进地堡,中方要做最坏打算

来科点谱
2026-01-29 08:55:35
2026-02-02 13:15:00
财天COVER
财天COVER
专业、有价值的商业观察!
5733文章数 72577关注度
往期回顾 全部

科技要闻

元宝发10亿红包,阿里千问:我跟30亿

头条要闻

美伊局势脆弱且微妙 两国谈判"最大症结"披露

头条要闻

美伊局势脆弱且微妙 两国谈判"最大症结"披露

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

国六货车被迫"换头" 每次收费超200元

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

健康
房产
亲子
游戏
时尚

耳石症分类型,症状大不同

房产要闻

凤栖海棠,世界藏品丨绿城·凤鸣观棠品牌发布盛典首映

亲子要闻

“妊娠”竟然不读rèn chén,正确读音是什么?你知道吗?

不用MOD也有性感服装!过去美好时代引发热议

普通人衣服没必要买太多,准备好这些单品,简单实用又耐看

无障碍浏览 进入关怀版