网易首页 > 网易号 > 正文 申请入驻

GPT-5,放了个哑炮

0
分享至

自2022年11月ChatGPT隆重登场后,OpenAI的新品发布会就成了科技春晚,每场都格外引人关注,科技巨头们也是严阵以待。但OpenAI刚刚发布的GPT-5恐怕让用户失望了,这款大模型确实更强,但远没有科技圈预期的那么惊艳。

距离GPT-4发布两年半,GPT-5姗姗来迟。

从去年底开始,GPT-5的发布时间便备受瞩目,在业内被视为最被期待的大模型。社交媒体上,OpenAI的CEO山姆·奥特曼更将其称为“世界最强模型”,科技粉们被吊足了胃口。

但发布当日,GPT-5的表现似乎并不如奥特曼预言的那般神奇,也没有在业内激起如前作GPT-4那样凶猛的水花。

北京时间8月8日凌晨,GPT-5家族正式亮相。OpenAI共为其推出了4个版本,分别是主流模型GPT-5、面向开发者和企业的轻量版GPT‑5 Mini、超轻量版GPT‑5 Nano,以及只对企业版和每月需付费200美元的高级版开放的GPT-5 Pro模式。可以说,对企业、开发者、普通用户的需求进行了全套覆盖。

发布会上,山姆·奥特曼高调形容GPT-4到GPT-5的跨越,可以比作iPhone从像素屏进化到视网膜屏的跨越。他还类比以往模型举例:不管什么问题,GPT-5都能给你博士级别的解答。

事实是否果真如此?从性能上看,GPT-5是否仍具备此前OpenAI发布的多款模型产品的技术底气和行业领导力?

01、马斯克不服OpenAI

从产品端看,GPT-5最显而易见的改变,是在使用上更加简洁统一。过去,OpenAI的模型名称让用户眼花缭乱,如GPT-4o、o4、GPT-4.1等。这一次, GPT-5整合了所有模型,直接终结了用户的选择困难症。

价格方面,OpenAI也亮出了“杀手锏”。针对普通用户,GPT-5推出了限量免费策略,每5小时可免费发送10条信息,人人都可试用。在API价格方面,GPT-5每百万Token输入仅为1.25美元,输出为10美元。

曾经“高冷”的OpenAI这次算是拿出了诚意。和两个主要竞争对手相比,GPT-5的价格已降至Claude Opus 4.1的1/15,也比Gemini 2.5 Pro使用价格更低。

但不少熬夜看完整场发布会的应用者仍难掩对GPT-5的失望。

大模型从业者秦岚对《财经天下》说道,“整体看下来,没有感觉出GPT-5除了‘刷榜’之外的模型架构优势。虽然数据集提升了,(功能)没有给人眼前一亮的感觉”。

另一位大模型从业者观点更为理性:“毕竟以前GPT-4太轰动了,大家对GPT-5仍有碾压式的效果期待,但技术的发展从来都不是线性的。”

实事求是地说,GPT-5各项基准测试的表现,相较于上一代模型GPT-4o和o3都有所提升。特别是在编程表现上,GPT-5刷新了OpenAI历代模型纪录。

在1小时20分钟的发布会上,OpenAI高层率先介绍了GPT-5的编码性能,并自信地表示,“GPT-5是当今市场上最好的编码模型”。

如今AI编程能力,已成为科技巨头们的必争之地。在国内企业中,7月21日到7月23日的3天内,字节、腾讯、阿里三大巨头已相继推出了AI编程领域的新一代产品。

其中,字节推出了AI编程助手TRAE 2.0版本,腾讯云宣布CodeBuddy IDE开启内测,阿里云则发布通义千问AI编程大模型Qwen3-Coder。此外,Kimi、智谱AI等也于近日相继推出包含编程能力的K2模型和GLM-4.5模型。

国外企业中,谷歌旗下的Gemini 2.5 Pro被称为最强AI编程模型,主打长文本、多模态和多语言理解。同时,人工智能新“顶流”Anthropic也在今年4月推出了Claude 4系列大模型。

巨头火热入局,或是看中AI编程正在成为Agent(智能体)商业化的突破口。西部证券指出,企业开发效率的刚需创造了明确付费意愿,AI编程领域已逐步形成“技术验证-产品迭代-商业变现”的完整闭环。

相比之下,GPT-5虽然暂时坐上了“榜一大哥”的位置,却还没有与其他对手明显拉开差距。

OpenAI数据显示,在SWE-bench编程测试中,GPT-5的成绩为74.9%。几天前Anthropic公司发布的Claude Opus 4.1成绩则为74.5%,GPT-5只高出了0.4%。

由于GPT-5效果“不够惊艳”,马斯克甚至在社交媒体公开表示“不服”:GPT-5在ARC-AGI-2(一项专门评测AI流体智能的基准测试)上没有打败xAI公司开发的Grok 4。

02、基模训练摸到天花板

实际上,在对GPT-5褒贬不一的背后,还隐藏着大模型训练已逐渐摸到天花板的困局。

科技媒体“The Information”曾报道,GPT-5的研发遇到了比较大的困难。“一方面,高质量训练数据供应不足。另一方面,大规模预训练收益下降,使得GPT-5的提升难以像GPT-3到GPT-4那样实现明显飞跃。”

作为权宜之计,在GPT-5发布之前,曾坚持走闭源模型路线的OpenAI,也加入了大模型“开源生态”的竞技场。

8月6日,OpenAI发布了自2019年以来的首批开源大语言模型:GPT-oss-120b和GPT-oss-20b,二者分别有1168亿个参数和209亿个参数,并一举跻身全球人工智能领域权威的HuggingFace模型榜单前两名。

所谓“oss”,即“Open Source Series”的缩写,意为开源系列。OpenAI公布开源模型后,奥特曼骄傲地表示,“GPT-oss是OpenAI花费数十亿美元研究成果的结晶”。

不过对比之下,据报道,国内科技公司如DeepSeek、MiniMax等仅花了几百万美元,便训练出了同样开源的DeepSeek-R1和MiniMax M1模型。

那么,OpenAI数十亿美元的巨资花得值吗?从性能方面看,据OpenAI披露,GPT-oss-120b在核心推理基准测试中接近OpenAI o4-mini的表现,较小的GPT-oss-20b模型在相同评估中,达到或超过了OpenAI o3-mini的性能。

特别之处在于,两款GPT-oss模型采用了最先进的预训练和后训练技术,尤其注重推理、效率和跨部署环境的实用性。此外, 它们都使用了混合专家(MoE)架构设计的Transformer,以减少处理输入所需的活跃参数数量。

尽管OpenAI诚意满满地入局开源,但一个显而易见的问题也被人诟病——模型“幻觉”比例太高了。OpenAI表示,在公司内部用于评估人物知识准确性的PersonQA测试中,GPT-oss-20b有53%的回答存在事实错误。

要知道,如今DeepSeek-R1模型的幻觉率已经控制到了10.5%,若对比OpenAI自家最新的GPT-5闭源模型,其幻觉率已经降到了1%以下,这样的差距更是断崖式的。

“其实,各大开源模型厂商都在通过算法迭代的方式,持续攻克幻觉率高的难题,也已经有了显著提升。而GPT-oss-20b的53%幻觉率,不仅明显落后于DeepSeek-R1,也显著低于它自身闭源大模型的能力。”大模型算法工程师陈伟对《财经天下》表示。

不过,OpenAI对开源态度的扭转,仍有重大的意义。在OpenAI成立之初,其2018年发布的GPT-1模型,以及2019年发布的GPT-2模型,在一定程度上都体现了开源的理念。

2020年后,OpenAI拿出石破天惊的GPT-3模型,才全面踏入了闭源路线。这一次,OpenAI再次扭转态度,核心原因在于开源生态实在太繁荣了。

2025年1月,我国的DeepSeek掀起开源热潮后,奥特曼首次承认,OpenAI在开源技术上“站在了历史的错误一边”。

在DeepSeek的强势带动下,一众国产大模型开源大军齐头并进。到7月30日,全球知名AI开源社区Hugging Face趋势热门榜单更新中,前10名席位里,中国大模型已占据9席。

要想持续保持技术领导地位,OpenAI已难再躺赢。“开源模型厂商需要依靠开发者贡献的微调数据、评测集和RLHF等改进方案,来持续优化模型性能。如果只凭单一款模型实力,缺少持续的生态产出,就不能获得足够的市场声量。”陈伟对《财经天下》说。

而在开源生态伙伴建设方面,OpenAI已经有所行动。两款开源模型发布不久,OpenAI便与其大股东微软的Windows设备“建联”,同时获得全球最大云厂商亚马逊AWS的“带货认证”。

不过,OpenAI的开源也不忘给自己留“后手”:禁止年收入超过1亿美元,或日活跃用户超过100万的商业实体使用GPT-oss开发与OpenAI核心产品竞争的服务——这也几乎包含了OpenAI所有的竞争对手。

03、周活跃用户7亿,OpenAI仍不轻松

等待OpenAI亮出GPT-5的同时,众多科技巨头也不甘示弱,纷纷展开AI技术正面对垒。

8月6日,谷歌推出了一款通用型世界模型Genie 3,号称能以每秒24帧的速度实时生成可供自由探索的动态世界,并在720P分辨率下保持数分钟的画面一致性。不过,由于目前还在样本阶段,真实效果有待检验。

赶在GPT-5发布前夜,Anthropic也抢先出牌,发布了新模型Claude 4.1,在编程能力上抢了个风头。在定价上,Claude 4.1维持了前版的原价,“加量不加价”,继续捍卫其在编程领域的护城河。

国内市场中,大模型产品的竞争更加焦灼。7月以来,阿里曾在一周四次连发模型产品,Kimi、阶跃星辰、商汤科技也都你追我赶,亮出技术底牌。

反观OpenAI,最新数据显示,今年8月ChatGPT周活跃用户已达7亿,同比增长4倍。其付费用户数从2024年的300万增至500万,Pro会员和企业版用户贡献了超60%的收入。

庞大的用户规模,帮助ChatGPT的商业收入再创新高。曾有媒体报道,截至今年7月末,OpenAI预计将实现120亿美元的年度经常性收入,成为全球最大的AI创业公司。它的最大竞争对手Anthropic同期收入预计仅为50亿美元。

不过,OpenAI的挑战也显而易见。尤其是在企业级市场,OpenAI的市场份额正在迅速被竞争对手蚕食。

近期,海外投资机构Menlo Ventures发布的一份报告显示,Anthropic在企业大语言模型市场占有率已达32%。相比之下,OpenAI的市场份额仅为25%。

海内外开源大模型玩家也在悄然蚕食OpenAI的竞争优势。数据显示,截至今年7月,阿里Qwen系列已开源300余个模型,全球下载量超4亿次,衍生模型数超14万个,稳坐全球开源模型榜首。

最近两个月,Meta挖走十多位OpenAI研究员的消息,更让OpenAI的发展蒙上阴影。Meta不惜开出数亿美元天价年薪,这样的疯狂挖角终于让奥特曼坐不住了。据市场消息,OpenAI在内部已开启新一期比照5000亿美元估值的员工期权兑现计划。

这场人工智能的竞赛还远未到终点,未来的淘汰赛只会更加残酷。低垂的果实已被采摘殆尽,OpenAI想要继续横扫市场,已经越来越吃力。

(文中秦岚、陈伟为化名)

(作者 | 豆蔻,编辑 | 李不清,图片来源 | 视觉中国,本内容来自财经天下WEEKLY)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
段暄感慨:阿根廷最后被佛得角压着踢,但他们渡过此劫后会更强大

段暄感慨:阿根廷最后被佛得角压着踢,但他们渡过此劫后会更强大

风过乡
2026-07-04 10:16:43
算力不一定过剩,但Meta一定又蠢又坏

算力不一定过剩,但Meta一定又蠢又坏

25号观察员
2026-07-03 18:56:52
日本「撞人族」大阪街头嚣张,被韩国壮汉铁拳教育,秒变缩头乌龟……

日本「撞人族」大阪街头嚣张,被韩国壮汉铁拳教育,秒变缩头乌龟……

日本物语
2026-07-03 23:49:05
“可惜699分”全网热议:韩雅平敲定清华卓医班—全网喊“亏”的背后,是百万医者的集体沉默

“可惜699分”全网热议:韩雅平敲定清华卓医班—全网喊“亏”的背后,是百万医者的集体沉默

医客
2026-07-01 13:19:16
阿根廷艰难3-2佛得角,未必是坏事,仍有希望卫冕,下轮对手很弱

阿根廷艰难3-2佛得角,未必是坏事,仍有希望卫冕,下轮对手很弱

冷桂零落
2026-07-04 10:31:46
“签单陪你睡!”女业务员献身客户,半年后被约,拼命逃出报警

“签单陪你睡!”女业务员献身客户,半年后被约,拼命逃出报警

一丝不苟的法律人
2026-06-27 14:59:29
4天后小暑,出梅和三伏天时间均已确定,今夏是热是凉?答案来了

4天后小暑,出梅和三伏天时间均已确定,今夏是热是凉?答案来了

新时代的两性情感
2026-07-03 17:34:13
很多人都无法接受的现实,67%穷人的后代,依旧是穷人

很多人都无法接受的现实,67%穷人的后代,依旧是穷人

舒山有鹿
2026-07-04 10:53:39
外蒙宣布独立时,只有一个部落支持留在中国,如今情况怎么样了?

外蒙宣布独立时,只有一个部落支持留在中国,如今情况怎么样了?

抽象派大师
2026-06-29 16:55:46
搬起石头砸自己的脚!名媛不帮郭富城夫妻P图被骂,生图又肿又僵

搬起石头砸自己的脚!名媛不帮郭富城夫妻P图被骂,生图又肿又僵

素玉姑娘
2026-07-04 10:07:27
看了杨紫和秦俊杰合影,再看她和初恋男友,生理性喜欢显而易见

看了杨紫和秦俊杰合影,再看她和初恋男友,生理性喜欢显而易见

老搽学科普
2026-07-04 10:08:48
银行接管与两位前首富的崩塌

银行接管与两位前首富的崩塌

陈鹰
2026-07-04 09:50:21
千万不要小瞧,普通人家庭存款,只要达到这个级别,你已经幸运了

千万不要小瞧,普通人家庭存款,只要达到这个级别,你已经幸运了

白浅娱乐聊
2026-07-04 00:24:47
黄金白银,价格双双大涨!

黄金白银,价格双双大涨!

大象新闻
2026-07-04 08:58:09
2026年7月正式执行,人社部56号令,退休人群不用再到处打听

2026年7月正式执行,人社部56号令,退休人群不用再到处打听

坠入二次元的海洋
2026-07-04 01:04:36
WTT美国大满贯太残酷了:随着雨果1-3,5大前十悍将已出局

WTT美国大满贯太残酷了:随着雨果1-3,5大前十悍将已出局

俯身冲顶
2026-07-04 06:16:56
欧盟委员会主席:以色列扩建定居点不可接受

欧盟委员会主席:以色列扩建定居点不可接受

环球网资讯
2026-07-04 13:53:13
医生提醒:若长期一天只吃两顿饭,用不了半年,或患上这4种疾病

医生提醒:若长期一天只吃两顿饭,用不了半年,或患上这4种疾病

路医生健康科普
2026-06-29 12:05:03
1949年,马步芳外甥马呈祥拒绝起义,选择出疆,一路花费八千黄金

1949年,马步芳外甥马呈祥拒绝起义,选择出疆,一路花费八千黄金

小港哎历史
2026-07-03 08:15:05
世预赛-雷霆MVP亚历山大26分钟26分 加拿大男篮大胜波多黎各5连胜

世预赛-雷霆MVP亚历山大26分钟26分 加拿大男篮大胜波多黎各5连胜

醉卧浮生
2026-07-04 09:00:47
2026-07-04 15:20:49
财天COVER
财天COVER
专业、有价值的商业观察!
1246文章数 72604关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

美大使装无辜:好失望 你们在中国肯定不自由

头条要闻

美大使装无辜:好失望 你们在中国肯定不自由

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

最富女歌手霉霉完婚 在纽约设宴庆贺

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

手机
数码
房产
游戏
军事航空

手机要闻

抢跑苹果官方,奢侈品牌Caviar官宣定制版iPhone Ultra折叠屏手机

数码要闻

史上第一次!苹果Apple Watch S12表带将内置传感器

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

《GTA6》PS联动仅一周下架!停盘争议连累宣发?

军事要闻

普京宣布俄军“完全解放”卢甘斯克

无障碍浏览 进入关怀版