网易首页 > 网易号 > 正文 申请入驻

期待AGI的人要失望了,GPT-5只是个精心打磨的商业化产品

0
分享至

界面新闻记者 | 伍洋宇
界面新闻编辑 | 文姝琪

从GPT-4刷新人类对AI的认知起,世界曾一度以为走到GPT-5就可能打开通往异世界的大门——等到它真正出现的这天才发现,大模型还在攀爬AGI(通用人工智能)的长梯上,不过多走了两三步而已。

北京时间8月8日凌晨,OpenAI正式发布GPT-5,它的简介是对它亮点的核心概括,但你会发现这些措辞依旧无比熟悉:“这是我们迄今为止最智能、最快、最实用的模型,具有内置思维,可将专家级智能交到每个人手中。”

GPT-5是一个统一的系统,包含一个能够解答大多数问题的智能高效模型gpt-5-main,以及一个能够解决更复杂问题的推理模型gpt-5-thinking。

OpenAI通过一个实时路由器,来分析判断用户的对话类型、复杂度、工具需求及其明确意图,比如用户在提示词中写道“认真思考一下”,模型就会切换至thinking版本。

路由器会根据用户的实际使用情况持续训练,包括用户切换模型的时间、回答偏好率以及准确率测量,并随着时间的推移不断改进。

一旦达到使用限制,每个模型的mini版本将处理剩余的查询任务。是的,它还包括gpt-5-main-mini和gpt-5-thinking-mini,以及专为开发者设置的更加高效的版本gpt-5-thinking-nano。

OpenAI计划在不久之后将这些功能集成到一个模型中。目前,GPT-5面向所有用户开放,Plus会员可获得更多使用量,Pro会员则可访问GPT-5 Pro版本,该版本具有扩展推理能力,可提供更全面、更准确的答案。

这就是GPT-5的全貌,它基本上一一对应了上一代模型。例如GPT-4o对应gpt-5-main,OpenAI o3对应gpt-5-thinking,包括各自的Pro版本和mini版本。

从性能上来说,GPT-5最突出的表现围绕“现实世界”而来。OpenAI表示,减少幻觉、提高指令执行能力和减少谄媚是它进展最明显的三个方面。


图自OpenAI官网

在AIME 2025(数学)、SWE-bench Verified(真实世界编码)、MMMU(多模态理解)、GPQA(研究生水平推理)等基准测试中,GPT-5已经是当之无愧的SOTA,甚至在AIME 2025中拿下了100分。

GPT-5还在Humanity's Last Exam(人类最后的知识测试)上超过了自己的ChatGPT Agent。HLE是一个极难的学术级别测试,涵盖数学、自然科学、人文等多个领域的高难度封闭题,ChatGPT Agent在HLE上因为多工具协作和并行策略更有优势,但GPT-5作为单体模型依然拿下不错成绩,这说明它自身有更强的思考能力。


图自OpenAI官网

刷榜是结果但不是目的,正如OpenAI所说,GPT-5能力升级的核心表现就是降低幻觉,更加靠近现实世界。

GPT-5现在可以更准确地回答现实世界的疑问。在ChatGPT生产流量中代表匿名提示的网页搜索中,GPT-5回答包含事实错误的概率比GPT-4o低约45%;在思考时,其答案包含事实错误概率比OpenAI o3低约80%。这是由于OpenAI添加了新的评估方法,以对开放式事实性进行压力测试。

团队测量了GPT- 5在思考开放式事实搜索提示时的幻觉率,这些提示词来自两个公开的事实性基准:LongFact和FActScore。在这些基准测试中,“GPT-5-thinking”的幻觉数量比o3少了约六倍。

另外,它不会像以前那样谄媚了。与GPT-4o相比,GPT-5的亲切感会有所减弱,不必要的表情符号也更少,后续的互动也会更细腻周到。

降本增效也很重要。据OpenAI,GPT-5相比OpenAI o3,在视觉推理、代理编码和研究生水平的科学问题解决等功能上,输出token数量减少了50%至80%。更关键的是,价格也集体打下来了。


图自Twitter(单位每百万tokens)

在实际应用上,GPT-5把编程能力提升到了新高度。一名AI领域从业人士对界面新闻记者表示,从一些常规测试来看,GPT-5的表现很难评断有多少提升,因为在实际使用中已经很少有人需要从0开始写代码,但对于一些代码修改型任务,它明显会更精准。

另有一名已经使用GPT-5的用户对界面新闻记者表示,其身边人共同探讨的结论是,这次发布可能还是够不上一个大版本更新,“更像是从iPhone 4到iPhone 4S”。

现在局面已经很明确,期待已久的GPT-5大概率会是个成功的商业化产品套组,但它不是如想象般突破AGI进程的要塞,大模型可能已经不是这片战场最有用的武器了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普通告全球,要打破81年规则,中俄态度明显不同,普京需三思

特朗普通告全球,要打破81年规则,中俄态度明显不同,普京需三思

策略述
2026-01-20 17:13:37
越媒:除了防守中国U23并无太多特别之处;中国防守主要靠后场堆人

越媒:除了防守中国U23并无太多特别之处;中国防守主要靠后场堆人

懂球帝
2026-01-20 12:06:39
国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

霹雳炮
2026-01-19 22:24:13
确定!正式官宣,再见詹姆斯,整整21年啊,真的不得不服老

确定!正式官宣,再见詹姆斯,整整21年啊,真的不得不服老

球童无忌
2026-01-20 10:37:45
多位省委书记、省长,在北京与国家部委座谈

多位省委书记、省长,在北京与国家部委座谈

极目新闻
2026-01-20 20:59:35
视频女博主怒撕嫣然医院房东!完全就是谎话连篇,你真的是找抽

视频女博主怒撕嫣然医院房东!完全就是谎话连篇,你真的是找抽

小徐讲八卦
2026-01-20 13:28:43
李亚鹏的拎壶冲酒获支持,网友:这酒现在送礼老有牌面

李亚鹏的拎壶冲酒获支持,网友:这酒现在送礼老有牌面

映射生活的身影
2026-01-20 20:06:50
2.5亿血本无归!晋商苦心建“山西大院” 一夜被北京一村委会强拆

2.5亿血本无归!晋商苦心建“山西大院” 一夜被北京一村委会强拆

法治边角料
2026-01-20 16:09:46
当下,请做好随时失去一切的准备。

当下,请做好随时失去一切的准备。

诗词中国
2026-01-20 20:02:16
黄茂军任重庆市人民政府副市长

黄茂军任重庆市人民政府副市长

界面新闻
2026-01-21 07:45:02
人民日报三评西贝关店事件,基本宣告断掉罗永浩今后生路!

人民日报三评西贝关店事件,基本宣告断掉罗永浩今后生路!

玖宇维
2026-01-20 21:52:53
特朗普:若关税工具受限,还可采用其他手段,不排除以武力夺取格陵兰岛可能性!丹麦:拟派遣1000名士兵

特朗普:若关税工具受限,还可采用其他手段,不排除以武力夺取格陵兰岛可能性!丹麦:拟派遣1000名士兵

每日经济新闻
2026-01-21 07:12:05
豪门恩怨大爆发!贝克汉姆长子布鲁克林与父母彻底决裂

豪门恩怨大爆发!贝克汉姆长子布鲁克林与父母彻底决裂

新民周刊
2026-01-20 20:40:15
游资全休息了!雪球震惊市场,多个大V账号被永封,轮回打油诗告别

游资全休息了!雪球震惊市场,多个大V账号被永封,轮回打油诗告别

金石随笔
2026-01-21 00:13:16
福建通报:438人违法乘机被拘留

福建通报:438人违法乘机被拘留

澎湃新闻
2026-01-21 00:53:04
10月大男婴全身被扎针孔后就医?各方急寻;昆明市卫健委:警方已介入;墨江县多部门核查

10月大男婴全身被扎针孔后就医?各方急寻;昆明市卫健委:警方已介入;墨江县多部门核查

大风新闻
2026-01-20 20:33:04
3-0!中国U23踢疯了:一战碾碎越南,4大纪录诞生,决赛死磕日本

3-0!中国U23踢疯了:一战碾碎越南,4大纪录诞生,决赛死磕日本

万花筒体育球球
2026-01-21 01:51:37
上海一女子崩溃!头发大面积脱落,已严重溃烂,理发师:别再折腾了……

上海一女子崩溃!头发大面积脱落,已严重溃烂,理发师:别再折腾了……

环球网资讯
2026-01-20 21:13:24
一巨头再次宣布降价!10年前花1.8万买的,如今只能卖180元

一巨头再次宣布降价!10年前花1.8万买的,如今只能卖180元

深圳晚报
2026-01-20 22:49:27
李亚鹏房东回应来了!大反转看傻全网!

李亚鹏房东回应来了!大反转看傻全网!

广告创意
2026-01-19 18:23:10
2026-01-21 08:47:00
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
1004539文章数 1329259关注度
往期回顾 全部

科技要闻

走进车间,感受中国低轨卫星互联网“加速度”

头条要闻

牛弹琴:特朗普和马克龙直接开干 马克龙疾呼欢迎中国

头条要闻

牛弹琴:特朗普和马克龙直接开干 马克龙疾呼欢迎中国

体育要闻

勇士遭暴击!巴特勒重伤赛季报销

娱乐要闻

网红版闫学晶!600万粉博主阿爆翻车

财经要闻

拆解涉税黑中介虚开套路

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

数码
家居
游戏
手机
公开课

数码要闻

苹果妙控键盘固件更新,覆盖M4/M5款iPad Pro与M3 Air机型

家居要闻

隽永之章 清雅无尘

魔兽世界:橙装2W金起包,团长吃1万红包,为什么没有人抵触?

手机要闻

Setapp移动版将于下月关闭 运营商称欧盟业务条款“复杂且仍在演变”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版