网易首页 > 网易号 > 正文 申请入驻

解读|远未达到AGI但是一款好产品的GPT-5,或成为OpenAI的利润引擎

0
分享至

GPT-5终于现身了,这款被OpenAI称为目前“最聪明、最智能”的新旗舰模型减少了幻觉、改善了指令遵循,在视觉推理、智能编程、研究生级科学问题解决等多项能力上,仅需使用OpenAI o3模型50%-80%的输出token,就能实现更优表现。

数字经济学者刘兴亮8日在接受澎湃科技采访时表示,从“选模型”到“模型会选自己”,GPT-5形态进化,OpenAI正聚焦“少折腾菜单,多交付结果”。GPT-5写代码更少废话、走流程更少走神,但在写作质感和AGI跨度上并没有达到他的想象,可以先将其当成“超级实习生”。商业层面上,GPT-5更像一台利润引擎,铺开给全体用户,押注企业用量放大。

快思慢想研究院院长、原商汤智能产业研究院创始院长田丰则表示,GPT-5专业推理能力更强,幻觉更少,但远未达到AGI,其通用泛化能力不足,多模态能力也并未形成巨大的领先优势。总体来看,GPT-5并未像GPT-3或GPT-3.5那样对人们形成巨大冲击,而是沿着现有方向进一步提升推理能力。不过,GPT-5和GPT-4的最大区别是产品越做越好,新模型将更多承担营收任务。

自动决定“快答”还是“深想”

GPT-5采用一体化系统设计,其中,智能高效的基础模型可以处理大多数问题,深度推理模型GPT-5 Thinking专攻复杂难题,实时路由系统能根据对话类型、问题复杂度、工具需求及用户明确指令,快速决定调用哪个模型。也就是说,GPT-5懂得何时快速响应,何时深入思考以提供专业级答案。

GPT-5的回答速度更快,在基准测试中超越前代模型,在编程、数学、写作、健康、视觉感知等领域达到先进性能。在数学方面,无需工具的情况下,GPT-5在2025年AIME竞赛数学测试中得分94.6%。


GPT-5在AIME竞赛数学中的性能表现。

GPT-5在MMMU(多模态推理评估)中达到84.2%。在真实世界编程方面,GPT-5在SWE-bench Verified测试中得分74.9%,在Aider Polyglot测试中得分88%。而OpenAI o3在SWE-bench Verified测试中得分为69.1%,GPT-4o为30.8%。


在编程能力方面,GPT-5在SWE-bench Verified测试中得分74.9%。

借助GPT-5 Pro的扩展推理能力,它还在GPQA(研究生级别专家推理)测试中创下新纪录,无需工具即可达到88.4%的得分。

HealthBench是OpenAI今年早些时候发布的基于真实场景和医生定义的评估标准。在HealthBench评估中,GPT-5得分显著高于所有前代模型,得分为46.2%,是OpenAI目前最擅长处理健康相关问题的模型。它会主动提出潜在问题,通过提问来提供更有帮助的答案。但它无法替代医疗专业人员,而是可以将其视为一个辅助伙伴,例如帮助用户理解检查结果、在与医生沟通时提出恰当的问题、在做决策时权衡各种选项。

尽管GPT-5的专业推理能力更强了,但田丰表示,这并不意味着它可以快速迁移到开放型任务链条上,GPT-5的泛化推理能力仍有待加强,多模态推理能力也没有形成领先优势。

减少幻觉、改善指令遵循、诚实回答

OpenAI表示,团队在减少幻觉、改善指令遵循和减少奉承方面取得进展。在测试中,GPT-5回应出现事实错误的概率比GPT-4o低约45%;在启用思考功能时,其事实错误率比OpenAI o3低约80%。

在训练过程中,推理模型通常可能会谎报任务完成情况,或对不确定的答案表现得过于自信。但启用思考功能的GPT-5能更诚实地向用户说明自身的行动与能力范围,尤其针对那些不可能完成、描述不充分或缺乏关键工具支持的任务。

为测试这一点,OpenAI从多模态基准测试测试CharXiv的提示词中移除了所有图像,结果发现OpenAI o3仍有86.7%的概率对不存在的图像给出自信回答,而GPT-5的这一比例仅为9%。因此,在推理过程中,GPT-5能更准确地识别任务何时无法完成,并清晰说明自身局限,回答更诚实。

GPT-5在指令遵循和智能体工具运用的基准测试中性能优异,能执行多步骤任务、协调不同工具并适应语境变化。在实际应用中,它能更好地处理复杂且动态变化的任务。

GPT-5在复杂前端生成和大型代码库调试方面的性能突出,仅凭提示就创建出美观且响应迅速的网站、APP和游戏。


GPT-5创建的游戏。提示词包括界面色彩丰富并带有视差滚动背景;角色采用卡通风格,看起来生动有趣;目标是跳过障碍物,尽可能长时间地存活。

GPT‑5能帮助用户梳理模糊想法,将其转化为富有感染力的文字,更好地协助用户起草和编辑报告、邮件、备忘录等。在自由形式写作中的指令遵循能力测试中,GPT‑5得分99%。


GPT‑5在自由形式写作中的指令遵循能力测试中的表现。

追求更成熟的工程化产品

目前,GPT-5面向所有用户开放,Plus订阅用户可获得更多使用额度,Pro订阅用户则能访问GPT-5 Pro 版本,该版本具备扩展推理能力,可提供更全面精准的回答。

刘兴亮表示,此次GPT-5直接变成ChatGPT默认款,会根据任务自动决定“快答”还是“深想”,也能手动切到“GPT-5 Thinking/Pro”实现更长推理。GPT-5面向所有用户开放,付费用户只是额度更高,同时上线语音升级、学习模式,以及接入了Gmail、日历等“生活插件”,总体来看就是少折腾“菜单”,多交付结果。商业层面上,GPT-5更像一台利润引擎,铺开给全体用户,押注企业用量放大。

“大家需要的是一个专业化的产品,并不是一个聊天搭子。”田丰表示,OpenAI正朝着典型的产品型公司发展,GPT-5和GPT-4的最大区别是产品越做越好,而医疗、编程等领域对AI产品的要求就是严谨。“OpenAI非常明确,它并不是在科研领域追求AGI,而是在产品领域追求一个更成熟的工程化产品。这和谷歌DeepMind的路完全不一样。”

田丰表示,未来新模型将更多承担营收任务。尽管B端行业是OpenAI的营收重点,但OpenAI期望在C端产品层面打造出AI原生应用的爆款工具,“To C的估值显然要比To B大很多。”

在GPT-5发布前,OpenAI推出自GPT-2以来的首批开源权重语言模型gpt-oss-120b与gpt-oss-20b,可在高端笔记本和手机上运行。田丰表示,OpenAI的目标一直是在闭源模型领域做到最强,最近的开源是一个“别扭”的举动。OpenAI并未将最强大的基础模型开源,而是开源出端侧小模型,这并不能支撑起开源大生态,开发者无法大范围二次开发。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被戴8次绿帽子,3次被捉奸在床,这就是我们“玉女”守卫的爱情?

被戴8次绿帽子,3次被捉奸在床,这就是我们“玉女”守卫的爱情?

素衣读史
2026-01-30 17:15:38
对手官方致敬梅西!球迷为梅西激动!伊基塔和梅西互动!

对手官方致敬梅西!球迷为梅西激动!伊基塔和梅西互动!

氧气是个地铁
2026-02-01 22:45:23
小卡带队大胜太阳,快船裁判待遇堪比湖人,交易哈登并非空穴来风

小卡带队大胜太阳,快船裁判待遇堪比湖人,交易哈登并非空穴来风

姜大叔侃球
2026-02-02 12:31:49
如果有一天,你和兄弟姐妹渐渐疏远了!记住这2句话

如果有一天,你和兄弟姐妹渐渐疏远了!记住这2句话

李虰手工制作
2026-01-30 16:34:02
54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

小徐讲八卦
2025-11-17 07:29:28
特朗普已听取打击方案,关键时刻,伊朗突发多起爆炸

特朗普已听取打击方案,关键时刻,伊朗突发多起爆炸

兵国大事
2026-02-01 18:12:18
看了《太平年》很多人都不明白,赵匡胤为啥在跟赵光义喝酒时暴亡

看了《太平年》很多人都不明白,赵匡胤为啥在跟赵光义喝酒时暴亡

观察鉴娱
2026-01-30 09:40:35
贾家被抄家的真实原因,就是贾元春省亲,可惜他们没懂皇帝的用意

贾家被抄家的真实原因,就是贾元春省亲,可惜他们没懂皇帝的用意

铭记历史呀
2026-01-26 19:39:13
吴树国不幸去世,年仅55岁,学校官网已变黑白

吴树国不幸去世,年仅55岁,学校官网已变黑白

黄河新闻网吕梁频道
2026-02-01 09:32:36
现货黄金失守4590美元/盎司

现货黄金失守4590美元/盎司

澎湃新闻
2026-02-02 09:35:09
30岁男子上厕所猝死,妻子见状哭倒,留下3个孩子,最大才12岁

30岁男子上厕所猝死,妻子见状哭倒,留下3个孩子,最大才12岁

离离言几许
2026-02-01 19:50:11
预警!2月起若无意外,中国将迎5大降价潮,普通人提前准备不吃亏

预警!2月起若无意外,中国将迎5大降价潮,普通人提前准备不吃亏

老特有话说
2026-01-30 23:12:22
贪财好色、薄情寡义、直播哭穷,近期这4位老戏骨翻车理由太离谱

贪财好色、薄情寡义、直播哭穷,近期这4位老戏骨翻车理由太离谱

说历史的老牢
2026-01-05 15:07:58
不敢置信!女子十二乐坊成员直播养不活自己,一晚上打赏不到3000

不敢置信!女子十二乐坊成员直播养不活自己,一晚上打赏不到3000

云中浮生
2026-01-24 21:37:46
海归光环彻底消失?49.5万留学生涌回国,残酷真相:企业只认这个

海归光环彻底消失?49.5万留学生涌回国,残酷真相:企业只认这个

南权先生
2025-12-23 16:16:33
3年大合同+全家迁居!张本智和官宣震撼抉择,日本队慌了

3年大合同+全家迁居!张本智和官宣震撼抉择,日本队慌了

卿子书
2026-02-02 08:59:31
武汉内环知名医院将改为住宅!拟对口顶级双学区!

武汉内环知名医院将改为住宅!拟对口顶级双学区!

椰青美食分享
2026-02-02 13:47:26
儿子丢了、父亲走了、妻子跑了,央视主持张泽群如今落到这般田地

儿子丢了、父亲走了、妻子跑了,央视主持张泽群如今落到这般田地

蜉蝣说
2026-01-31 15:10:43
足球报:恒大足校有1050人次进国字号,可能与广东省深度合作

足球报:恒大足校有1050人次进国字号,可能与广东省深度合作

懂球帝
2026-02-01 14:34:13
重磅!40岁C罗拒绝为利雅得胜利出战 不满沙特联赛老板:偏袒对手

重磅!40岁C罗拒绝为利雅得胜利出战 不满沙特联赛老板:偏袒对手

风过乡
2026-02-02 06:38:53
2026-02-02 18:51:00
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
874642文章数 5087804关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

捧红王菲、那英的袁惟仁走了 曾被陶晶莹公开调侃

头条要闻

捧红王菲、那英的袁惟仁走了 曾被陶晶莹公开调侃

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

时尚
手机
旅游
教育
本地

普通人衣服没必要买太多,准备好这些单品,简单实用又耐看

手机要闻

OPPO Find X10系列测试双2亿超大底方案:OPPO最强天玑旗舰

旅游要闻

回家的路就是最美的风景

教育要闻

四川一大学生放假顶“鸟巢”回家,父母血压瞬间飙升:像逃荒一样

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

无障碍浏览 进入关怀版