网易首页 > 网易号 > 正文 申请入驻

解读|远未达到AGI但是一款好产品的GPT-5,或成为OpenAI的利润引擎

0
分享至

GPT-5终于现身了,这款被OpenAI称为目前“最聪明、最智能”的新旗舰模型减少了幻觉、改善了指令遵循,在视觉推理、智能编程、研究生级科学问题解决等多项能力上,仅需使用OpenAI o3模型50%-80%的输出token,就能实现更优表现。

数字经济学者刘兴亮8日在接受澎湃科技采访时表示,从“选模型”到“模型会选自己”,GPT-5形态进化,OpenAI正聚焦“少折腾菜单,多交付结果”。GPT-5写代码更少废话、走流程更少走神,但在写作质感和AGI跨度上并没有达到他的想象,可以先将其当成“超级实习生”。商业层面上,GPT-5更像一台利润引擎,铺开给全体用户,押注企业用量放大。

快思慢想研究院院长、原商汤智能产业研究院创始院长田丰则表示,GPT-5专业推理能力更强,幻觉更少,但远未达到AGI,其通用泛化能力不足,多模态能力也并未形成巨大的领先优势。总体来看,GPT-5并未像GPT-3或GPT-3.5那样对人们形成巨大冲击,而是沿着现有方向进一步提升推理能力。不过,GPT-5和GPT-4的最大区别是产品越做越好,新模型将更多承担营收任务。

自动决定“快答”还是“深想”

GPT-5采用一体化系统设计,其中,智能高效的基础模型可以处理大多数问题,深度推理模型GPT-5 Thinking专攻复杂难题,实时路由系统能根据对话类型、问题复杂度、工具需求及用户明确指令,快速决定调用哪个模型。也就是说,GPT-5懂得何时快速响应,何时深入思考以提供专业级答案。

GPT-5的回答速度更快,在基准测试中超越前代模型,在编程、数学、写作、健康、视觉感知等领域达到先进性能。在数学方面,无需工具的情况下,GPT-5在2025年AIME竞赛数学测试中得分94.6%。

GPT-5在AIME竞赛数学中的性能表现。

GPT-5在MMMU(多模态推理评估)中达到84.2%。在真实世界编程方面,GPT-5在SWE-bench Verified测试中得分74.9%,在Aider Polyglot测试中得分88%。而OpenAI o3在SWE-bench Verified测试中得分为69.1%,GPT-4o为30.8%。

在编程能力方面,GPT-5在SWE-bench Verified测试中得分74.9%。

借助GPT-5 Pro的扩展推理能力,它还在GPQA(研究生级别专家推理)测试中创下新纪录,无需工具即可达到88.4%的得分。

HealthBench是OpenAI今年早些时候发布的基于真实场景和医生定义的评估标准。在HealthBench评估中,GPT-5得分显著高于所有前代模型,得分为46.2%,是OpenAI目前最擅长处理健康相关问题的模型。它会主动提出潜在问题,通过提问来提供更有帮助的答案。但它无法替代医疗专业人员,而是可以将其视为一个辅助伙伴,例如帮助用户理解检查结果、在与医生沟通时提出恰当的问题、在做决策时权衡各种选项。

尽管GPT-5的专业推理能力更强了,但田丰表示,这并不意味着它可以快速迁移到开放型任务链条上,GPT-5的泛化推理能力仍有待加强,多模态推理能力也没有形成领先优势。

减少幻觉、改善指令遵循、诚实回答

OpenAI表示,团队在减少幻觉、改善指令遵循和减少奉承方面取得进展。在测试中,GPT-5回应出现事实错误的概率比GPT-4o低约45%;在启用思考功能时,其事实错误率比OpenAI o3低约80%。

在训练过程中,推理模型通常可能会谎报任务完成情况,或对不确定的答案表现得过于自信。但启用思考功能的GPT-5能更诚实地向用户说明自身的行动与能力范围,尤其针对那些不可能完成、描述不充分或缺乏关键工具支持的任务。

为测试这一点,OpenAI从多模态基准测试测试CharXiv的提示词中移除了所有图像,结果发现OpenAI o3仍有86.7%的概率对不存在的图像给出自信回答,而GPT-5的这一比例仅为9%。因此,在推理过程中,GPT-5能更准确地识别任务何时无法完成,并清晰说明自身局限,回答更诚实。

GPT-5在指令遵循和智能体工具运用的基准测试中性能优异,能执行多步骤任务、协调不同工具并适应语境变化。在实际应用中,它能更好地处理复杂且动态变化的任务。

GPT-5在复杂前端生成和大型代码库调试方面的性能突出,仅凭提示就创建出美观且响应迅速的网站、APP和游戏。

GPT-5创建的游戏。提示词包括界面色彩丰富并带有视差滚动背景;角色采用卡通风格,看起来生动有趣;目标是跳过障碍物,尽可能长时间地存活。

GPT‑5能帮助用户梳理模糊想法,将其转化为富有感染力的文字,更好地协助用户起草和编辑报告、邮件、备忘录等。在自由形式写作中的指令遵循能力测试中,GPT‑5得分99%。

GPT‑5在自由形式写作中的指令遵循能力测试中的表现。

追求更成熟的工程化产品

目前,GPT-5面向所有用户开放,Plus订阅用户可获得更多使用额度,Pro订阅用户则能访问GPT-5 Pro 版本,该版本具备扩展推理能力,可提供更全面精准的回答。

刘兴亮表示,此次GPT-5直接变成ChatGPT默认款,会根据任务自动决定“快答”还是“深想”,也能手动切到“GPT-5 Thinking/Pro”实现更长推理。GPT-5面向所有用户开放,付费用户只是额度更高,同时上线语音升级、学习模式,以及接入了Gmail、日历等“生活插件”,总体来看就是少折腾“菜单”,多交付结果。商业层面上,GPT-5更像一台利润引擎,铺开给全体用户,押注企业用量放大。

“大家需要的是一个专业化的产品,并不是一个聊天搭子。”田丰表示,OpenAI正朝着典型的产品型公司发展,GPT-5和GPT-4的最大区别是产品越做越好,而医疗、编程等领域对AI产品的要求就是严谨。“OpenAI非常明确,它并不是在科研领域追求AGI,而是在产品领域追求一个更成熟的工程化产品。这和谷歌DeepMind的路完全不一样。”

田丰表示,未来新模型将更多承担营收任务。尽管B端行业是OpenAI的营收重点,但OpenAI期望在C端产品层面打造出AI原生应用的爆款工具,“To C的估值显然要比To B大很多。”

在GPT-5发布前,OpenAI推出自GPT-2以来的首批开源权重语言模型gpt-oss-120b与gpt-oss-20b,可在高端笔记本和手机上运行。田丰表示,OpenAI的目标一直是在闭源模型领域做到最强,最近的开源是一个“别扭”的举动。OpenAI并未将最强大的基础模型开源,而是开源出端侧小模型,这并不能支撑起开源大生态,开发者无法大范围二次开发。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
天津女博主发布“征婚贴”,宣称想结婚!网友:估计是债务要暴雷

天津女博主发布“征婚贴”,宣称想结婚!网友:估计是债务要暴雷

火山詩话
2026-03-21 06:58:08
一场战争彻底把中国打醒!美军作战最毒的是什么?中国用30年看清

一场战争彻底把中国打醒!美军作战最毒的是什么?中国用30年看清

古史青云啊
2026-03-21 12:15:59
微信出现这条杠,证明对方删除了你

微信出现这条杠,证明对方删除了你

新时代的两性情感
2026-03-07 08:54:01
上海百年老店官宣闭店!

上海百年老店官宣闭店!

上海约饭局
2026-03-21 18:05:25
美国和伊朗联手演戏,骗了全世界,最大输家出现,并非以色列

美国和伊朗联手演戏,骗了全世界,最大输家出现,并非以色列

潋滟晴方DAY
2026-01-28 18:36:19
人贩子梅姨落网:本人正面照首次曝出,抓捕全过程披露,警方回应

人贩子梅姨落网:本人正面照首次曝出,抓捕全过程披露,警方回应

博士观察
2026-03-21 13:39:21
一张整容脸连累整部剧?《你好1983》女二号,脸肿僵硬的让人出戏

一张整容脸连累整部剧?《你好1983》女二号,脸肿僵硬的让人出戏

不似少年游
2026-03-19 10:15:41
丰田纯电中大型车即将上市!预售15.68万起,配激光雷达+鸿蒙座舱

丰田纯电中大型车即将上市!预售15.68万起,配激光雷达+鸿蒙座舱

小史谈车
2026-03-21 21:35:38
防守时致使奥斯梅恩手臂骨折,科纳特遭大规模种族歧视侮辱

防守时致使奥斯梅恩手臂骨折,科纳特遭大规模种族歧视侮辱

懂球帝
2026-03-21 10:58:06
中国一年吃1亿吨肉,啥肉都安排,为啥偏偏不碰欧美最爱的火鸡?

中国一年吃1亿吨肉,啥肉都安排,为啥偏偏不碰欧美最爱的火鸡?

Hi科普啦
2026-03-20 11:47:55
杨振宁晚年亲口承认:这辈子最后悔的,就是当年没跟钱学森一起回国造原子弹

杨振宁晚年亲口承认:这辈子最后悔的,就是当年没跟钱学森一起回国造原子弹

寄史言志
2026-03-21 17:06:07
骑士机会来了!字母哥交易目标锁定莫布里,美媒爆6换1交易方案

骑士机会来了!字母哥交易目标锁定莫布里,美媒爆6换1交易方案

阿嚼影视评论
2026-03-21 15:45:15
蹭饭哥后续来了!怪媒体没打码害他社死,准备举报比亚迪税务问题

蹭饭哥后续来了!怪媒体没打码害他社死,准备举报比亚迪税务问题

西莫的艺术宫殿
2026-03-21 04:02:43
松下纱荣子扮演的女老板,颜值身材双绝,哪个下属扛得住?

松下纱荣子扮演的女老板,颜值身材双绝,哪个下属扛得住?

碧波万览
2026-03-22 00:24:37
白酒崩盘,一场神话的破灭

白酒崩盘,一场神话的破灭

罗sir财话
2026-03-19 21:45:06
越南教科书:广东,广西是越南故土,至今未收复,两千年抗北历史

越南教科书:广东,广西是越南故土,至今未收复,两千年抗北历史

长风文史
2026-03-19 20:48:02
破纪录在即,拜仁距德甲历史单赛季进球纪录只差4球

破纪录在即,拜仁距德甲历史单赛季进球纪录只差4球

懂球帝
2026-03-22 01:19:20
东莞全市严查!多人当场被抓!

东莞全市严查!多人当场被抓!

东莞纪实
2026-03-20 21:33:07
两会一声响,辅警这份工作,2026年可能会迎来新的变化!

两会一声响,辅警这份工作,2026年可能会迎来新的变化!

南宗历史
2026-03-21 14:27:39
皇家马德里主场冲连胜,马德里竞技德比死守难爆冷

皇家马德里主场冲连胜,马德里竞技德比死守难爆冷

青植苑
2026-03-22 01:05:07
2026-03-22 01:51:00
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
884101文章数 5088999关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

伊朗发射3800公里射程的导弹 最令美军战栗的细节披露

头条要闻

伊朗发射3800公里射程的导弹 最令美军战栗的细节披露

体育要闻

谁在决定字母哥未来?

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

艺术
健康
旅游
数码
公开课

艺术要闻

斯托扬画作:她们的眼神能勾动你的心!

转头就晕的耳石症,能开车上班吗?

旅游要闻

【花Young贵阳】春日限定!十里河滩海棠花盛开引客来

数码要闻

炸锅!国产存储芯片再突破!手机固态价格大跳水,内存自由要来了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版