网易首页 > 网易号 > 正文 申请入驻

解读|远未达到AGI但是一款好产品的GPT-5,或成为OpenAI的利润引擎

0
分享至

GPT-5终于现身了,这款被OpenAI称为目前“最聪明、最智能”的新旗舰模型减少了幻觉、改善了指令遵循,在视觉推理、智能编程、研究生级科学问题解决等多项能力上,仅需使用OpenAI o3模型50%-80%的输出token,就能实现更优表现。

数字经济学者刘兴亮8日在接受澎湃科技采访时表示,从“选模型”到“模型会选自己”,GPT-5形态进化,OpenAI正聚焦“少折腾菜单,多交付结果”。GPT-5写代码更少废话、走流程更少走神,但在写作质感和AGI跨度上并没有达到他的想象,可以先将其当成“超级实习生”。商业层面上,GPT-5更像一台利润引擎,铺开给全体用户,押注企业用量放大。

快思慢想研究院院长、原商汤智能产业研究院创始院长田丰则表示,GPT-5专业推理能力更强,幻觉更少,但远未达到AGI,其通用泛化能力不足,多模态能力也并未形成巨大的领先优势。总体来看,GPT-5并未像GPT-3或GPT-3.5那样对人们形成巨大冲击,而是沿着现有方向进一步提升推理能力。不过,GPT-5和GPT-4的最大区别是产品越做越好,新模型将更多承担营收任务。

自动决定“快答”还是“深想”

GPT-5采用一体化系统设计,其中,智能高效的基础模型可以处理大多数问题,深度推理模型GPT-5 Thinking专攻复杂难题,实时路由系统能根据对话类型、问题复杂度、工具需求及用户明确指令,快速决定调用哪个模型。也就是说,GPT-5懂得何时快速响应,何时深入思考以提供专业级答案。

GPT-5的回答速度更快,在基准测试中超越前代模型,在编程、数学、写作、健康、视觉感知等领域达到先进性能。在数学方面,无需工具的情况下,GPT-5在2025年AIME竞赛数学测试中得分94.6%。


GPT-5在AIME竞赛数学中的性能表现。

GPT-5在MMMU(多模态推理评估)中达到84.2%。在真实世界编程方面,GPT-5在SWE-bench Verified测试中得分74.9%,在Aider Polyglot测试中得分88%。而OpenAI o3在SWE-bench Verified测试中得分为69.1%,GPT-4o为30.8%。


在编程能力方面,GPT-5在SWE-bench Verified测试中得分74.9%。

借助GPT-5 Pro的扩展推理能力,它还在GPQA(研究生级别专家推理)测试中创下新纪录,无需工具即可达到88.4%的得分。

HealthBench是OpenAI今年早些时候发布的基于真实场景和医生定义的评估标准。在HealthBench评估中,GPT-5得分显著高于所有前代模型,得分为46.2%,是OpenAI目前最擅长处理健康相关问题的模型。它会主动提出潜在问题,通过提问来提供更有帮助的答案。但它无法替代医疗专业人员,而是可以将其视为一个辅助伙伴,例如帮助用户理解检查结果、在与医生沟通时提出恰当的问题、在做决策时权衡各种选项。

尽管GPT-5的专业推理能力更强了,但田丰表示,这并不意味着它可以快速迁移到开放型任务链条上,GPT-5的泛化推理能力仍有待加强,多模态推理能力也没有形成领先优势。

减少幻觉、改善指令遵循、诚实回答

OpenAI表示,团队在减少幻觉、改善指令遵循和减少奉承方面取得进展。在测试中,GPT-5回应出现事实错误的概率比GPT-4o低约45%;在启用思考功能时,其事实错误率比OpenAI o3低约80%。

在训练过程中,推理模型通常可能会谎报任务完成情况,或对不确定的答案表现得过于自信。但启用思考功能的GPT-5能更诚实地向用户说明自身的行动与能力范围,尤其针对那些不可能完成、描述不充分或缺乏关键工具支持的任务。

为测试这一点,OpenAI从多模态基准测试测试CharXiv的提示词中移除了所有图像,结果发现OpenAI o3仍有86.7%的概率对不存在的图像给出自信回答,而GPT-5的这一比例仅为9%。因此,在推理过程中,GPT-5能更准确地识别任务何时无法完成,并清晰说明自身局限,回答更诚实。

GPT-5在指令遵循和智能体工具运用的基准测试中性能优异,能执行多步骤任务、协调不同工具并适应语境变化。在实际应用中,它能更好地处理复杂且动态变化的任务。

GPT-5在复杂前端生成和大型代码库调试方面的性能突出,仅凭提示就创建出美观且响应迅速的网站、APP和游戏。


GPT-5创建的游戏。提示词包括界面色彩丰富并带有视差滚动背景;角色采用卡通风格,看起来生动有趣;目标是跳过障碍物,尽可能长时间地存活。

GPT‑5能帮助用户梳理模糊想法,将其转化为富有感染力的文字,更好地协助用户起草和编辑报告、邮件、备忘录等。在自由形式写作中的指令遵循能力测试中,GPT‑5得分99%。


GPT‑5在自由形式写作中的指令遵循能力测试中的表现。

追求更成熟的工程化产品

目前,GPT-5面向所有用户开放,Plus订阅用户可获得更多使用额度,Pro订阅用户则能访问GPT-5 Pro 版本,该版本具备扩展推理能力,可提供更全面精准的回答。

刘兴亮表示,此次GPT-5直接变成ChatGPT默认款,会根据任务自动决定“快答”还是“深想”,也能手动切到“GPT-5 Thinking/Pro”实现更长推理。GPT-5面向所有用户开放,付费用户只是额度更高,同时上线语音升级、学习模式,以及接入了Gmail、日历等“生活插件”,总体来看就是少折腾“菜单”,多交付结果。商业层面上,GPT-5更像一台利润引擎,铺开给全体用户,押注企业用量放大。

“大家需要的是一个专业化的产品,并不是一个聊天搭子。”田丰表示,OpenAI正朝着典型的产品型公司发展,GPT-5和GPT-4的最大区别是产品越做越好,而医疗、编程等领域对AI产品的要求就是严谨。“OpenAI非常明确,它并不是在科研领域追求AGI,而是在产品领域追求一个更成熟的工程化产品。这和谷歌DeepMind的路完全不一样。”

田丰表示,未来新模型将更多承担营收任务。尽管B端行业是OpenAI的营收重点,但OpenAI期望在C端产品层面打造出AI原生应用的爆款工具,“To C的估值显然要比To B大很多。”

在GPT-5发布前,OpenAI推出自GPT-2以来的首批开源权重语言模型gpt-oss-120b与gpt-oss-20b,可在高端笔记本和手机上运行。田丰表示,OpenAI的目标一直是在闭源模型领域做到最强,最近的开源是一个“别扭”的举动。OpenAI并未将最强大的基础模型开源,而是开源出端侧小模型,这并不能支撑起开源大生态,开发者无法大范围二次开发。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
教育部已经亮明牌了,恭喜明年参加高考的孩子

教育部已经亮明牌了,恭喜明年参加高考的孩子

玉辞心
2025-11-07 07:11:34
关闭200多家门店!又一传统商超“胖改”失败?四年亏损上百亿

关闭200多家门店!又一传统商超“胖改”失败?四年亏损上百亿

品牌观察官
2025-11-07 23:28:57
广州地铁这回捅大篓子了!人民网痛批:要认清自己的身份!

广州地铁这回捅大篓子了!人民网痛批:要认清自己的身份!

奇葩游戏酱
2025-11-08 01:47:36
黑色幽默!电诈园区办公室中文标语,简直是天大的讽刺

黑色幽默!电诈园区办公室中文标语,简直是天大的讽刺

麦大人
2025-11-06 08:32:30
女演员黄慧颐现状:开老书店维生,老态明显,曾被称广东标准媳妇

女演员黄慧颐现状:开老书店维生,老态明显,曾被称广东标准媳妇

动物奇奇怪怪
2025-11-08 01:04:22
人前光鲜人后心酸!深圳台主持董超49岁离职,如今转行当网红谋生

人前光鲜人后心酸!深圳台主持董超49岁离职,如今转行当网红谋生

揽星河的笔记
2025-11-07 20:16:16
美媒:中方不按常理出牌,菲律宾败局已定,南海不会再有其位置!

美媒:中方不按常理出牌,菲律宾败局已定,南海不会再有其位置!

起喜电影
2025-11-08 01:38:45
策划外交突围的朱拉尼,11月突访华求和解,中方划出安全红线

策划外交突围的朱拉尼,11月突访华求和解,中方划出安全红线

小鬼头体育
2025-11-08 03:38:15
全球军队研究印巴57空战,发现最震撼细节,难怪印度4天就认怂

全球军队研究印巴57空战,发现最震撼细节,难怪印度4天就认怂

百科密码
2025-11-07 16:50:53
副院长和眼科主任办公室视频流出,印证《大狗:富人的物种起源》

副院长和眼科主任办公室视频流出,印证《大狗:富人的物种起源》

美芳
2025-11-06 22:19:01
举国之力找不到完整夏朝,为何?网友的神预言正在被考古证实

举国之力找不到完整夏朝,为何?网友的神预言正在被考古证实

老谢谈史
2025-11-07 04:31:49
女生穿成这样去健身房,真的合适吗??

女生穿成这样去健身房,真的合适吗??

健身厨屋
2025-10-20 12:22:34
有趣,湖人队东契奇的盖帽数据或将引起独行侠总经理的注意

有趣,湖人队东契奇的盖帽数据或将引起独行侠总经理的注意

好火子
2025-11-08 05:42:28
一个血亏,一个赚翻:北京环球影城比上海迪士尼输在哪?

一个血亏,一个赚翻:北京环球影城比上海迪士尼输在哪?

城市研究室
2025-11-06 16:27:43
邵佳一合同曝光!年薪不足100万,不是长约,亚洲杯或是大考

邵佳一合同曝光!年薪不足100万,不是长约,亚洲杯或是大考

奥拜尔
2025-11-07 12:58:50
全球都在看中国将如何救援航天员!俄罗斯和美国9个月,中国多久

全球都在看中国将如何救援航天员!俄罗斯和美国9个月,中国多久

林子说事
2025-11-06 10:56:02
裁员裁到核心是啥体验?网友:裁到我这条静脉,都照样痛很久

裁员裁到核心是啥体验?网友:裁到我这条静脉,都照样痛很久

解读热点事件
2025-11-06 00:05:09
“分手费”9.24亿元!A股公司董事长被抓后宣布离婚,辞去所有职务!“80”后前妻紧急接班,成新实控人

“分手费”9.24亿元!A股公司董事长被抓后宣布离婚,辞去所有职务!“80”后前妻紧急接班,成新实控人

每日经济新闻
2025-11-08 00:49:06
老干妈放弃遵义椒始末:立善立德不立威的陶华碧输给了人性

老干妈放弃遵义椒始末:立善立德不立威的陶华碧输给了人性

诗意世界
2025-11-07 09:35:12
知名奶茶多店停业!曾火爆无锡

知名奶茶多店停业!曾火爆无锡

无锡eTV全媒体
2025-11-07 14:53:45
2025-11-08 08:08:49
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
856182文章数 5083720关注度
往期回顾 全部

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

头条要闻

媒体:一份非官方的美国就业数据 把美国投资者吓坏了

头条要闻

媒体:一份非官方的美国就业数据 把美国投资者吓坏了

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

王家卫的“看人下菜碟”?

财经要闻

荷兰政府:安世中国将很快恢复芯片供应

汽车要闻

美式豪华就是舒适省心 林肯航海家场地试驾

态度原创

教育
亲子
游戏
数码
健康

教育要闻

牢记在心!一消考前重要提醒!

亲子要闻

教育部等三部门:科学保护儿童远视储备量

海的那边是什么?我会自己去看"/> 主站 商城 论坛 自运营 登录 注册 海的那边是什么?我会自己去看 廉颇 2025-11-07 返回专栏首页 作者:...

数码要闻

Ayaneo即将推出搭载Ryzen AI Max+ 395 APU的下一代掌机

超声探头会加重受伤情况吗?

无障碍浏览 进入关怀版