网易首页 > 网易号 > 正文 申请入驻

奥特曼发布GPT-5!人人免费用博士级智能,基准图错误遭全网吐槽

0
分享至

机器之心报道

机器之心编辑部

都看了吗?

等了多年的 GPT-5,终于在这个凌晨发布了。

我们一脸的期待,直播中 OpenAI 几位核心人员的紧张也肉眼可见。

直播过程中,奥特曼也是连发十几条推特,介绍 GPT-5 的看点。

因为信息点比较多,我们就以奥特曼的推特内容为依据为大家一一介绍。

首先,这是一个集成模型。也就是说,你用它的时候不需要在不同模型之间切换,它会自己决定何时需要深入思考。

尽管奥特曼强调 benchmark 不重要,但他们还是晒出了不少跑分结果,比如在数学、编程、视觉感知和健康领域。具体跑分如下:

  • 数学领域:在 2025 年 AIME 测试中无工具辅助达到 94.6%
  • 实际编程应用:SWE-bench Verified 达到 74.9%,Aider Polyglot 达到 88%
  • 多模态理解:MMMU 达到 84.2%
  • 健康领域:HealthBench Hard 达到 46.2%
  • 通过 GPT-5 pro 的扩展推理能力,该模型还在 GPQA 测试中创造了新的 SOTA,在无工具辅助的情况下得分 88.4%。

费用方面,GPT-5 分为免费版、Plus 和 Pro 计划。根据奥特曼的说法,免费版也能用上「博士级别的智能」(GPT-5 普通版,但带推理功能),Plus 用户在使用频率上限制更少,而 Pro 用户可以用上 GPT-5 Pro。

面向开发者,GPT-5 的三个版本 API 价格如下:标准版 GPT-5 为每百万输入 Token 1.25 美元,每百万输出 Token 10 美元,GPT-5 mini 版 与 Nano 版会更便宜。

虽然直播长达一个多小时,但 OpenAI 大部分时间都在介绍 GPT-5 有多「好用」

比如在教育方面,它可以在几分钟之内生成数百行代码,生成互动内容来解释复杂概念,比如伯努利效应。

在写作方面,GPT-5 的文笔比 GPT-4o 要好。

在编程方面,它可以用几分钟时间写出一个法语学习网页,帮你练发音,还能做题、玩游戏。

语音模式也得到了升级,语音语调更加自然,想聊多久聊多久,语速也能随便调,非常适合拿来学外语。

之前我们报道过的「AI 看病」功能,他们也做了专门的优化,还请了一位癌症患者现场分享自己的经历,以及 ChatGPT 在解释病情方面给予她的帮助。奥特曼表示,GPT-5 是迄今为止最好的健康模型。

不过,现场也出了一些小 bug,比如做出的跑分图竟然是错的,奥特曼也承认了错误:

这样的错误还不止一个:

更尴尬的是,马斯克也跑来拆台,转发了 GPT-5 在 ARC-AGI-2 上没有打败 Grok 4 的消息:

连关于减少幻觉方面的 demo,也被人挑出了毛病:

不过,有人说,这不是「幻觉」问题,而是数据来源就有问题。

总体来看,GPT-5 的表现在很多人看来没有达到预期。

那么,GPT-5 的各方面表现到底怎么样?我们来看一下技术博客中的详细信息。

一体化智能系统

GPT‑5 是一个包含三个模型的统一系统:回答大部分常规问题的高效应答模型、解答复杂难题的深度推理模型「GPT‑5 Thinking 模式」,以及根据对话类型、问题复杂度、工具需求及用户明确指令(例如输入 "深入思考这个问题")自动分配最优处理模型的实时 router。

该 router 系统通过用户切换模型行为、回答偏好数据及准确率反馈等实时信号持续优化。当使用量达限时,各模型的精简版本将接管后续查询。

OpenAI 计划在近期将这些能力融合至单一终极模型。

GPT‑5 不仅在基准测试中表现优于前代模型、响应速度更快,更重要的是 —— 它能更有效地处理现实场景中的各类需求。

OpenAI 表示,GPT5 在三大关键领域取得重大突破:显著降低幻觉生成、提升指令遵循精度、减少迎合性回答。同时,GPT‑5 在 ChatGPT 最常用的三大功能场景(文本创作、编程开发、健康咨询)中表现全面提升。

评估

接下来,就让我们看下 GPT-5 在各项基准上的成绩。

据博客介绍,GPT‑5 在各项能力上均实现显著提升,尤其在数学、编程、视觉理解和健康领域表现突出。数学领域,无工具辅助下 GPT-5AIME 2025 测试达 94.6%;真实场景编程,GPT-5 得分分别为 SWE-bench Verified 74.9%/Aider Polyglot 88%,多模态理解上 MMMU 84.2%,及健康领域 HealthBench Hard 46.2%。搭载扩展推理能力的 GPT‑5 专业版更在 GPQA 基准测试中以 88.4% 的成绩(无工具辅助)创下新纪录。

不应将使用工具的 AIME 结果与不使用工具的模型的性能直接进行比较;这是 GPT-5 如何有效利用可用工具的一个例子。

编码基准

指令遵循与智能工具调用能力:GPT‑5 在指令遵循和智能工具调用基准测试中表现显著提升。这类能力使其能够可靠地执行多步骤请求、跨工具协同操作,并适应上下文变化。实际应用中,这意味着 GPT‑5 更擅长处理复杂且动态变化的任务:它能更精准地遵循用户指令,并充分利用现有工具端到端地完成更多工作环节。

这是一个 GPT-5 写的小游戏 demo:

多模态基准

该模型在多模态基准测试中表现卓越,涵盖视觉、视频、空间及科学推理等多个领域。增强的多模态能力意味着 ChatGPT 能更精准地解析图像等非文本输入 —— 无论是解读图表数据、总结演示文稿照片,还是回答基于示意图的提问。

健康基准

经济价值型任务表现

在 OpenAI 内部一个评估基准上,GPT5 同样表现卓越,该测试专门评估模型在复杂、经济价值知识型工作上的表现。在启用推理功能时,GPT‑5 在大约半数案例中的表现达到或超越人类专家水平,同时在法律、物流、销售、工程等 40 多个职业领域的综合任务表现上全面优于 o3 模型和 ChatGPT Agent。

上述评估的方法论说明:GPT-4o 的测试结果基于截至 2025 年 8 月 ChatGPT 中的最新模型版本。所有模型均在 "高推理强度" 设置下进行评估。需注意的是,ChatGPT 中的推理强度可调节,而 "高" 强度代表用户使用模型时可能体验到的性能上限。

更快、更高效的 Thinking 模式

GPT‑5 能以更少的思考时间创造更大价值。评估数据显示,在视觉推理、智能体编程和研究生级科学问题解决等场景中,启用思考功能的 GPT‑5 性能表现优于 OpenAI o3 模型,同时输出 token 量减少 50-80%。

这里,OpenAI 特意提到,GPT‑5 是在微软 Azure AI 超级计算机上训练的。

当然,GPT-5 也第一时间就上线到了微软的平台。

为了应对最具挑战性、最复杂的任务,OpenAI 还发布了 GPT-5 pro,以取代 OpenAI o3-pro。GPT-5 pro 是 GPT-5 的一个变体,它能够长时间思考,使用可扩展且高效的并行测试时间计算,从而提供最高质量和最全面的答案。

GPT-5 pro 在多项极具挑战性的智能基准测试中取得了 GPT-5 系列中的最高性能,包括在包含极其困难的科学问题的 GPQA 上取得的领先性能。

此外,我们还是把 GPT-5 的模型系统卡放到最后,感兴趣的读者们可以自行研究。

  • 链接:https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf

值得一提是这张图,展示了今天发的 GPT-5 系列模型与前几代 OpenAI 模型之间的关联:

最后,还是想问一句:GPT-5 符合你的预期吗?是不是更期待 DeepSeek-R2 了?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
婉拒高薪邀约!孔帕尼强势表态,多项重磅邀请全都拒绝

婉拒高薪邀约!孔帕尼强势表态,多项重磅邀请全都拒绝

夜白侃球
2026-04-21 14:20:02
嚣张!拼多多竟把执法人员手指夹骨折。网友调侃:“砍一刀”不是白叫的,15 亿罚轻了

嚣张!拼多多竟把执法人员手指夹骨折。网友调侃:“砍一刀”不是白叫的,15 亿罚轻了

新浪财经
2026-04-20 07:43:33
YSL的辣眼海报,比巴黎世家还癫!

YSL的辣眼海报,比巴黎世家还癫!

营销头版
2026-04-21 13:37:16
美伊会谈改在4月22日,伊朗代表团仍未出现,特朗普十分愤怒

美伊会谈改在4月22日,伊朗代表团仍未出现,特朗普十分愤怒

山河路口
2026-04-20 23:59:35
台军在2026年4月20日,拍摄到过台湾海峡的解放军海军辽宁号航母

台军在2026年4月20日,拍摄到过台湾海峡的解放军海军辽宁号航母

安安说
2026-04-21 10:54:32
小伙80万元开面馆十几天倒闭,两年后40万开包子店,日营业额过万正筹备第二家门店

小伙80万元开面馆十几天倒闭,两年后40万开包子店,日营业额过万正筹备第二家门店

极目新闻
2026-04-21 13:34:19
今天才知道,市场上有6种“药水菜”,菜贩子从不给家人吃,指啥

今天才知道,市场上有6种“药水菜”,菜贩子从不给家人吃,指啥

阿龙美食记
2026-04-21 11:00:20
明水经济技术开发区党工委副书记、管委会副主任李屹东接受审查调查

明水经济技术开发区党工委副书记、管委会副主任李屹东接受审查调查

鲁中晨报
2026-04-21 11:16:03
伊朗:尽管美副总统万斯及美国谈判团队成员正前往巴基斯坦,但伊朗不参加谈判的决定尚未改变;特朗普威胁如停火到期美伊未达成协议,那么大量炸弹将开始爆炸

伊朗:尽管美副总统万斯及美国谈判团队成员正前往巴基斯坦,但伊朗不参加谈判的决定尚未改变;特朗普威胁如停火到期美伊未达成协议,那么大量炸弹将开始爆炸

每日经济新闻
2026-04-21 01:44:17
周薪25万镑!31岁功勋确认自由身告别曼城 效力10年助队夺19冠

周薪25万镑!31岁功勋确认自由身告别曼城 效力10年助队夺19冠

我爱英超
2026-04-21 06:22:01
一人公司遇冷

一人公司遇冷

21世纪经济报道
2026-04-20 20:00:01
张本兄妹改名风波再升级,韩媒强烈批评,这就是狠毒的创姓改称

张本兄妹改名风波再升级,韩媒强烈批评,这就是狠毒的创姓改称

明天后天大后天
2026-04-21 08:18:54
台积电:我们已经顾不上美国工厂了,大陆再不给稀土,大家都得完

台积电:我们已经顾不上美国工厂了,大陆再不给稀土,大家都得完

凡知
2026-04-20 15:59:00
青海省黄南州人大常委会党组副书记、副主任张文生,主动投案

青海省黄南州人大常委会党组副书记、副主任张文生,主动投案

大风新闻
2026-04-21 12:46:38
森林狼2配角锁死掘金双核!戈贝尔与麦丹展无解防守,太关键了!

森林狼2配角锁死掘金双核!戈贝尔与麦丹展无解防守,太关键了!

篮球资讯达人
2026-04-21 14:03:12
季后赛第二个1-1!掘金惨遭森林狼19分大翻盘,马刺笑纳大礼

季后赛第二个1-1!掘金惨遭森林狼19分大翻盘,马刺笑纳大礼

老壥说体育
2026-04-21 14:38:24
35岁女子去做私处紧缩,缝针断在肉里,医生徒手掏了半小时没找着

35岁女子去做私处紧缩,缝针断在肉里,医生徒手掏了半小时没找着

网络易不易
2026-04-21 12:45:10
这才是宋美龄和继子蒋经国的一张真实合影,都是真人的容貌

这才是宋美龄和继子蒋经国的一张真实合影,都是真人的容貌

喜欢历史的阿繁
2026-04-16 11:17:28
绝不向中国低头!宁愿裁员9000人公司破产,也不接受中国的帮助?

绝不向中国低头!宁愿裁员9000人公司破产,也不接受中国的帮助?

混沌录
2026-04-11 15:18:05
4月最旺星座TOP4:事业起飞、桃花爆棚、财运暴涨

4月最旺星座TOP4:事业起飞、桃花爆棚、财运暴涨

别人都叫我阿螫
2026-04-21 13:51:25
2026-04-21 15:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12816文章数 142633关注度
往期回顾 全部

科技要闻

重磅官宣:库克卸任,特努斯接任苹果CEO

头条要闻

丈夫在海外做生意 妻子和儿子在家里充电经历惊魂一夜

头条要闻

丈夫在海外做生意 妻子和儿子在家里充电经历惊魂一夜

体育要闻

“被优化”8年后,国乒方博决定换一条路重新上场

娱乐要闻

周润发时隔16年再卖楼,变现数亿资产

财经要闻

减速机订单已排到明年!

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

本地
教育
艺术
手机
公开课

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

教育要闻

第7课- Taking public transport and asking for direct.png

艺术要闻

任伯年写竹,真带劲

手机要闻

Omdia:2026年智能手机AMOLED面板出货下滑7%至7.78亿件

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版