网易首页 > 网易号 > 正文 申请入驻

GPT-5前菜!OpenAI最强模型o3上手:到底强在哪?

0
分享至

最近 OpenAI 的活确实有点多。在 3 月底推出 GPT-4o 原生图像生成再度火遍全球后,北京时间 4 月 15 日凌晨,OpenAI 又推出了全新 GPT-4.1 系列模型,替代旧款的 GPT-4 模型。

而就在今天(4 月 17 日)凌晨,OpenAI 如约继续推出了两款全新的 o 系列推理模型——o3、o4-mini,替代此前的 o1 和 o3-mini。更重要的是,o3、o4-mini 不仅拥有了更强大的推理能力,支持将图像直接纳入「思考过程」,还是首次能够独立使用全部 ChatGPT 工具的推理模型,被官方称为:

「我们(OpenAI)迄今为止发布的最智能的模型,代表了 ChatGPT 能力的一次飞跃。」

飞不飞跃我们先按下不谈,但有一点实在让人在意。OpenAI CEO 山姆·奥尔特曼(Sam Altman)今年 2 月就在 X 平台公开披露内部的模型路线图,指出 GPT-4.5(Orion)将是「OpenAI 最后一个非推理(思维链)模型」,还说之后的 GPT-5 将整合 GPT 系列和 o 系列模型:

「不再将 o3 作为独立模型推出。」

图/ X

但现在来看,山姆·奥尔特曼当时的承诺似乎一个都没有兑现,OpenAI 不仅发布了新的 GPT-4.1 系列非推理模型,还独立推出了 o3 推理模型。那还有一直活在传闻的 GPT-5,我们真的能在今年夏天看到吗?

OpenAI 又发一波模型,o3是最特别的一个

GPT-4.1 系列、o3、o4-mini 发布之前,关于 OpenAI 太多模型的吐槽其实就已经甚嚣尘上,不仅是普通 ChatGPT 用户,也包括很多开发者,也认为 OpenAI 的模型阵容让人「选择困难」。

好在,虽然过去两天 OpenAI 又连发了好几个新模型,但至少也同步砍掉了一些「旧模型」。在 GPT-4.1 正式推出后,OpenAI 就预告将于 4 月 30 日在 ChatGPT 全面下线 GPT-4 模型,同时还将在 API 中(面向开发者)弃用 GPT-4.5 预览版。

作为通用基座模型,GPT-4.1 实际分为了旗舰版、mini 版、nano 版,支持高达百万级 tokens 上下文,在性能、成本和速度上全面优于目前最主力的 GPT-4o 系列模型,但目前仅面向开发者上线 API。

但如果说 GPT-4.1 代表了 OpenAI 的现在,o3 和 o4-mini,可能就代表了 OpenAI 的未来。作为 OpenAI 探索推理模型技术路线的最新成果,o3 和 o4-mini 率先在推理链(chain-of-thought)中真正纳入图像理解能力。

图/ OpenAI

简单来说,它不仅能识别信息,还能把这些视觉输入纳入思维过程,成为完整逻辑链的一部分。不同于 GPT-4o 这类多模态模型,GPT-4o 虽然能「看图」,但更多是为了给出自然语言响应,而 o3、o4-mini 的图像处理是为了解决问题——它是推理的一环。

与此同时,作为官方认证的最强模型——o3,还是第一个调用 ChatGPT 全部工具的推理模型,包括搜索网络、Python、图像生成、代码解释器、文件读取等。并且在与 o1 相同的延迟和成本下,o3 在 ChatGPT 中实现了更高的性能。

但实际表现如何,还是上手体验才有结果。

OpenAI「最强推理模型」上手:名副其实

对于推理模型而言,推理能力自然是重中之重,先来一道伦理推理题,非常考验模型的推理能力,我们也对比了 DeepSeek-R1 以及 Gemini-2.5-Pro 两大顶尖模型。

但在揭晓回答之前,o3 最惊艳的就是思考过程推导的严谨和流畅,相比之下,DeepSeek-R1 的思考过程就显得相当冗长和重复,思考非常久,最终的回答却很难令人满意。

图/雷科技

在 DeepSeek-R1 的回答中,实际只回答了「愤怒的原因」,而没有回答出「崩溃的原因」。在 Gemini-2.5-Pro 的回答中,虽然更进一步推理出了「女儿撒谎」这个因素,但也很难导致「父亲崩溃」。

图/雷科技

o3 则相当完美地抓出「色盲」的关键判断,进一步根据生物遗传知识推导出最终的解释。这里还要一提的是,其实 DeepSeek-R1 在思考过程中也提到了「色盲」这个点,但并没有认为有效的推导。

此外,o3 以及 o4-mini 的一大突破在于将视觉能力纳入思维链之中,相比之前阿里推出的视觉推理模型 QVQ-Max 更进了一步。

你可以上传一张机场照片,它会识别出航站楼建筑、乘客流线和标识系统,再结合你的问题完成空间动线的规划或问题诊断。这种「图像不是输入素材,而是参与推理的变量」的设计,也是过去 o 系列推理模型所不具备的。

更重要的是,它可以根据图像实时思考分析策略。

比如最近 AI 行业非常关键的一件事,就是支付宝在前几天联合魔搭社区刚刚上线了支付 MCP Server 让 AI 智能体打通了「变现」的支付环节。我就拿一段演示视频发送给 o3,询问「视频里展示技术的关键之处」,甚至没有告诉它任何背景信息。

图/雷科技

而在实际测试中,o3 会提取不同时间的关键帧理解视频,再结合自身分析推理和联网能力,明确定位到了支付宝「支付  MCP Server」的,并且结合信息分析了支付宝「支付  MCP Server」的关键意义。

不仅如此,在一段关于短视频优化的测试中,o3 被要求分析后台数据并结合视频分镜做优化策略,输出的内容不仅覆盖「3 秒留人、节奏剪辑、文案钩子」等核心策略,还匹配了具体视觉节奏建议。

图/雷科技

这点来看,o3 很像一个有一定审美和经验的「专业创作者助手」,能针对实际的视频内容,而不是「简单套模板」的自动化建议。

而从这些测试也能看出,o3 懂得什么时候该分析、什么时候该搜索、什么时候该调用工具、什么时候该总结。而这种「主动思维+执行链条」,正是当下大模型集体演进的一个重要方向。

所以,它真的是 OpenAI 迄今为止最智能的模型吗?从目前的体验来看,确实称得上名副其实,甚至在不同推理模型的对比也是表现最强的。

用完 o3 最大的感受,你会觉得它在真正理解任务——而不只是理解你的意图。在思考过程中能够明显看到这一点,同时还有 o3 在视觉理解、工具调用以及强大的推理能力。

也正因为如此,用完 o3 后,那些关于 GPT-5 的想象也变得更具体了。

山姆·奥尔特曼明确说过,GPT-5 会整合 GPT 系列与 o 系列,而按照最新透露出的消息,GPT-5 的推出时间基本锁定在今年夏天。按照时间来看,GPT-4.1/GPT-4.5 和 o3/o4-mini 很可能就是最后一代「独立」模型,也是被「整合」的主力。

如果两者真的融合,那会不会是一个既能读百万 tokens,又能跨模态行动,还能自主调度工具进行思维链的大一统模型?无论如何,这确实是未来几个月 AI 行业最值得期待的悬念之一。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欧冠奇迹!63岁穆帅神作:最后1秒指示门将压上 暴击皇马

欧冠奇迹!63岁穆帅神作:最后1秒指示门将压上 暴击皇马

叶青足球世界
2026-01-29 10:54:40
重庆一老火锅收取晚餐辛苦费,大人20元小孩老人10元;店家回应:辛苦费是人工工资等,明码标价

重庆一老火锅收取晚餐辛苦费,大人20元小孩老人10元;店家回应:辛苦费是人工工资等,明码标价

大风新闻
2026-01-28 15:12:02
斯塔默刚到北京 就召集“豪华商界天团”开会

斯塔默刚到北京 就召集“豪华商界天团”开会

看看新闻Knews
2026-01-29 00:37:06
中超地震!9队被罚+无降级重罚 申花津门虎新赛季被扣10分罚100万

中超地震!9队被罚+无降级重罚 申花津门虎新赛季被扣10分罚100万

我爱英超
2026-01-29 10:58:06
斩杀线:说“农民工吃盒饭比美国中产吃得好”,张维为真的赢了吗

斩杀线:说“农民工吃盒饭比美国中产吃得好”,张维为真的赢了吗

读鬼笔记
2026-01-28 20:48:31
16枚导弹全部击中,基辅电厂彻底瘫痪!乌克兰或后悔先挑起能源战

16枚导弹全部击中,基辅电厂彻底瘫痪!乌克兰或后悔先挑起能源战

小小科普员
2026-01-27 23:31:04
汕头一女生神似敦煌壁画里的古典美人!全网盛赞:这才是东方美

汕头一女生神似敦煌壁画里的古典美人!全网盛赞:这才是东方美

深圳晚报
2026-01-28 21:04:57
比10倍上纬新材还猛!SpaceX确定7月上市  这7家实锤供应商要暴涨

比10倍上纬新材还猛!SpaceX确定7月上市 这7家实锤供应商要暴涨

元芳说投资
2026-01-28 06:00:07
法国猫徒步5个月从西班牙回家!只为再蹭蹭主人的手

法国猫徒步5个月从西班牙回家!只为再蹭蹭主人的手

新欧洲
2026-01-28 21:37:40
63岁穆帅狂奔!率队欧冠逆袭:最后1秒压哨晋级 附加赛或再遇皇马

63岁穆帅狂奔!率队欧冠逆袭:最后1秒压哨晋级 附加赛或再遇皇马

我爱英超
2026-01-29 07:11:52
东风风行品牌正式登陆埃及市场 构建北非汽车产业新格局

东风风行品牌正式登陆埃及市场 构建北非汽车产业新格局

商业分析
2026-01-26 21:09:26
紫牛头条|英国小伙骑行12000公里到中国:学会用不同的眼光看待世界

紫牛头条|英国小伙骑行12000公里到中国:学会用不同的眼光看待世界

扬子晚报
2026-01-28 23:06:59
还八百就八百,你可知八百精兵意味着什么?

还八百就八百,你可知八百精兵意味着什么?

小豫讲故事
2026-01-28 06:00:07
1995年,尉健行接替陈希同的职位:必须坚持不懈地开展反腐败斗争

1995年,尉健行接替陈希同的职位:必须坚持不懈地开展反腐败斗争

楚风说历史
2026-01-29 07:10:03
75岁大将栽了!张又侠晚节不保,怎么回事~

75岁大将栽了!张又侠晚节不保,怎么回事~

叮当当科技
2026-01-29 08:14:45
预制菜已经发展到什么程度了?网友:在江西,预制菜可能不大好卖

预制菜已经发展到什么程度了?网友:在江西,预制菜可能不大好卖

解读热点事件
2026-01-29 04:57:21
黄仁勋又出圈!英伟达员工年终奖曝光,网友破大防

黄仁勋又出圈!英伟达员工年终奖曝光,网友破大防

雷科技
2026-01-28 18:54:37
2026年反腐力度加大,退休多年照样被查,官至副国级也难逃法网

2026年反腐力度加大,退休多年照样被查,官至副国级也难逃法网

李昕言温度空间
2026-01-28 23:18:11
又见湖三崩!勒布朗11分5助攻湖人不敌骑士,东契奇29分5板6助

又见湖三崩!勒布朗11分5助攻湖人不敌骑士,东契奇29分5板6助

湖人崛起
2026-01-29 10:27:33
官方公告:不幸去世,任剑锋的山西省第十四届人民代表大会代表资格自然终止

官方公告:不幸去世,任剑锋的山西省第十四届人民代表大会代表资格自然终止

新京报政事儿
2026-01-28 21:49:02
2026-01-29 12:27:00
雷科技 incentive-icons
雷科技
专注AI硬科技
35964文章数 811795关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

女子辞了北京房地产工作 去2800公里外浙江无人岛上班

头条要闻

女子辞了北京房地产工作 去2800公里外浙江无人岛上班

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

张译不再隐瞒!公开回应退圈息影真相

财经要闻

黄金价格太高了吗

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

家居
教育
手机
健康
公开课

家居要闻

极简轻奢 家的无限可能

教育要闻

学生间总是打闹,该怎么办?

手机要闻

REDMI Turbo 5系列今晚发布即开售!支持国补

耳石症分类型,症状大不同

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版