网易首页 > 网易号 > 正文 申请入驻

OpenAI发布o3/o4-mini:"最智能"模型,图片推理、工具调用全都有

0
分享至

本周果然是诸神之战!

继 GPT-4.1 发布、可灵2.0 发布、Claude 上线 Research、Gemini 全面上线 Veo 2 等等之后,OpenAI 带来了 o3 满血版和 o4-mini。

先来划重点:

  • 本次发布的模型,分别是 o3 和 o4-mini;
  • 综合看o4-mini性价比最高,o3能力最为综合;
  • 两个模型均为多模态推理模型,在代码、科学方面表现出色;

*网友实测,认为Benchmark又要更新了

多模态推理也是本次官宣的重点。我们顺手拿苹果手表对o3做了测试:

*识别略有出入,真实型号是S9。不过这几个型号确实外观无太大差别,肉眼直接分辨也有难度。

Sam Altman本人也对这次发布划了重点

ChatGPT 的 Pro、Plus、Teams 用户将从今天开始能够使用新模型,免费用户可以通过打开“深度思考”按钮来试用 o4-mini。

*ChatGPT更新的页面

"OpenAI 迄今为止最强大的模型们"

OpenAI 联创之一 Greg Brockman 主持直播,开场白简单直接,直接宣布今天的重点:“发布两款新模型,o3 和 o4-mini”。

首先被抛出的新模型描述就是,o3 和 o4-mini 是 OpenAI 目前为止最智能的模型。相比前代 o 系列模型,这两款模型在深度思考方面的能力更突出,在回答问题之前会进行更长时间的思考。

另一个特点是,o3 满血版和 o4-mini 可以使用 OpenAI 已经发布的所有工具能力,包括联网搜索、永久记忆等等。当然,它们还是多模态的,可以直接对图片进行推理。

强大的推理能力,以及广泛的工具调用能力,使得这两款模型非常适合科学研究、代码生成或数学问题解答。

分开来看,o3 定位为OpenAI当前最强大、最前沿的推理引擎。尤其是在编程、商业/咨询和创意构思等领域表现出色。

o4-mini 则更强调性价比,是一款专为快速、成本效率优化的推理模型,它的体量更小,性价比更高,在数学、编程和视觉任务方面有着不错的表现。

从科学方面的测评结果来看,o3 与 o4-mini 显著领先于前代 o 系列模型。而在 o3 与 o4-mini 之间来进行比较,得分差距并不是十分明显,多数情况下,o4-mini 会略微领先于 o3。

现场直播中也给出了一道 AIME 题目的测试结果:

对于这个数学问题,模型在给出了正确的常规解法和答案后,甚至还额外给出了一个相对更“聪明”的解法。

再来看代码能力

本次发布的两款新模型在代码能力上相较前代 o 系列模型提升明显。在 SWE-Bench Verified 评测集上,o3 与 o4-mini 分别取得了 69.1% 与 68.1% 的分数。可以提供参考的是,刚刚发布的 GPT-4.1 在这项测试上的成绩为 54.6%,而 Claude 3.7 Sonnet 一般情况下得分是 62.3%。

OpenAI 发布的模型在代码生成能力测评上,终于超越了这个领域的王者Claude。

从现场给出的代码类任务的 case 来看,模型在接到代码问题后,到最终生成并执行代码之前,拆解出了一个个核心步骤。

本次发布的 o3 和 o4-mini 也都是多模态模型。

在官方给出的4项多模态测评数据结果中,o3 又一次全部超越了 o4-mini。

值得注意的是,在指令遵循方面,前几天的 GPT-4.1 发布时,在 Scale MultiChallenge 榜单中得分仅排名第十。但本次发布的 o3 在这项测评中的成绩,直接超越了原榜单第一名的 Gemini 2.5 Pro。

不仅在效果上超越了前代的 o 系列模型,在推理成本上也有显著下降。

官方给出了新模型在 AIME 和 GPQA 两个评测集上进行的模型效果与预估推理成本之间的对比结果。

在达到相同的推理效果时,新模型所花费的预计推理成本基本均小于前代模型。模型的推理成本优化效果在 o3 与 o1 进行对比时,提升十分的明显。

OpenAI 称对于大多数现实世界的使用,o3和o4 mini也将分别比o1和o3-mini更智能、更便宜。

*各模型 API 价格对比,图源:机器之心

总之,o4-mini是性价比之选,o3是最新的任务效果天花板。o3-mini和o1,似乎都可以被替代了。

除了模型,还有 Agent

在介绍完新模型的信息后,Greg Brockman 还官宣了一个可以直接在命令行工具中运行的、具备推理能力的代码 Agent——Codex CLI。

Sam Altman对此的解读是,它可以和擅长Coding的o3和o4-mini搭配。

插播一句,今天OpenAI还被曝出,正在洽谈以30亿美元收购知名的AI辅助编程工具Windsurf。如果成真,将是OpenAI迄今为止规模最大的一笔收购。

在实际演示中,用户只上传了一张网友制作的小项目的帖子截图。

模型先是对图像中的内容进行了识别,然后就在没有任何指令的情况下,开始尝试猜测用户关于这张图片的具体需求。

仅通过自然语言描述需求后,Codex CLI 就直接生成了符合用户要求的 HTML 文件。

在直播演示中,OpenAI Agent研究团队成员,仅通过一张“图像到 ASCII 风格转换”的截图,把这个图拖进终端,Codex 就将此前截图网友的项目准确完成,成功创建了一个简单的ASCII风格图像转换工具。

在发布会的最后,Greg Brockman 还预告说,o3-pro 预计将在几周内完成发布。

在万众期待的 GPT-5 迟迟未到的情况下,这几天的接连出新,可能也是OpenAI的“缓兵之计”,希望用户对 OpenAI 保留一些信心。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“认清自己位置!”巴西前锋赛后回击日本:绝不容有人骑我们头上

“认清自己位置!”巴西前锋赛后回击日本:绝不容有人骑我们头上

风雨与阳光
2026-06-30 15:32:51
重庆涉黑头目"谢姐"的男宠罗璇1米82,服满4年半刑期远赴深圳谋生

重庆涉黑头目"谢姐"的男宠罗璇1米82,服满4年半刑期远赴深圳谋生

磊子讲史
2026-06-30 14:32:35
伪传控的葬礼!中锋断层到人才全面凋零,德国足球底裤被彻底扒光

伪传控的葬礼!中锋断层到人才全面凋零,德国足球底裤被彻底扒光

中国足球的那些事儿
2026-06-30 08:52:30
过期一天就绝对不能碰的10种危险食物,第一名你可能经常舍不得扔

过期一天就绝对不能碰的10种危险食物,第一名你可能经常舍不得扔

娱乐的硬糖吖
2026-06-24 17:00:21
非必要不做CT?医生强调:只要做过CT,患者一定多加关注这4点!

非必要不做CT?医生强调:只要做过CT,患者一定多加关注这4点!

叙说医疗健康
2026-06-16 08:00:21
“骗”了我们30年!韩红父亲居然是家喻户晓的他,难怪都不敢得罪她

“骗”了我们30年!韩红父亲居然是家喻户晓的他,难怪都不敢得罪她

LULU生活家
2026-06-14 08:38:31
广东省教育厅官方更正!广东2026高考招生目录12校调整,变动清单

广东省教育厅官方更正!广东2026高考招生目录12校调整,变动清单

手工制作阿爱
2026-06-30 19:50:32
憋屈两季,“龙妈”终于亲手斩下人头!演员回应

憋屈两季,“龙妈”终于亲手斩下人头!演员回应

赴一场山海啊
2026-06-30 00:10:49
被大佬当“玩物”、孕期注射药物百次,最美“三圣母”竟落魄至此

被大佬当“玩物”、孕期注射药物百次,最美“三圣母”竟落魄至此

青橘罐头
2026-06-28 10:00:59
刚刚,金价破位大跌!高盛看多:牛市未结束

刚刚,金价破位大跌!高盛看多:牛市未结束

金融界
2026-06-30 11:53:37
钟美美再回应靠“钞能力”入学波士顿大学质疑:非常理解,这种监督对所有人都是好事

钟美美再回应靠“钞能力”入学波士顿大学质疑:非常理解,这种监督对所有人都是好事

极目新闻
2026-06-30 17:45:25
詹姆斯告别湖人!经纪人确认与老东家分手,24季传奇未终章

詹姆斯告别湖人!经纪人确认与老东家分手,24季传奇未终章

元气满分吖
2026-07-01 01:21:20
心理学上说:如果一个人对家人不耐烦、易发火,对外人却客客气气、够温和,不是本性凉薄,根源无外乎有两点

心理学上说:如果一个人对家人不耐烦、易发火,对外人却客客气气、够温和,不是本性凉薄,根源无外乎有两点

心理观察局
2026-05-12 09:06:23
走面风波升级,“一言不发”的冯小刚,终于不再顾及所谓的体面!

走面风波升级,“一言不发”的冯小刚,终于不再顾及所谓的体面!

摸爬滚打的烙印
2026-06-29 07:20:54
周杰伦鸟巢唱完隔夜就走,红发秒变黑发,昆凌这腿长比例绝了

周杰伦鸟巢唱完隔夜就走,红发秒变黑发,昆凌这腿长比例绝了

落雪听梅a
2026-06-30 14:45:51
文化科普!催听迷正品购买方式

文化科普!催听迷正品购买方式

小心动漫是
2026-07-01 02:48:37
弗兰:穆斯莱拉发烧到41度,贝尔萨却半场才知情

弗兰:穆斯莱拉发烧到41度,贝尔萨却半场才知情

懂球帝
2026-06-30 21:07:09
老板眼中的当前就业大环境是这样的…

老板眼中的当前就业大环境是这样的…

慧翔百科
2026-06-30 11:35:21
深夜,芯片股大涨!

深夜,芯片股大涨!

证券时报
2026-06-30 22:25:03
7闺蜜众筹70万开咖啡馆  4个月后从“七仙女”变成“战国七雄”

7闺蜜众筹70万开咖啡馆 4个月后从“七仙女”变成“战国七雄”

尘埃里的看客
2026-06-28 10:42:41
2026-07-01 03:07:00
四木相对论 incentive-icons
四木相对论
唠唠科技,看看世界
154文章数 3关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

体育要闻

德国足球,脸都不要了

娱乐要闻

黄晓明沦陷!羡慕周杰伦能降住昆凌

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

时尚
教育
旅游
本地
公开课

Meiinpsn的穿衣风格,清新又叛逆

教育要闻

最新试卷+官方答案|2026年高考广东地理试卷!情境为王、重思轻背:2026 广东高考地理卷深度点评

旅游要闻

张园东区首开区亮相 详细版攻略来啦!

本地新闻

贵州小城的新目标:举办“村超”世界杯!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版