网易首页 > 网易号 > 正文 申请入驻

OpenAI 最强推理模型 o3 发布,能够“思考”图片

0
分享至

IT之家 4 月 17 日消息,在今日凌晨的直播中,OpenAI 正式发布了o3 和 o4-mini 模型。IT之家汇总内容如下:

OpenAI 官方介绍称,这是其在 o 系列模型中最新训练的成果,可以在回答前进行更长时间的思考,也宣称是“迄今为止 OpenAI发布的最智能的模型”,代表了 ChatGPT 能力的一次重大飞跃,从好奇的用户到高级研究人员都将因此受益。

首次,新的推理模型可以智能地使用和结合 ChatGPT 中的每一个工具 —— 包括搜索网络、使用 Python 分析上传的文件和其他数据、深入推理视觉输入,甚至生成图像。

关键的是,这些模型被训练来推理何时以及如何使用工具来产生详细和深思熟虑的答案,通常在不到一分钟内,以解决更复杂的问题。这使得它们能够更有效地处理多方面的问题,朝着更智能、能够独立执行任务的 ChatGPT 迈进。

性能表现

o3 是 OpenAI最强大的推理模型,它在编码、数学、科学、视觉感知等领域号称处于前沿,在包括 Codeforces、SWE-bench 和 MMMU 在内的基准测试中实现了新的 SOTA。

OpenAI 称,o3 非常适合需要多方面分析和答案可能不明显的高级查询。它在分析图像、图表和图形等视觉任务上表现尤为出色。在外部专家的评估中,o3 在困难、现实世界的任务上比 OpenAI o1 少犯 20% 的重大错误 —— 特别是在编程、商业 / 咨询和创意构思等领域表现出色。

早期测试者强调了其作为思维伙伴的分析严谨性,并强调了其生成和批判性地评估新颖假设的能力 —— 特别是在生物学、数学和工程背景下。

OpenAI o4-mini 是一个针对快速、成本效益推理进行优化的较小模型 —— 它在其大小和成本方面取得了“令人瞩目的性能”,尤其是在数学、编码和视觉任务上。在 AIME 2025 上,当提供 Python 解释器时,o4-mini 得分 99.5%。在专家评估中,它还在非 STEM 任务以及数据科学等领域相比前辈 o3-mini 表现更出色。得益于其效率,o4-mini 支持比 o3 高得多的使用限制,使其成为推理受益问题的强大高容量、高吞吐量选项。

与 OpenAI 的前几代推理模型相比,这两个模型也支持更加自然的对话,尤其是在它们参考记忆和过去的对话来使响应更加个性化和相关时。

能够推理图片

在整个 OpenAI o3 的开发过程中,OpenAI 发现大规模强化学习表现出与 GPT 系列预训练中观察到的相同的“更多计算能力 = 更好性能”趋势。通过重走扩展路径,OpenAI 在训练计算和推理时间上又推进了一个数量级,但仍然看到了明显的性能提升,这验证了随着模型被允许进行更多思考,其性能仍在持续提升。与 OpenAI o1 相比,在相同的延迟和成本下,o3 在 ChatGPT 中提供了更高的性能 —— 如果我们让它思考更长的时间,其性能会持续攀升。

从下面这个实例可以看到,这些模型可以直接将图像整合到它们的思维链中。它们不仅仅是看图像 —— 而是用图像思考。这解锁了一种新的问题解决类别,融合了视觉和文本推理。

人们可以上传白板照片、教科书图表或手绘草图,即使图像模糊、颠倒或质量很低,模型也可以解读它们。通过使用工具,模型甚至可以实时操作图像 —— 旋转、缩放或将其作为推理过程的一部分进行变换

OpenAI o3 和 o4-mini 可以完全访问 ChatGPT 中的工具,以及通过 API 中的函数调用使用开发者自己的自定义工具。OpenAI 称,这些模型经过训练,能够推理如何解决问题,选择何时以及如何使用工具,以快速生成详细且深思熟虑的答案,通常在不到一分钟内完成。

例如,用户可能会问:“加利福尼亚的夏季能源使用量与去年相比如何?”该模型可以搜索公共事业数据,编写 Python 代码进行预测,生成图表或图像,并解释预测背后的关键因素,通过多个工具调用串联起来。推理能力使模型能够根据遇到的信息做出反应和调整。例如,它们可以在搜索提供商的帮助下多次搜索网络,查看结果,并在需要更多信息时尝试新的搜索。

成本

从成本来看,OpenAI 号称 o3 和 o4-mini 是其发布过的最智能的模型,它们通常也比 o1 和 o3-mini 更高效。例如,在 2025 AIME 数学竞赛中,o3 的性价比优于 o1;同样,o4-mini 也优于 o3-mini。

安全性

安全性方面,OpenAI o3 和 o4-mini 完全重建了安全训练数据,在生物威胁(生物风险)、恶意软件生成和越狱等领域添加了新的拒绝提示。这些更新的数据使 o3 和 o4-mini 在其内部拒绝基准测试中取得了优异的成绩(例如,指令层次结构、越狱)。

除了在模型拒绝方面表现出色外,OpenAI还开发了系统级缓解措施,以标记前沿风险领域的危险提示。类似于在图像生成方面的早期工作,OpenAI训练了一个推理 LLM 监控器,该监控器从人类编写的可解释安全规范中工作。当应用于生物风险时,该监控器成功标记了约 99% 的对话。

怎么使用

ChatGPT Plus、Pro 和 Team 用户将从今天开始可以在模型选择器中看到 o3、o4-mini 和 o4-mini-high,取代 o1、o3-mini 和 o3-mini-high。ChatGPT Enterprise 和 Edu 用户将在一周后获得访问权限。免费用户可以在提交查询前选择“思考”来尝试 o4-mini。所有计划中的速率限制与之前的一组模型保持不变。

OpenAI 预计将在几周内发布 OpenAI o3-pro,并支持全部工具。目前,Pro 用户仍然可以访问 o1-pro。

今天更新的内容反映了 OpenAI 模型的发展方向 —— 将 o 系列的专业推理能力与 GPT 系列的自然对话能力和工具使用能力相结合。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外媒:40%的消费者希望中国品牌汽车进入美国市场

外媒:40%的消费者希望中国品牌汽车进入美国市场

环球网资讯
2026-03-24 13:45:12
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
米切尔28分6板4助 NBA骑士103-120热火 诺曼-鲍威尔19分

米切尔28分6板4助 NBA骑士103-120热火 诺曼-鲍威尔19分

环球体坛啄木鸟
2026-03-26 21:22:20
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
匈牙利外长:即日起逐步停止向乌克兰输送天然气

匈牙利外长:即日起逐步停止向乌克兰输送天然气

财联社
2026-03-26 00:09:09
CBA焦点战今夜打响!CCTV5不直播!青岛争前4,北控广州冲季后赛

CBA焦点战今夜打响!CCTV5不直播!青岛争前4,北控广州冲季后赛

北纬的咖啡豆
2026-03-26 20:24:16
WCBA季后赛:张茹三大国手对决,35分惨败国手6中0,外援16中2

WCBA季后赛:张茹三大国手对决,35分惨败国手6中0,外援16中2

体娱荒原
2026-03-26 21:27:54
巨石强森壮汉穿假体演半神,这半遮半掩的曲线,谁能顶得住?

巨石强森壮汉穿假体演半神,这半遮半掩的曲线,谁能顶得住?

娱乐领航家
2026-03-26 20:00:03
沪指失守3900点,跌近0.9%

沪指失守3900点,跌近0.9%

每日经济新闻
2026-03-26 13:14:13
内部人士:NBA或将取消快船队科怀·伦纳德的“无效”合同

内部人士:NBA或将取消快船队科怀·伦纳德的“无效”合同

好火子
2026-03-25 23:51:43
出大事了,特朗普通报全球,美头号敌人已亮相,担心的事即将发生

出大事了,特朗普通报全球,美头号敌人已亮相,担心的事即将发生

策略述
2026-03-26 13:45:17
美议员喊话特朗普:如果北京不答应美国要求,就不准中国做一件事

美议员喊话特朗普:如果北京不答应美国要求,就不准中国做一件事

让心灵得以栖息
2026-03-26 05:03:07
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
CBA常规赛第30轮 上海男篮客场112-80大胜山西 李弘权27分

CBA常规赛第30轮 上海男篮客场112-80大胜山西 李弘权27分

环球体坛啄木鸟
2026-03-26 21:26:35
被美国点名后,巴基斯坦意识到了现实的残酷:不可能在中美间骑墙

被美国点名后,巴基斯坦意识到了现实的残酷:不可能在中美间骑墙

鸢飞九天
2026-03-26 20:21:07
戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

娱乐圈笔娱君
2026-03-25 10:46:06
3.73-1.79!国足传来好消息,2-1爆冷世界杯鱼腩队?比赛时间如下

3.73-1.79!国足传来好消息,2-1爆冷世界杯鱼腩队?比赛时间如下

侃球熊弟
2026-03-26 21:09:11
国民党大乱!马英九紧急发声、与郑丽文决裂?萧旭岑恐遭牢狱之灾

国民党大乱!马英九紧急发声、与郑丽文决裂?萧旭岑恐遭牢狱之灾

沧海一书客
2026-03-25 12:07:49
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

梦史
2026-03-26 19:42:17
泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

TVB的四小花
2026-03-26 12:18:20
2026-03-26 21:59:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
336122文章数 607090关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
本地
游戏
时尚
健康

亲子要闻

你好,我是馒头,快开门!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

开冲!PS会员4月离库名单公布:独立神作进入倒计时

上新|| 她们说,找到了自己的人生裙子!

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版