网易首页 > 网易号 > 正文 申请入驻

OpenAI深夜发布满血o3和o4mini: 两个没想到

0
分享至

OpenAI刚刚宣布推出其最新的o系列模型:o3和o4-mini,与以往模型不同,o3和o4-mini被设计为真正的AI系统,模型甚至能连续调用超过600次工具来完成一项艰巨任务,它们在理解和导航大型代码库(比如OpenAI自己的代码库)方面,超越了人类工程师,极大地提高了开发效率

这次发布会我有两个没想到:一是没想到o系列模型变成了一个融合的模型,另外一个是引入图像推理“Thinking with Images”,下面第一时间给大家划个重点

全面工具访问与推理能力

o3和o4-mini最显著的特点是首次实现了对ChatGPT内所有工具的智能使用和组合能力。它们可以搜索网络、分析上传的文件、处理视觉输入、生成图像,并且能够智能地判断何时以及如何使用这些工具来解决复杂问题。这些模型经过专门训练,能够在大约一分钟内提供详细且经过深思熟虑的答案,以适当的输出格式解决多方面的问题

o3,o4mini性能

OpenAI o3是目前最强大的推理模型,在编程、数学、科学、视觉感知等领域推动了技术边界。它在包括Codeforces、SWE-bench和MMMU在内的多项基准测试中创下新的记录。在由外部专家进行的评估中,o3在解决困难的现实世界任务时比OpenAI o1减少了20%的重大错误,特别是在编程、商业咨询和创意构思方面表现出色。早期测试者强调了它作为思维伙伴的分析严谨性,以及在生物学、数学和工程背景下生成和批判性评估新假设的能力

OpenAI o4-mini是一个针对快速、高效推理而优化的小型模型。尽管规模较小,但它在数学、编码和视觉任务方面表现出色。在2025年AIME数学竞赛中,当获得Python解释器访问权限时,o4-mini的得分高达99.5%,实际上已经饱和了这个基准测试。在专家评估中,它也在非STEM任务和数据科学等领域超越了前身o3-mini。由于其高效性,o4-mini支持比o3更高的使用限制,使其成为需要推理能力的高容量、高吞吐量应用的理想选择

图像推理能力的突破

o3和o4-mini首次能够将图像直接整合到思维链中,它们不仅能看到图像,还能通过图像进行思考。这解锁了融合视觉和文本推理的新型问题解决方式,在多模态基准测试中表现出色。用户可以上传白板照片、教科书图表或手绘草图,模型能够解释它们——即使图像模糊、颠倒或质量低下。借助工具使用能力,模型可以实时操作图像,作为推理过程的一部分进行旋转、缩放或转换

负责图像推理的华裔研究员Jiahui Yu解释图像推理(“Thinking with Images”)的重要性:

自最初的 o 系列发布以来,“图像思考”一直是我们在感知领域的核心战略之一。我们悄然发布了 o1 vision,作为对这一战略的惊鸿一瞥——如今,o3 和 o4-mini 的问世则以臻于完善的姿态将其变为现实,多模态技术对于 OpenAI 实现 AGI 的愿景至关重要
朝向主动式工具使用

OpenAI o3和o4-mini可以完全访问ChatGPT内的工具,以及通过API中的函数调用访问用户自定义工具。它们经过训练,能够推理如何解决问题,选择何时以及如何使用工具,以快速产生详细且经过深思熟虑的答案。例如,用户可能会问:"今年夏季加利福尼亚的能源使用情况与去年相比如何?"模型可以搜索网络获取公用事业数据,编写Python代码建立预测模型,生成图表或图像,并解释预测背后的关键因素,将多个工具调用链接在一起

One More Thing... 开源Codex CLI!

发布会最后还带来一个惊喜,OpenAI推出了Codex CLI——一个连接模型与用户本地计算机环境的轻量级命令行接口

它直接在用户的计算机上工作,旨在最大限度地发挥像o3和o4-mini这样的模型的推理能力,未来还将支持GPT-4.1等其他API模型。用户可以通过向模型传递屏幕截图或低保真草图,结合本地代码访问,从命令行获得多模态推理的好处

发布会现场演示环节开发人员利用Codex CLI工具展示了一个非常酷炫的实时摄像头ASCII艺术,让模型直接读取电脑摄像头画面,实时生成酷炫的ASCII动态画面

开源地址:

https://github.com/openai/codex

最后

从今天开始,ChatGPT Plus、Pro和Team用户将在模型选择器中看到o3、o4-mini和o4-mini-high,取代o1、o3-mini和o3-mini-high。ChatGPT Enterprise和Edu用户将在一周内获得访问权限。免费用户可以在提交查询前选择"Think"来尝试o4-mini。所有计划的速率限制与先前的模型集保持不变

OpenAI预计将在几周内发布具有完整工具支持的OpenAI o3-pro。目前,Pro用户仍可以访问o1-pro

成本:

o3和o4-mini今天也通过Chat Completions API和Responses API向开发者提供。Responses API支持推理摘要,能够在函数调用周围保留推理标记以获得更好的性能,并将很快支持模型推理中的内置工具,如网络搜索、文件搜索和代码解释器。

个人感觉今天的更新反映了OpenAI模型的发展方向:将o系列的专业推理能力与GPT系列更自然的对话能力和工具使用能力融合。通过统一这些优势,未来的模型将支持无缝、自然的对话,同时提供主动工具使用和高级问题解决能力

参考:

https://openai.com/index/introducing-o3-and-o4-mini/

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

求赞

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
破案!末节为何死用张皓嘉不用崔永熙的原因找到,媒体人道出实情

破案!末节为何死用张皓嘉不用崔永熙的原因找到,媒体人道出实情

南海浪花
2026-04-25 07:30:43
盘后炸锅!13家公司一季报血崩,最高亏掉17倍利润!

盘后炸锅!13家公司一季报血崩,最高亏掉17倍利润!

慧眼看世界哈哈
2026-04-25 16:02:00
乌度卡谈最后崩盘:我不知道他们是太年轻,还是惧怕关键时刻

乌度卡谈最后崩盘:我不知道他们是太年轻,还是惧怕关键时刻

懂球帝
2026-04-25 12:18:07
特斯拉中国:官方版扩展坞上架了,售价 249 元!

特斯拉中国:官方版扩展坞上架了,售价 249 元!

新浪财经
2026-04-25 15:53:30
女骑手两年暴涨35%,女司机猛增75%,中年女人为何抢着跑车?

女骑手两年暴涨35%,女司机猛增75%,中年女人为何抢着跑车?

老特有话说
2026-04-17 17:19:57
精选10大趋势龙头股盘点,亨通光电、永鼎股份等多股表现强劲

精选10大趋势龙头股盘点,亨通光电、永鼎股份等多股表现强劲

慧眼看世界哈哈
2026-04-25 06:23:37
小米粥再次被关注!医生发现:糖尿病患者喝小米粥时要重视这6点

小米粥再次被关注!医生发现:糖尿病患者喝小米粥时要重视这6点

芹姐说生活
2026-04-25 12:32:30
湖人3比0领先还有意外收获,布朗尼季后赛得分碾压鹈鹕状元郎锡安

湖人3比0领先还有意外收获,布朗尼季后赛得分碾压鹈鹕状元郎锡安

姜大叔侃球
2026-04-25 12:47:47
全球最强光刻机亮相!央视首次曝光,中国再次打破西方技术封锁

全球最强光刻机亮相!央视首次曝光,中国再次打破西方技术封锁

阿绐聊社会
2026-04-24 22:56:10
见证历史,中国核动力航母!

见证历史,中国核动力航母!

君临财富
2026-04-25 07:55:19
深耕春日沃土,播种四季希望——春夏之交各地扎实推进农业生产见闻

深耕春日沃土,播种四季希望——春夏之交各地扎实推进农业生产见闻

新华社
2026-04-24 15:31:01
果然不出所料,国民党主席郑丽文表态了!

果然不出所料,国民党主席郑丽文表态了!

达文西看世界
2026-04-24 16:08:18
走进非洲保镖家惊到了!他和三个老婆竟同住一间房,生活好特别

走进非洲保镖家惊到了!他和三个老婆竟同住一间房,生活好特别

千秋文化
2026-04-24 19:39:25
250万赔偿不算啥?官方介入,崔丽丽事件“创先河”,释放3大信号

250万赔偿不算啥?官方介入,崔丽丽事件“创先河”,释放3大信号

天天热点见闻
2026-04-25 06:27:01
杨威双胞胎女儿体操夺冠,杨云激动到泪崩,预计参加2036年奥运会

杨威双胞胎女儿体操夺冠,杨云激动到泪崩,预计参加2036年奥运会

安海客
2026-04-25 17:39:29
岛内最新民调,事关两岸统一,蒋万安郑丽文支持率有惊人变化?

岛内最新民调,事关两岸统一,蒋万安郑丽文支持率有惊人变化?

DS北风
2026-04-23 15:56:17
身价暴涨!季后赛这5位球员打出了价值

身价暴涨!季后赛这5位球员打出了价值

舟望停云
2026-04-25 21:09:48
妻子误发信息给丈夫:“亲爱的,我在719。” 老公则提醒她:“请看清楚我是谁。”

妻子误发信息给丈夫:“亲爱的,我在719。” 老公则提醒她:“请看清楚我是谁。”

背包旅行
2026-04-06 17:11:32
外交部:希望芬方理性客观地看待中国同其他国家正常发展关系

外交部:希望芬方理性客观地看待中国同其他国家正常发展关系

环球网资讯
2026-04-24 15:48:11
“高度赞赏中方的领导作用,投入了真金白银”

“高度赞赏中方的领导作用,投入了真金白银”

观察者网
2026-04-24 22:14:34
2026-04-26 03:08:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1037文章数 396关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《我们的爸爸2》第一季完美爸爸翻车了

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

游戏
健康
家居
手机
公开课

金发美少女魔王和我是邻居!新游首曝美女角色太吸睛

干细胞如何让烧烫伤皮肤"再生"?

家居要闻

自然肌理 温润美学

手机要闻

iPhone Ultra机模上手:11mm厚、无长焦,苹果第一折就这?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版