网易首页 > 网易科技 > 网易科技 > 正文

OpenAI重磅推出o3/o4-mini新模型!能"看图思考"

0
分享至

4月17日消息,北京时间今日凌晨,OpenAI发布了两款突破性AI模型,它们能够通过图像进行推理,并可独立使用工具,专家称它们为人工智能能力的一次飞跃。

这两款新模型分别被称为o3与o4-mini,它们都是OpenAI “o系列” 推理模型的最新成员,并被称为迄今为止最智能、最强大的模型。这些系统能将图像直接整合到推理过程中,并在单一任务流程中执行网页搜索、代码运行、文件分析乃至图像生成等操作。

OpenAI总裁格雷格·布罗克曼(Greg Brockman)在发布会上表示:“有些模型会让人觉得像是迈入未来的质变,GPT-4就是其中之一。今天也将成为这样的历史时刻。这是首批让顶尖科学家都承认能产出确实优秀、实用新颖创意的模型。”

OpenAI新模型通过“图像思维”帮助解决视觉问题

这些新模型最显著的特征是“图像思维”能力。它们不仅是识别图像,还能在问题解决流程中操控并推理。

OpenAI在声明中强调:“它们不只是看图——而是用图像进行思考。这解锁了一类全新的问题求解方式,将视觉与文本推理相融合。”

在发布会演示环节,研究人员展示了o3如何分析一份来自十年前实习项目的物理海报:它能独立解析其中复杂的图示,甚至识别出海报本身未呈现的最终结论。

OpenAI多模态推理研究员布兰登·麦肯锡(Brandon McKenzie)在演示中说道:“它相当于在几秒内为我阅读了至少10篇不同的论文。”他估计,这项任务如果由他本人完成,“光是重新熟悉当年的项目背景就要好几天,然后可能还得几天才能完成文献查阅。”

人工智能在推理过程中操控图像的能力,比如放大细节、旋转图像或裁剪冗余元素等,被行业分析师认为可能彻底改变从科研到教育等多个领域。

沃顿商学院研究人工智能、创新与创业公司的伊森·莫里克教授(Ethan Mollick)在社交平台上发文称:

我获得了o3的早期使用权限,这款模型令人印象深刻,能力非常强大。以下为一些有趣的示例:

1️⃣ 解构了我课堂上使用的商业案例

2️⃣ 生成纯代码构建的SVG矢量图

3️⃣ 创作双螺旋结构的约束性短篇故事

4️⃣ 创作硬科幻太空战斗场景

超越AI模型:o3与o4-mini如何通过先进工具集成作为完整AI系统运行

OpenAI的高管强调,这次发布的不仅仅是推理模型的升级版本,而是完整的人工智能系统,它们能够在解决问题时独立调用并串联多个工具。

该公司在发布声明中表示:“我们通过强化学习训练模型使用工具——不仅让它们学会如何使用工具,更让它们学会何时使用工具。”

布罗克曼特别强调了这些模型在工具调用方面的强大能力:“它们实际上是在思维链中调用这些工具,以尝试解决困难问题。例如,我们曾看到o3为了解并执行一个极其困难的任务,连续调用了大约600次工具。”

这种能力使模型能够执行复杂的、多步骤的工作流任务,而无需用户持续介入。比如,当被问到“加州未来的能源使用趋势”时,人工智能系统可以搜索公用事业数据、编写Python代码进行分析、生成可视化图表,并撰写出一份全面的报告——所有步骤都作为一个流畅、连贯的过程完成。

OpenAI超越竞争对手,在关键AI基准测试中表现优异

OpenAI宣称,o3在多个关键人工智能能力基准测试中确立全新行业标杆,包括Codeforces(编程竞赛平台)、SWE-bench(软件工程基准)和MMMU(多模态理解评估)。

据外部专家评估,在复杂现实任务中,o3的重大错误率较前代模型降低20%。

而轻量级模型o4-mini在保持强大推理能力的同时,更注重速度与成本效益。配备Python解释器时,其在2025年AIME数学竞赛中取得99.5%的惊人准确率。

OpenAI研究负责人马克·陈(Mark Chen)在发布会上说道:“我真的相信,凭借这套模型组合,o3和o4-mini,我们将会看到更多的突破。”

OpenAI发布新模型的时机也非常关键,该公司在两天前刚刚推出了GPT-4.1模型,该模型在编程任务中表现优异。接连不断的发布表明,OpenAI在竞争激烈的人工智能领域正在加速推进,并面临来自谷歌Gemini、Anthropic Claude以及埃隆·马斯克(Elon Musk)旗下xAI等日益激烈的竞争压力。

上个月,OpenAI完成了历史上最大规模的私募融资,筹集了400亿美元资金,估值达3000亿美元。另外,该公司还在考虑构建自己的社交网络,可能对标马斯克的X,并确保拥有独立的训练数据源。

OpenAI新模型如何通过代码导航能力重塑软件工程领域

新模型在软件工程领域的表现特别出色。布罗克曼在发布会上提到,o3在“检索OpenAI内部代码库时的表现比我还要出色,这真的很有用。”

作为此次发布的一部分,OpenAI还推出了Codex CLI,这是一款轻量级的编程智能体,可以直接在用户的终端运行。这个开源工具让开发者能够利用这些模型的推理能力来完成编程任务,支持截图和草图输入。

OpenAI在公告中写道:“我们还分享了一个新的实验:Codex CLI,一个可以从终端运行的轻量级编程智能体。通过将截图或简略草图传递给模型,并结合对本地代码的访问,用户可以从命令行获得多模态推理的好处。”

为了鼓励采用,OpenAI启动了一项100万美元的扶持计划,支持使用Codex CLI和OpenAI的模型,每个项目将获得2.5万美元的API信用额度。

OpenAI首席执行官山姆·奥特曼(Sam Altman)发帖称:“由于o3和o4-mini在编程领域表现优异,OpenAI还推出了一个新产品——Codex CLI,旨在简化它们的使用。这是一款运行在你计算机上的编程智能体,完全开源,并已于今日发布;我们预计它将迅速改进。”

OpenAI强化安全协议内幕:如何防范AI滥用

OpenAI表示,已对新模型进行了广泛的安全测试,特别是针对它们拒绝有害请求的能力。该公司的安全措施包括完全重建安全训练数据,并开发了系统级的缓解措施来标记危险的提示。

OpenAI在公告中称:“我们对这两个模型进行了迄今为止最严格的安全测试。o3和o4-mini在生物学、网络安全和AI自我改进能力等领域的潜在风险,仍然低于OpenAI的高风险阈值。”

在发布会上,OpenAI两位研究人员展示了详细的基准测试结果,并指出新模型在训练计算量上超过了以往版本的10倍,才能实现这些强大的能力。

获取o3和o4-mini的时机与方式:部署时间表与商业策略

OpenAI的新模型目前已立即向ChatGPT Plus、Pro和Team用户开放,Enterprise和Education客户将在下周获得访问权限。免费用户可以通过在提交查询前选择“Think”来体验o4-mini。

开发者可以通过OpenAI的Chat Completions API和Responses API试用这两个模型,尽管部分组织需要验证才能访问它们。

此次发布对OpenAI来说是一个重要的商业机会,因为这些模型似乎比前代更强大且更具成本效益。该公司举例称,在2025年AIME数学竞赛中,o3的性价比严格优于o1。同样,o4-mini在成本表现上也优于o3-mini。

AI的未来:OpenAI架起推理与对话的桥梁打造下一代系统

业内分析人士认为,这些发布是人工智能能力融合的更广泛趋势的一部分,模型越来越多地将专业推理与自然对话能力和工具使用结合起来。

OpenAI在发布会中指出:“最新发布反映了我们的模型发展方向:我们正在将o系列的专门推理能力与GPT系列更多的自然对话能力和工具使用结合起来。”

不过,莫里克教授发帖称,o3是“非常强大的模型,但仍有明显短板”。

随着人工智能领域的竞争日益加剧,谷歌、Anthropic等公司推出越来越强大的模型,OpenAI在推理能力和实际工具使用上的双重关注表明,其战略是旨在通过提供智能和实用性来保持领先地位。

通过o3和o4-mini,OpenAI已经跨越了一个门槛——机器开始像人类一样感知图像,将视觉信息的处理作为思维过程的组成部分,而不仅仅是分析它们所看到的。这种从被动识别到主动视觉推理的转变,可能比任何基准分数都更具意义,代表着人工智能终于开始通过“思考的眼睛”来看待世界。(小小)

延伸阅读
相关推荐
热点推荐
与富商海外产子真相大白8个月,江疏影官宣喜讯,王传君没说错

与富商海外产子真相大白8个月,江疏影官宣喜讯,王传君没说错

诺诺谈史
2026-01-28 17:39:19
历史级控场者:哈登,把名字刻进了NBA的双榜丰碑!

历史级控场者:哈登,把名字刻进了NBA的双榜丰碑!

体育闲话说
2026-01-28 13:51:52
牢A爆火后留学圈炸了!陪读妈妈、女留学生成狩猎目标,家长必看

牢A爆火后留学圈炸了!陪读妈妈、女留学生成狩猎目标,家长必看

乌娱子酱
2026-01-27 16:50:05
中超6外援呼之欲出,为何除了申花,其他球队都在等

中超6外援呼之欲出,为何除了申花,其他球队都在等

米奇兔
2026-01-28 14:48:03
苏林时代:越南的选择与放弃

苏林时代:越南的选择与放弃

难得君
2026-01-27 18:33:40
44歲薛凱琪生圖流出真實容貌曝光,越見精緻臉上一部位惹關注

44歲薛凱琪生圖流出真實容貌曝光,越見精緻臉上一部位惹關注

粤睇先生
2026-01-28 10:23:44
高市早苗又在发什么癫?

高市早苗又在发什么癫?

新民周刊
2026-01-28 09:10:06
深圳一珠宝公司被曝经营异常,消费者称“投了很多钱进去”,官方通报

深圳一珠宝公司被曝经营异常,消费者称“投了很多钱进去”,官方通报

潇湘晨报
2026-01-28 11:58:22
新疆维吾尔自治区政府副主席王刚已任自治区党委常委

新疆维吾尔自治区政府副主席王刚已任自治区党委常委

澎湃新闻
2026-01-28 11:47:13
你最后悔的一次消费是什么?网友:抠搜一辈子玩股票赔的裤衩不剩

你最后悔的一次消费是什么?网友:抠搜一辈子玩股票赔的裤衩不剩

另子维爱读史
2026-01-28 20:24:52
1969年,40岁的杨洁带着自己3个孩子,嫁给了26岁的男友,王崇秋坦言:我们过得很好

1969年,40岁的杨洁带着自己3个孩子,嫁给了26岁的男友,王崇秋坦言:我们过得很好

文史明鉴
2026-01-27 19:04:10
张钧甯为导演男友每天操练!全身酸疼、想死 大叹:痛并快乐着

张钧甯为导演男友每天操练!全身酸疼、想死 大叹:痛并快乐着

东方不败然多多
2026-01-28 02:13:17
古特雷斯下台,秘书长候选人出炉,对华态度不一般,中俄未必同意

古特雷斯下台,秘书长候选人出炉,对华态度不一般,中俄未必同意

嫹笔牂牂
2026-01-28 19:27:19
2025年,内娱最赚钱的10位明星,刘德华第四,第一名让人意外

2025年,内娱最赚钱的10位明星,刘德华第四,第一名让人意外

林雁飞
2026-01-06 13:15:06
北京市政协任命专门委员会主任

北京市政协任命专门委员会主任

新京报
2026-01-28 17:03:07
身患渐冻症7年的蔡磊,如今47岁喝水都成了奢望,妻子早已崩溃

身患渐冻症7年的蔡磊,如今47岁喝水都成了奢望,妻子早已崩溃

阿纂看事
2026-01-28 18:35:00
沉默24小时后,卡尼终于发声,否认与中国签协议,美财长得寸进尺

沉默24小时后,卡尼终于发声,否认与中国签协议,美财长得寸进尺

通文知史
2026-01-27 13:45:03
巴黎这一夜,人情冷暖、江湖地位,在65岁洪晃身上体现的淋漓尽致

巴黎这一夜,人情冷暖、江湖地位,在65岁洪晃身上体现的淋漓尽致

白面书誏
2026-01-28 15:09:50
李在明已经想好后路,美国如果真要撤军,他会让特朗普为此后悔?

李在明已经想好后路,美国如果真要撤军,他会让特朗普为此后悔?

通鉴史智
2026-01-28 19:32:04
原来马斯克没说错,全球抢的不是芯片,而是中国20万一台的变压器

原来马斯克没说错,全球抢的不是芯片,而是中国20万一台的变压器

云上乌托邦
2026-01-22 13:10:38
2026-01-28 21:20:49

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

男子新婚夜被妻子抓伤发现其患精神疾病 起诉离婚被驳

头条要闻

男子新婚夜被妻子抓伤发现其患精神疾病 起诉离婚被驳

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

王祖贤入驻某音:一条7秒视频吸粉55万

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

健康
教育
旅游
时尚
房产

耳石症分类型,症状大不同

教育要闻

26考研调剂考生超70W???

旅游要闻

江西庐山:雾凇云瀑日晕“三景”齐现

开衫,是春天最好穿的衣服

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

无障碍浏览 进入关怀版
×