网易首页 > 网易科技 > 网易科技 > 正文

OpenAI重磅推出o3/o4-mini新模型!能"看图思考"

0
分享至

4月17日消息,北京时间今日凌晨,OpenAI发布了两款突破性AI模型,它们能够通过图像进行推理,并可独立使用工具,专家称它们为人工智能能力的一次飞跃。

这两款新模型分别被称为o3与o4-mini,它们都是OpenAI “o系列” 推理模型的最新成员,并被称为迄今为止最智能、最强大的模型。这些系统能将图像直接整合到推理过程中,并在单一任务流程中执行网页搜索、代码运行、文件分析乃至图像生成等操作。

OpenAI总裁格雷格·布罗克曼(Greg Brockman)在发布会上表示:“有些模型会让人觉得像是迈入未来的质变,GPT-4就是其中之一。今天也将成为这样的历史时刻。这是首批让顶尖科学家都承认能产出确实优秀、实用新颖创意的模型。”

OpenAI新模型通过“图像思维”帮助解决视觉问题

这些新模型最显著的特征是“图像思维”能力。它们不仅是识别图像,还能在问题解决流程中操控并推理。

OpenAI在声明中强调:“它们不只是看图——而是用图像进行思考。这解锁了一类全新的问题求解方式,将视觉与文本推理相融合。”

在发布会演示环节,研究人员展示了o3如何分析一份来自十年前实习项目的物理海报:它能独立解析其中复杂的图示,甚至识别出海报本身未呈现的最终结论。

OpenAI多模态推理研究员布兰登·麦肯锡(Brandon McKenzie)在演示中说道:“它相当于在几秒内为我阅读了至少10篇不同的论文。”他估计,这项任务如果由他本人完成,“光是重新熟悉当年的项目背景就要好几天,然后可能还得几天才能完成文献查阅。”

人工智能在推理过程中操控图像的能力,比如放大细节、旋转图像或裁剪冗余元素等,被行业分析师认为可能彻底改变从科研到教育等多个领域。

沃顿商学院研究人工智能、创新与创业公司的伊森·莫里克教授(Ethan Mollick)在社交平台上发文称:

我获得了o3的早期使用权限,这款模型令人印象深刻,能力非常强大。以下为一些有趣的示例:

1️⃣ 解构了我课堂上使用的商业案例

2️⃣ 生成纯代码构建的SVG矢量图

3️⃣ 创作双螺旋结构的约束性短篇故事

4️⃣ 创作硬科幻太空战斗场景

超越AI模型:o3与o4-mini如何通过先进工具集成作为完整AI系统运行

OpenAI的高管强调,这次发布的不仅仅是推理模型的升级版本,而是完整的人工智能系统,它们能够在解决问题时独立调用并串联多个工具。

该公司在发布声明中表示:“我们通过强化学习训练模型使用工具——不仅让它们学会如何使用工具,更让它们学会何时使用工具。”

布罗克曼特别强调了这些模型在工具调用方面的强大能力:“它们实际上是在思维链中调用这些工具,以尝试解决困难问题。例如,我们曾看到o3为了解并执行一个极其困难的任务,连续调用了大约600次工具。”

这种能力使模型能够执行复杂的、多步骤的工作流任务,而无需用户持续介入。比如,当被问到“加州未来的能源使用趋势”时,人工智能系统可以搜索公用事业数据、编写Python代码进行分析、生成可视化图表,并撰写出一份全面的报告——所有步骤都作为一个流畅、连贯的过程完成。

OpenAI超越竞争对手,在关键AI基准测试中表现优异

OpenAI宣称,o3在多个关键人工智能能力基准测试中确立全新行业标杆,包括Codeforces(编程竞赛平台)、SWE-bench(软件工程基准)和MMMU(多模态理解评估)。

据外部专家评估,在复杂现实任务中,o3的重大错误率较前代模型降低20%。

而轻量级模型o4-mini在保持强大推理能力的同时,更注重速度与成本效益。配备Python解释器时,其在2025年AIME数学竞赛中取得99.5%的惊人准确率。

OpenAI研究负责人马克·陈(Mark Chen)在发布会上说道:“我真的相信,凭借这套模型组合,o3和o4-mini,我们将会看到更多的突破。”

OpenAI发布新模型的时机也非常关键,该公司在两天前刚刚推出了GPT-4.1模型,该模型在编程任务中表现优异。接连不断的发布表明,OpenAI在竞争激烈的人工智能领域正在加速推进,并面临来自谷歌Gemini、Anthropic Claude以及埃隆·马斯克(Elon Musk)旗下xAI等日益激烈的竞争压力。

上个月,OpenAI完成了历史上最大规模的私募融资,筹集了400亿美元资金,估值达3000亿美元。另外,该公司还在考虑构建自己的社交网络,可能对标马斯克的X,并确保拥有独立的训练数据源。

OpenAI新模型如何通过代码导航能力重塑软件工程领域

新模型在软件工程领域的表现特别出色。布罗克曼在发布会上提到,o3在“检索OpenAI内部代码库时的表现比我还要出色,这真的很有用。”

作为此次发布的一部分,OpenAI还推出了Codex CLI,这是一款轻量级的编程智能体,可以直接在用户的终端运行。这个开源工具让开发者能够利用这些模型的推理能力来完成编程任务,支持截图和草图输入。

OpenAI在公告中写道:“我们还分享了一个新的实验:Codex CLI,一个可以从终端运行的轻量级编程智能体。通过将截图或简略草图传递给模型,并结合对本地代码的访问,用户可以从命令行获得多模态推理的好处。”

为了鼓励采用,OpenAI启动了一项100万美元的扶持计划,支持使用Codex CLI和OpenAI的模型,每个项目将获得2.5万美元的API信用额度。

OpenAI首席执行官山姆·奥特曼(Sam Altman)发帖称:“由于o3和o4-mini在编程领域表现优异,OpenAI还推出了一个新产品——Codex CLI,旨在简化它们的使用。这是一款运行在你计算机上的编程智能体,完全开源,并已于今日发布;我们预计它将迅速改进。”

OpenAI强化安全协议内幕:如何防范AI滥用

OpenAI表示,已对新模型进行了广泛的安全测试,特别是针对它们拒绝有害请求的能力。该公司的安全措施包括完全重建安全训练数据,并开发了系统级的缓解措施来标记危险的提示。

OpenAI在公告中称:“我们对这两个模型进行了迄今为止最严格的安全测试。o3和o4-mini在生物学、网络安全和AI自我改进能力等领域的潜在风险,仍然低于OpenAI的高风险阈值。”

在发布会上,OpenAI两位研究人员展示了详细的基准测试结果,并指出新模型在训练计算量上超过了以往版本的10倍,才能实现这些强大的能力。

获取o3和o4-mini的时机与方式:部署时间表与商业策略

OpenAI的新模型目前已立即向ChatGPT Plus、Pro和Team用户开放,Enterprise和Education客户将在下周获得访问权限。免费用户可以通过在提交查询前选择“Think”来体验o4-mini。

开发者可以通过OpenAI的Chat Completions API和Responses API试用这两个模型,尽管部分组织需要验证才能访问它们。

此次发布对OpenAI来说是一个重要的商业机会,因为这些模型似乎比前代更强大且更具成本效益。该公司举例称,在2025年AIME数学竞赛中,o3的性价比严格优于o1。同样,o4-mini在成本表现上也优于o3-mini。

AI的未来:OpenAI架起推理与对话的桥梁打造下一代系统

业内分析人士认为,这些发布是人工智能能力融合的更广泛趋势的一部分,模型越来越多地将专业推理与自然对话能力和工具使用结合起来。

OpenAI在发布会中指出:“最新发布反映了我们的模型发展方向:我们正在将o系列的专门推理能力与GPT系列更多的自然对话能力和工具使用结合起来。”

不过,莫里克教授发帖称,o3是“非常强大的模型,但仍有明显短板”。

随着人工智能领域的竞争日益加剧,谷歌、Anthropic等公司推出越来越强大的模型,OpenAI在推理能力和实际工具使用上的双重关注表明,其战略是旨在通过提供智能和实用性来保持领先地位。

通过o3和o4-mini,OpenAI已经跨越了一个门槛——机器开始像人类一样感知图像,将视觉信息的处理作为思维过程的组成部分,而不仅仅是分析它们所看到的。这种从被动识别到主动视觉推理的转变,可能比任何基准分数都更具意义,代表着人工智能终于开始通过“思考的眼睛”来看待世界。(小小)

延伸阅读
相关推荐
热点推荐
新任河南省委副书记张巍已担任省委政法委书记

新任河南省委副书记张巍已担任省委政法委书记

澎湃新闻
2025-05-23 20:10:26
收评:创业板指冲高回落跌1.18% 全市场超4200只个股下跌

收评:创业板指冲高回落跌1.18% 全市场超4200只个股下跌

财联社
2025-05-23 15:03:11
武汉暴雨导致严重内涝,网友拿当地投入130亿一事进行调侃

武汉暴雨导致严重内涝,网友拿当地投入130亿一事进行调侃

映射生活的身影
2025-05-23 19:25:29
张仲谋拜访任正非:为何我俩道路不一样?任正非:我们是穷人创业

张仲谋拜访任正非:为何我俩道路不一样?任正非:我们是穷人创业

风起讲堂
2025-05-23 09:03:42
一句脏话撕开了“金刚芭比”赵丽颖的体面,央媒表态:不要情绪化

一句脏话撕开了“金刚芭比”赵丽颖的体面,央媒表态:不要情绪化

娱乐看阿敞
2025-05-23 10:22:27
赵丽颖飙脏话影响恶劣,更多争议言论被扒出,央视媒连夜发声表态

赵丽颖飙脏话影响恶劣,更多争议言论被扒出,央视媒连夜发声表态

柠檬有娱乐
2025-05-23 10:24:47
朱媛媛的爸爸妈妈念女心切,媛媛竟与妈妈如此相像!

朱媛媛的爸爸妈妈念女心切,媛媛竟与妈妈如此相像!

悠闲历史
2025-05-23 17:55:44
大跳水!杨梅价格暴跌70%!宁波人:还能再等等

大跳水!杨梅价格暴跌70%!宁波人:还能再等等

环球网资讯
2025-05-23 20:35:07
朝鲜新建驱逐舰下水失败:修复舷侧需10多天时间,造船厂厂长已被传唤

朝鲜新建驱逐舰下水失败:修复舷侧需10多天时间,造船厂厂长已被传唤

红星新闻
2025-05-23 12:51:54
即将入学哈佛的中国留学生已收到通知邮件 签证是否会被取消仍未知

即将入学哈佛的中国留学生已收到通知邮件 签证是否会被取消仍未知

cnBeta.COM
2025-05-23 20:15:11
又打起来了!印军再次开火,30多人被击毙,莫迪失声,美英法失声

又打起来了!印军再次开火,30多人被击毙,莫迪失声,美英法失声

任紀煙
2025-05-23 18:04:10
中国篮协官方:根据国际篮联裁决,禁止四川男篮注册新球员

中国篮协官方:根据国际篮联裁决,禁止四川男篮注册新球员

懂球帝
2025-05-23 12:53:09
邻居违规养狗又臭又吵,男子投诉两年无果不忍了!放两条巨蛇在楼道,吓死人...

邻居违规养狗又臭又吵,男子投诉两年无果不忍了!放两条巨蛇在楼道,吓死人...

英国那些事儿
2025-05-22 23:14:46
业界五大「顶级欲女」盘点:她们到底是在演?还是在享受?

业界五大「顶级欲女」盘点:她们到底是在演?还是在享受?

吃瓜党二号头目
2025-05-23 09:41:32
3-4!国乒世界第1出局,林诗栋3项全无缘4强,梁靖崑冲三大赛首冠

3-4!国乒世界第1出局,林诗栋3项全无缘4强,梁靖崑冲三大赛首冠

环太平洋老正太
2025-05-23 19:20:08
曼城的失利,让英超获得第10个欧战名额的机会,变得越来越大

曼城的失利,让英超获得第10个欧战名额的机会,变得越来越大

嗨皮看球
2025-05-23 16:52:11
邮报:曼联在欧联决赛失利几小时后就开始通知员工被裁

邮报:曼联在欧联决赛失利几小时后就开始通知员工被裁

懂球帝
2025-05-23 17:59:09
莫言:钱再多,也抵挡不了死亡;长得再漂亮,也讨好不了阎王

莫言:钱再多,也抵挡不了死亡;长得再漂亮,也讨好不了阎王

清风拂心
2025-01-15 13:59:06
上海又一知名“康养度假”集团爆雷

上海又一知名“康养度假”集团爆雷

深度知局
2025-05-22 17:34:12
62年,周总理强硬地顶撞过一次毛主席,直言:我不认为我有什么错

62年,周总理强硬地顶撞过一次毛主席,直言:我不认为我有什么错

百年人物志
2025-05-23 10:33:50
2025-05-23 22:28:49

科技要闻

特朗普:iPhone不在美国制造就收25%关税

头条要闻

上海主妇骗1600万给小10岁老公买房 账单上亿银行崩溃

头条要闻

上海主妇骗1600万给小10岁老公买房 账单上亿银行崩溃

体育要闻

全国游泳冠军赛进行7天 潘展乐收获7金

娱乐要闻

赵丽颖否认恋情,与赵德胤没在一起?

财经要闻

特朗普威胁自6月1日起对欧盟征收50%关税

汽车要闻

续航720km/充电10分钟补能500公里 理想i8信息曝光

态度原创

本地
健康
艺术
亲子
军事航空

本地新闻

巴黎没有倍儿甜,但天津巧克力脑袋倍儿多

唇疱疹和口腔溃疡是"同伙"吗?

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

亲子要闻

老婆产后经常漏尿怎么办

军事要闻

朝驱逐舰下水事故最新调查结果公布

无障碍浏览 进入关怀版
×