网易首页 > 网易号 > 正文 申请入驻

首次实现“看图思考” OpenAI新模型o3和o4-mini或接近天才水平?|科技观察

0
分享至

封面新闻记者 边雪

人工智能领域又迎来的一次重大飞跃。

2025年4月17日,OpenAI正式发布两款革命性AI推理模型——o3和o4-mini,标志着AI在多模态推理与自主任务执行能力上的跨越式突破。两款模型不仅首次实现“图像思维”,还能自主调用多种工具链,显著提升了复杂现实问题的解决效率。

“当前人工智能正处于历史上第三次浪潮的新的拐点上,以ChatGPT的发布为分界线。”智源研究院院长王仲远告诉封面新闻记者,在此之前的人工智能可以将其称为弱人工智能,也就是针对特定场景、特定任务去收集特定数据训练出来的模型,不具备泛化性。“大语言模型从实验室走向产业界,有可能推动人工智能向通用人工智能的时代发展。”

技术亮点:图像思维与工具自主调用

封面新闻记者注意到,在两款o系列推理模型发布后,OpenAI首席执行官萨姆·奥特曼转发一名体验者的推文,并表示新模型“达到或接近天才水平”。此外,奥特曼还表示,预计会在未来几周内将o3升级到专业版o3-pro。

据OpenAI 介绍,o3和o4-mini首次将图像直接融入思维链中,实现了“用图像思考”的能力。用户可上传白板笔记、手绘草图、教科书图表等视觉内容,模型即使面对模糊、颠倒或低质量的图像,也能通过动态缩放、旋转等操作进行深入分析。例如,用户上传一张手写数学题的草图,o3可逐步拆解题意并输出完整的解题过程。

这一能力在多模态基准测试中表现尤为突出:在MMMU(大学级视觉问题解决)任务中,o3准确率达82.9%,远超前代o1的77.6%;在MathVista(视觉数学推理)测试中,o3以86.8%的准确率刷新纪录。

此外,自主工具调用与多任务协同也是该模型的一大亮点。两款模型能无缝调用ChatGPT的全套工具,包括网页搜索、Python编程、图像生成等,并支持通过API集成用户自定义工具。例如,当用户询问“加州夏季能源使用趋势”时,模型会自动搜索公共数据、编写代码预测趋势、生成可视化图表,并串联多个工具完成复杂推理。

OpenAI强调,模型的强化学习训练使其能自主判断工具使用时机与方式,显著降低现实任务中的错误率。在编程领域,o3在SWE-bench测试中得分69.1%,超过Anthropic的Claude 3.7 Sonnet(62.3%)。

性能表现 全面超越前代

在基准测试中,o3和o4-mini成绩可谓亮眼。

在AIME 2025数学竞赛中,o3和o4-mini分别以88.9%和92.7%的准确率领先o1的79.2%;在Codeforces编程竞赛中,o3与o4-mini的ELO评分达到2706和2719,远超o1的1891。

o3在博士级科学问答(GPQA Diamond)中的准确率达83.3%,而o4-mini在非STEM任务中表现同样优异。

此外,两款模型的成本与适用场景也进一步优化:o3定价为每百万输入/输出tokens 10/40美元,较前代o1降低33%;o4-mini则以每百万输入tokens 1.1美元的超低价格,成为高吞吐量场景的首选。ChatGPT订阅用户可免费使用两款模型,企业用户则在一周内获得访问权限。

封面新闻记者注意到,o3的“深度思考”模式支持长时间推理,适用于复杂科学问题求解。例如,生物学家可上传显微镜图像,模型能识别细胞结构并生成实验假设;工程师则能通过草图快速验证机械设计。

开源工具Codex CLI的同步发布,进一步降低了AI与本地代码库集成的门槛。开发者可通过终端直接调用模型执行编程任务,OpenAI还配套推出100万美元API资助计划,激励创新应用。

大模型竞争格局加速演变?

面对DeepSeek、Anthropic等对手的紧逼,OpenAI以“小步快跑”策略密集发布新模型。此前一天,其推出的GPT-4.1系列通过成本优化(如GPT-4.1 Nano每百万tokens仅0.12美元)应对价格战,而o3/o4-mini则专注高端推理市场。

尽管GPT-5因技术整合难题推迟发布,CEO山姆·奥特曼透露,o3/o4-mini将作为过渡模型填补空窗期,未来GPT-5将融合o系列推理能力与GPT系列的自然交互优势,实现技术路线统一。

OpenAI为两款模型重构安全训练数据集,新增生物威胁、恶意软件生成等风险防护机制。其开发的“推理LLM监控器”在生物风险检测中拦截率达99%,确保技术应用符合伦理规范。

OpenAI此次发布不仅巩固了其在AI领域的领先地位,更以“图像思维”与工具自主调用重新定义了智能边界。今年4月初,奥特曼在社交媒体上发文称,GPT-5的发布比预期要晚,因为“顺利整合所有内容比我们预想的要困难得多。”他表示,将在未来几周内发布o3和o4-mini,未来几个月将发布GPT-5,并强调GPT-5发布后会非常受欢迎,可能会有大量的用户使用,所以需要提前做好准备。

GPT-5发布的临近,生成式AI的下一幕竞争,即将拉开。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不可错过!3月26日晚间19:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月26日晚间19:00比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-26 15:33:07
为什么有个漂亮老婆还是想要分 网友讲出自身经历真是一言难尽

为什么有个漂亮老婆还是想要分 网友讲出自身经历真是一言难尽

侃神评故事
2026-03-10 18:50:04
4.0 英寸 4050mAh 还有实体键盘!这绝对是今年最酷的新机了

4.0 英寸 4050mAh 还有实体键盘!这绝对是今年最酷的新机了

科技狐
2026-03-25 22:34:58
伊朗挂断王毅电话后发全球照会,萨勒曼震怒

伊朗挂断王毅电话后发全球照会,萨勒曼震怒

空间展示知识
2026-03-26 07:06:58
张凌赫和田曦薇,谢谢你俩让我看到了真人秀有多假

张凌赫和田曦薇,谢谢你俩让我看到了真人秀有多假

草莓解说体育
2026-03-26 14:17:01
加时被逆转!申京:一切发生太快!杜兰特:在胡打,我该果断出手

加时被逆转!申京:一切发生太快!杜兰特:在胡打,我该果断出手

篮球资讯达人
2026-03-26 15:28:40
新华社消息|覆盖全民!我国加快建立长期护理保险制度

新华社消息|覆盖全民!我国加快建立长期护理保险制度

新华社
2026-03-25 23:15:12
好辣眼睛!黄多多穿三点式泳装,20岁身材矮小,在国外思想开放

好辣眼睛!黄多多穿三点式泳装,20岁身材矮小,在国外思想开放

章眽八卦
2026-03-26 13:22:27
炸锅!利物浦 1.25 亿标王主动申请离队,首选下家完全出乎意料

炸锅!利物浦 1.25 亿标王主动申请离队,首选下家完全出乎意料

澜归序
2026-03-26 06:08:07
面相这东西真藏不住,停播一个半月的李亚鹏,

面相这东西真藏不住,停播一个半月的李亚鹏,

小光侃娱乐
2026-03-26 16:05:08
押注中国!迪拜资本大转移,数千亿真金白银连夜搬家到东方

押注中国!迪拜资本大转移,数千亿真金白银连夜搬家到东方

小舟谈历史
2026-03-25 06:28:02
发生了什么?午后,沪指再度失守3900点

发生了什么?午后,沪指再度失守3900点

每经牛眼
2026-03-26 15:25:31
李鑫认亲第3天!姐弟闹掰再次失联,姐姐深夜哭诉,养家姐姐发声

李鑫认亲第3天!姐弟闹掰再次失联,姐姐深夜哭诉,养家姐姐发声

离离言几许
2026-03-26 12:11:37
俄警告绝非空言:暗杀伊朗领导人,正在打开中东战乱的潘多拉魔盒

俄警告绝非空言:暗杀伊朗领导人,正在打开中东战乱的潘多拉魔盒

华人星光
2026-03-24 11:45:23
鹅蛋营养价值惊人,发现:常吃鹅蛋的人,不用多久,或有4个改善

鹅蛋营养价值惊人,发现:常吃鹅蛋的人,不用多久,或有4个改善

垚垚分享健康
2026-03-23 17:30:11
000968,午后垂直涨停!油气概念股,集体异动!

000968,午后垂直涨停!油气概念股,集体异动!

证券时报e公司
2026-03-26 16:05:07
日媒:政府出手后,日本汽油价已降至7.71元/升

日媒:政府出手后,日本汽油价已降至7.71元/升

随波荡漾的漂流瓶
2026-03-25 15:39:49
剖腹自尽?日本陆自军官持刀冲入中国大使馆,想杀中国外交员!

剖腹自尽?日本陆自军官持刀冲入中国大使馆,想杀中国外交员!

军武次位面
2026-03-26 14:26:42
如果美国解体,犹太财阀的巨资何处安放下一个宿主,答案超乎想象

如果美国解体,犹太财阀的巨资何处安放下一个宿主,答案超乎想象

芳芳历史烩
2026-03-25 22:24:25
张雪峰传奇人生揭秘:父母下岗,大学考上郑大,第一份工作开饭店

张雪峰传奇人生揭秘:父母下岗,大学考上郑大,第一份工作开饭店

谈史论天地
2026-03-25 07:26:54
2026-03-26 17:56:49
封面新闻 incentive-icons
封面新闻
第一眼,看封面。了解权威信息,看真实新闻故事(互联网新闻信息服务许可证:51120170004)。
345493文章数 888723关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
亲子
本地
数码
公开课

教育要闻

中小学家长必看数据,看与不看都会后悔

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被立案调查!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版