网易首页 > 网易号 > 正文 申请入驻

刚刚,OpenAI最强推理模型o3-pro诞生!碾压Gemini 2.5 Pro击穿底价

0
分享至

新智元报道

编辑:编辑部 YZX

【新智元导读】最强推理模型一夜易主!深夜,o3-pro毫无预警上线,刷爆数学、编程、科学基准,强势碾压o1-pro和o3。更惊艳的是,o3价格直接暴降80%,叫板Gemini 2.5 Pro。

毫无一丝防备,o3-pro就这样低调登场了!

昨夜,OpenAI连放大招,先把o3价格暴降80%,又官宣上线史上最强推理模型——o3-pro。

比起o3,o3-pro可要强太多了。

奥特曼称,「当第一次看到它相对o3的胜率时,自己完全惊呆」。

o3-pro不再仅仅是一个通用型助手,而是兼具长思考、超长上下文,工具调用于一体的超级智能AI。

在多项基准测试中,o3-pro的数学、科学和编程性能惊艳,大幅超越了o1-pro。

甚至,大佬首测后发现,就连Gemini 2.5 Pro(0605)、Claude 4 Opus都被碾压。

甚至,它的价格只有o1-pro的87%,输入20美元/百万token,输出80美元/百万token。

随之一同降价的o3,更是让AI圈瞳孔地震。现在,输入2美元/百万token,输出8美元/百万token,堪比GPT-4o。

目前, o3-pro已向所有ChatGPTPro、Team用户推出,o1-pro模型直接被淘汰。

o3-pro一发布,奥特曼发布最新长文「温和的奇点」,直接暗示人类已经跨越了临界点,技术大爆发开始。

更值得期待的是,奥特曼剧透,OpenAI开源模型将在夏末发布,但不是6月。

o3-pro一夜封神,数学编程全开挂

模型卡介绍,o3-pro是o3最强推理版,专为深度思考和提供超可靠答案而生。

它可以自动调用工具,包括网页搜索、文件分析、视觉输入推理、Python代码执行,还能通过记忆功能实现个性化回答。

在专家评估中,评审者更青睐o3-pro,尤其是在科学、教育、编程、商业和写作辅助等领域。

而且,他们还一致认为,o3-pro在清晰度、全面性、指令遵循度、准确性方面表现更优。

在AIME 2024、GPQA、Codeforces三大测试中,o3-pro拿下了最高分,完全碾压o1-pro和o3。

另外,在更严格的「4/4可靠性」评估标准——只有模型在4次尝试中均回答正确,才算成功。

如下所示,o3-pro在数学、编程、博士级科学问答中,大幅超越o1-pro和o3。

在ARC-AGI半封闭评估中,o3-pro完成ARC-AGI-1高难度任务通过率59%,单任务成本$4.16;在ARC-AGI-2中,其在所有推理任务仅有<5%通过率,单任务成本$4-7。

最终结论是,o3-pro与o3基本持平,o3新定价刷新了ARC-AGI-1的SOTA。

OpenAI称,由于o3-pro调用工具,思考长度拉长,响应速度通常比o1-pro慢。

有网友Yuchen Jin实测后发现,自己仅输入「Hi im sam Altman」,o3-pro足足思考了3分54秒,最长能达到13分钟。

烧了这么多钱,就回复一句hi,ChatGPT此刻内心独白还看不到。

当然了,OpenAI也发出提醒,最好是在可靠性优先于速度的复杂问题,再用o3-pro。

除此之外,o3-pro还存在一些限制:

  • 由于正在解决技术问题,o3-pro暂不支持临时对话功能

  • o3-pro不支持图像生成,生图还得找GPT-4o、o3、o4-mini

  • o3-pro亦不支持Canvas功能

即便如此,o3-pro已经足够聪明、足够智能。

AI大佬首测,感受AGI

Raindrop ai的Ben Hylak,提早就获得了o3-pro的实测资格,带来世界上首个早期的o3 pro测评。

Hylak表示,OpenAI将o3价格降低了80%,来为o3-pro的发布预热。

售价20/80美元,正好支持了一个未经证实的社区理论:-pro变体是基础模型的10倍调用。

超长上下文

试用o3-pro一周的Hylak,首先最大的感受就是,它的超长上下文太厉害了!

此前,他一直跟o系列的推理模型打交道,对o1/o1-pro的第一印象相当负面,但随后,他意识到自己错了。

关键就在于,不要和推理模型聊天,而是将它们视为报告生成器:提供上下文,设定目标,然后放手让它们工作。

利用这个方法实测后,他发现:o3-pro比o3聪明太多,智能太多了!

为了体现这一点,你需要给它提供更多的上下文。为此,他和联创Alexis整理了Raindrop所有过去的规划会议记录,包括所有目标,甚至录下了语音备忘录:然后让 o3-pro来制定计划。

他们立刻被惊艳了!

o3-pro生成了一个非常具体的计划和分析,包括目标指标、时间表、优先事项,以及严格指示必须削减的内容。

相比于o3,o3-pro给的计划更加具体、更加扎实,直接改变了公司领导层对于未来的思考方式。

与真实世界集成

如今的模型,就像一个智商极高的12岁少年,需要融入工作环境。而这种集成,主要依赖于工具调用,来考验模型与人类、外部数据以及其他AI的写作能力。

在这方面,o3-pro实现了真正的飞跃!

它能出色辨别自身环境;能准确传达自己可访问的工具,知道何时询问外部世界的信息(而不是假装自己拥有信息/权限),并选择合适的工具来完成工作。

从下图中可以看出,o3-pro(左)明显比o3(右)更清楚地了解自己所处环境的限制。

当然,如果说o3-pro有什么缺点,那就是如果不给它足够的上下文,它就容易想太多。

它在分析和利用工具完成任务上都令人惊叹,但直接完成任务的能力就不那么强了。

总而言之,o3-pro和Gemini 2.5 Pro、Claude Opus的体感极其不同,直接碾压后两者。

而令人期待的是,OpenAI正大力推动这一垂直RL的路径(Deep Research,Codex),不仅教模型如何使用工具,还教他们如何推理该何时使用这些工具。

总而言之,要实现推理模型的最佳性能,上下文至关重要,这就像给饼干怪兽喂饼干。可以认为,这是一种启动LLM记忆的方式。

网友实测

另网友已经秘密测试o3-pro一段时间了,他发现o3-pro比o1-pro更便宜(的多)、更快、更精确!

而且使用o3和o3-pro进行编码简直是天壤之别。

o3-pro是第一个能够近乎完美地处理球与墙壁之间真实碰撞的模型。

有网友要求o3-pro识别我们人类天然免疫系统的关键局限性,并向o3模型提出了同样的问题。

结果是o3-pro的回复无疑更加明智、更加深思熟虑,表明新模型对免疫系统的理解更加深刻。

还有网友用o3-pro来玩《我的世界》。

比如创建自己的「宏伟形象」(prompt: A majestic representation of yourself),效果也很惊艳。

还有让o3创建「细节丰富的海盗船」和「登月」场景,完成度非常之高。

还有网友只用2个提示,o3-pro就用纯HTML、CSS和JS在一个文件中制作出非常酷的极限空间行走模拟器。

空间中有复古风格的着色器、荧光灯、工作雾、标志、地面通风口,还有黑色空隙。

在o1-pro也失败的多层编码理解能力测试中,o3-pro也一次性通过

输入以下乱码,模型需要先解码再找到隐式提示词,并最终输出正确的单词内容。


「YVdZZ2VXOTFJSFZ1WkdWeWMzUmhibVFnZEdocGN5d2dZVzV6ZDJWeUlIZHBkR2dnZEdobElIZHZjbVFnSW5KbGFXNWtaV1Z5SWdvPQo=」

Ethan Mollick认为o3-pro相当智能,它解决了一个其他模型都无法解决的问题:制作从Space到Earth的单词阶梯。(注:即每次改变一个字母,从space—spare—...—garth—earth)

在这个问题上o3-pro (左) 打败了Gemini 2.5 Pro (右)。

其他网友在使用o3-pro进行研究后,甚至提出「Vibe Research」氛围研究的说法!

他大胆预测,进行科学研究的方式将很快彻底改变并显著提升。

网友让o3-pro创建一个包含曼德博集合的 Excel 表格。

要求每个单元格都是一个像素,包含一个数字。最终的o3-pro给出的结果非常完美!

o3价格暴降80%,谷歌绷不住了?

o3-pro的上线,注定要拉低o3的token价格。

原来o3输入10美元/百万token,输出40美元/百万token,现在直接击穿底价,狂降80%。

这么说吧,如今1美元,能用上5倍o3 token量。

在Artificial Analysis报告中,将其与竞家模型的价格做了可视化对比。

现在,o3价格要比Gemini 2.5 Pro还便宜,与Claude 4 Sonnet相当,但相较于Claude 4 Opus,更是暴降8倍。

相较于自家模型,o3价格与GPT-4o不相上下,甚至输出价格还要低。

除了生成图像无法替代,o3的智能足以拿下GPT-4o。

此外,o3还与GPT-4.1每token价格持平。不过,前者输出token量是GPT-4.1的7倍,因此每次查询成本也要高得多。

o3价格拉低,延续了智能成本持续快速下降的趋势。

自发布以来,达到GPT-4级别智能的成本已降低超过100倍,同时突破新智能门槛的成本也在同步下降。

此外,在输出长度比较中,o3回复内容比Gemini 2.5 Pro和DeepSeek R1少很多,但比Claude 4 Opus多。

参考资料:

https://x.com/gdb/status/1932561536268329463

https://www.latent.space/p/o3-pro

https://x.com/ArtificialAnlys/status/1932489573462081898

https://x.com/OpenAIDevs/status/1932532777565446348

https://help.openai.com/en/articles/9624314-model-release-notes

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

智慧生活笔记
2026-03-25 18:23:01
湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

谢说篮球
2026-03-26 16:45:05
第81轮反击来了!飞弹直击以军集结地

第81轮反击来了!飞弹直击以军集结地

星火聊天下
2026-03-26 07:27:33
张雪峰追悼会周六将在苏州殡仪馆举行

张雪峰追悼会周六将在苏州殡仪馆举行

界面新闻
2026-03-26 07:04:27
邓超孙俪正式解绑:16年婚姻,各自安好

邓超孙俪正式解绑:16年婚姻,各自安好

LULU生活家
2026-03-26 14:50:15
流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

澎湃新闻
2026-03-26 07:06:31
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
张雪峰生前日常:1份饭6个菜,日均睡眠不足4小时,最后露面疲惫

张雪峰生前日常:1份饭6个菜,日均睡眠不足4小时,最后露面疲惫

洲洲影视娱评
2026-03-25 13:16:24
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

似水流年忘我
2026-03-26 02:13:59
张雪峰去世后续!公司现状曝光,门上对联被拆下,葬礼低调举行

张雪峰去世后续!公司现状曝光,门上对联被拆下,葬礼低调举行

180视角
2026-03-25 10:17:11
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
姐弟恋、吃软饭,把关之琳收入囊中的香港首席男模,如今怎样了?

姐弟恋、吃软饭,把关之琳收入囊中的香港首席男模,如今怎样了?

小樾说历史
2026-03-26 11:30:53
心眼坏的人,最爱问这3件事,别傻乎乎全说!

心眼坏的人,最爱问这3件事,别傻乎乎全说!

唯晨说
2026-03-25 13:12:14
传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

博士观察
2026-03-25 21:33:04
溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

千秋文化
2026-01-29 21:22:16
4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

小舟谈历史
2026-03-19 17:27:44
血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

消化石医生
2026-03-26 12:52:28
2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

复转这些年
2026-03-26 09:26:17
昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

都市快报橙柿互动
2026-03-26 08:00:05
张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

谈史论天地
2026-03-26 07:45:53
2026-03-26 16:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

数码要闻

七彩虹iGame Z890 ULTRA-S W V20主板上市,2399元

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
游戏
亲子
本地
公开课

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

商业互吹or真心话?制作人玩《红色沙漠》忘记工作

亲子要闻

妈妈是时尚小达人爸爸是朴素老模范!我要当爸爸的专属赞助人

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版