网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

刚刚，OpenAI最强推理模型o3-pro诞生！碾压Gemini 2.5 Pro击穿底价

2025-06-11 08:55:22　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：编辑部 YZX

【新智元导读】最强推理模型一夜易主！深夜，o3-pro毫无预警上线，刷爆数学、编程、科学基准，强势碾压o1-pro和o3。更惊艳的是，o3价格直接暴降80%，叫板Gemini 2.5 Pro。

毫无一丝防备，o3-pro就这样低调登场了！

昨夜，OpenAI连放大招，先把o3价格暴降80%，又官宣上线史上最强推理模型——o3-pro。

比起o3，o3-pro可要强太多了。

奥特曼称，「当第一次看到它相对o3的胜率时，自己完全惊呆」。

o3-pro不再仅仅是一个通用型助手，而是兼具长思考、超长上下文，工具调用于一体的超级智能AI。

在多项基准测试中，o3-pro的数学、科学和编程性能惊艳，大幅超越了o1-pro。

甚至，大佬首测后发现，就连Gemini 2.5 Pro（0605）、Claude 4 Opus都被碾压。

甚至，它的价格只有o1-pro的87%，输入20美元/百万token，输出80美元/百万token。

随之一同降价的o3，更是让AI圈瞳孔地震。现在，输入2美元/百万token，输出8美元/百万token，堪比GPT-4o。

目前， o3-pro已向所有ChatGPTPro、Team用户推出，o1-pro模型直接被淘汰。

o3-pro一发布，奥特曼发布最新长文「温和的奇点」，直接暗示人类已经跨越了临界点，技术大爆发开始。

更值得期待的是，奥特曼剧透，OpenAI开源模型将在夏末发布，但不是6月。

o3-pro一夜封神，数学编程全开挂

模型卡介绍，o3-pro是o3最强推理版，专为深度思考和提供超可靠答案而生。

它可以自动调用工具，包括网页搜索、文件分析、视觉输入推理、Python代码执行，还能通过记忆功能实现个性化回答。

在专家评估中，评审者更青睐o3-pro，尤其是在科学、教育、编程、商业和写作辅助等领域。

而且，他们还一致认为，o3-pro在清晰度、全面性、指令遵循度、准确性方面表现更优。

在AIME 2024、GPQA、Codeforces三大测试中，o3-pro拿下了最高分，完全碾压o1-pro和o3。

另外，在更严格的「4/4可靠性」评估标准——只有模型在4次尝试中均回答正确，才算成功。

如下所示，o3-pro在数学、编程、博士级科学问答中，大幅超越o1-pro和o3。

在ARC-AGI半封闭评估中，o3-pro完成ARC-AGI-1高难度任务通过率59%，单任务成本$4.16；在ARC-AGI-2中，其在所有推理任务仅有<5%通过率，单任务成本$4-7。

最终结论是，o3-pro与o3基本持平，o3新定价刷新了ARC-AGI-1的SOTA。

OpenAI称，由于o3-pro调用工具，思考长度拉长，响应速度通常比o1-pro慢。

有网友Yuchen Jin实测后发现，自己仅输入「Hi im sam Altman」，o3-pro足足思考了3分54秒，最长能达到13分钟。

烧了这么多钱，就回复一句hi，ChatGPT此刻内心独白还看不到。

当然了，OpenAI也发出提醒，最好是在可靠性优先于速度的复杂问题，再用o3-pro。

除此之外，o3-pro还存在一些限制：

由于正在解决技术问题，o3-pro暂不支持临时对话功能
o3-pro不支持图像生成，生图还得找GPT-4o、o3、o4-mini
o3-pro亦不支持Canvas功能

即便如此，o3-pro已经足够聪明、足够智能。

AI大佬首测，感受AGI

Raindrop ai的Ben Hylak，提早就获得了o3-pro的实测资格，带来世界上首个早期的o3 pro测评。

Hylak表示，OpenAI将o3价格降低了80%，来为o3-pro的发布预热。

售价20/80美元，正好支持了一个未经证实的社区理论：-pro变体是基础模型的10倍调用。

超长上下文

试用o3-pro一周的Hylak，首先最大的感受就是，它的超长上下文太厉害了！

此前，他一直跟o系列的推理模型打交道，对o1/o1-pro的第一印象相当负面，但随后，他意识到自己错了。

关键就在于，不要和推理模型聊天，而是将它们视为报告生成器：提供上下文，设定目标，然后放手让它们工作。

利用这个方法实测后，他发现：o3-pro比o3聪明太多，智能太多了！

为了体现这一点，你需要给它提供更多的上下文。为此，他和联创Alexis整理了Raindrop所有过去的规划会议记录，包括所有目标，甚至录下了语音备忘录：然后让 o3-pro来制定计划。

他们立刻被惊艳了！

o3-pro生成了一个非常具体的计划和分析，包括目标指标、时间表、优先事项，以及严格指示必须削减的内容。

相比于o3，o3-pro给的计划更加具体、更加扎实，直接改变了公司领导层对于未来的思考方式。

与真实世界集成

如今的模型，就像一个智商极高的12岁少年，需要融入工作环境。而这种集成，主要依赖于工具调用，来考验模型与人类、外部数据以及其他AI的写作能力。

在这方面，o3-pro实现了真正的飞跃！

它能出色辨别自身环境；能准确传达自己可访问的工具，知道何时询问外部世界的信息（而不是假装自己拥有信息/权限），并选择合适的工具来完成工作。

从下图中可以看出，o3-pro（左）明显比o3（右）更清楚地了解自己所处环境的限制。

当然，如果说o3-pro有什么缺点，那就是如果不给它足够的上下文，它就容易想太多。

它在分析和利用工具完成任务上都令人惊叹，但直接完成任务的能力就不那么强了。

总而言之，o3-pro和Gemini 2.5 Pro、Claude Opus的体感极其不同，直接碾压后两者。

而令人期待的是，OpenAI正大力推动这一垂直RL的路径（Deep Research，Codex），不仅教模型如何使用工具，还教他们如何推理该何时使用这些工具。

总而言之，要实现推理模型的最佳性能，上下文至关重要，这就像给饼干怪兽喂饼干。可以认为，这是一种启动LLM记忆的方式。

网友实测

另网友已经秘密测试o3-pro一段时间了，他发现o3-pro比o1-pro更便宜（的多）、更快、更精确！

而且使用o3和o3-pro进行编码简直是天壤之别。

o3-pro是第一个能够近乎完美地处理球与墙壁之间真实碰撞的模型。

有网友要求o3-pro识别我们人类天然免疫系统的关键局限性，并向o3模型提出了同样的问题。

结果是o3-pro的回复无疑更加明智、更加深思熟虑，表明新模型对免疫系统的理解更加深刻。

还有网友用o3-pro来玩《我的世界》。

比如创建自己的「宏伟形象」（prompt: A majestic representation of yourself），效果也很惊艳。

还有让o3创建「细节丰富的海盗船」和「登月」场景，完成度非常之高。

还有网友只用2个提示，o3-pro就用纯HTML、CSS和JS在一个文件中制作出非常酷的极限空间行走模拟器。

空间中有复古风格的着色器、荧光灯、工作雾、标志、地面通风口，还有黑色空隙。

在o1-pro也失败的多层编码理解能力测试中，o3-pro也一次性通过。

输入以下乱码，模型需要先解码再找到隐式提示词，并最终输出正确的单词内容。

「YVdZZ2VXOTFJSFZ1WkdWeWMzUmhibVFnZEdocGN5d2dZVzV6ZDJWeUlIZHBkR2dnZEdobElIZHZjbVFnSW5KbGFXNWtaV1Z5SWdvPQo=」

Ethan Mollick认为o3-pro相当智能，它解决了一个其他模型都无法解决的问题：制作从Space到Earth的单词阶梯。（注：即每次改变一个字母，从space—spare—...—garth—earth）

在这个问题上o3-pro (左) 打败了Gemini 2.5 Pro (右)。

其他网友在使用o3-pro进行研究后，甚至提出「Vibe Research」氛围研究的说法！

他大胆预测，进行科学研究的方式将很快彻底改变并显著提升。

网友让o3-pro创建一个包含曼德博集合的 Excel 表格。

要求每个单元格都是一个像素，包含一个数字。最终的o3-pro给出的结果非常完美！

o3价格暴降80%，谷歌绷不住了？

o3-pro的上线，注定要拉低o3的token价格。

原来o3输入10美元/百万token，输出40美元/百万token，现在直接击穿底价，狂降80%。

这么说吧，如今1美元，能用上5倍o3 token量。

在Artificial Analysis报告中，将其与竞家模型的价格做了可视化对比。

现在，o3价格要比Gemini 2.5 Pro还便宜，与Claude 4 Sonnet相当，但相较于Claude 4 Opus，更是暴降8倍。

相较于自家模型，o3价格与GPT-4o不相上下，甚至输出价格还要低。

除了生成图像无法替代，o3的智能足以拿下GPT-4o。

此外，o3还与GPT-4.1每token价格持平。不过，前者输出token量是GPT-4.1的7倍，因此每次查询成本也要高得多。

o3价格拉低，延续了智能成本持续快速下降的趋势。

自发布以来，达到GPT-4级别智能的成本已降低超过100倍，同时突破新智能门槛的成本也在同步下降。

此外，在输出长度比较中，o3回复内容比Gemini 2.5 Pro和DeepSeek R1少很多，但比Claude 4 Opus多。

参考资料：

https://x.com/gdb/status/1932561536268329463

https://www.latent.space/p/o3-pro

https://x.com/ArtificialAnlys/status/1932489573462081898

https://x.com/OpenAIDevs/status/1932532777565446348

https://help.openai.com/en/articles/9624314-model-release-notes

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

比利时队赢球嘲讽美国队：来“推翻试试”

鲁中晨报 2026-07-07 17:28:54
15141 跟贴 15141
埃及头号球星萨拉赫赛后保持克制，未跟风批评裁判：我不想过多评论，大家都亲眼见证了全过程

红星新闻 2026-07-08 10:08:21
2942 跟贴 2942

一副大墨镜骗过了特斯拉！司机开启FSD后睡着车辆以时速100km狂奔

中国能源网 2026-07-07 15:21:03
588 跟贴 588

浙大去年申请注册校徽商标今年7月部分成功注册

封面新闻 2026-07-07 14:51:16
1487 跟贴 1487
中国主动公开发射潜射战略导弹画面专家：信息量很大

央视新闻客户端 2026-07-07 18:47:01
867 跟贴 867

中国足协回应“佛得角邀国足踢友谊赛被婉拒”：消息不实

界面新闻 2026-07-07 18:19:33
2499 跟贴 2499

马克龙在叙利亚差点挨炸爱丽舍宫回应

新民周刊 2026-07-08 09:12:22
44 跟贴 44
小店老板守着冰柜叹气：今年雪糕棒冰怎么没人吃了？

大象新闻 2026-07-05 21:58:07
1839 跟贴 1839

河南老君山月薪6万元招“云海观察员”：包吃包住，每天拍拍云海发发视频

大风新闻 2026-07-08 09:08:03
144 跟贴 144
“77万条未读消息”事件后，企业微信紧急上线“拉群确认”机制

界面新闻 2026-07-08 10:14:57
15 跟贴 15
黄冈男子在12楼家中被龙卷风吸出摔至草丛，妻子求助：想找间有热水的安置房

潇湘晨报 2026-07-07 22:53:21
94 跟贴 94
视频丨我国锂电池领域开拓者陈立泉院士：书写中国新能源奋进传奇

澎湃新闻 2026-07-08 12:04:05
2 跟贴 2
告别高善文：三十载把脉经济冷暖，一代“宏观旗手”落幕

南方都市报 2026-07-08 12:37:13
1 跟贴 1
广州举行云溪植物园、云萝植物园门票收费标准方案听证会

南方都市报 2026-07-07 13:48:11
337 跟贴 337
曝自由市场开启前几周詹姆斯仍认为自己有八成把握留在湖人

北青网-北京青年报 2026-07-07 20:23:08
172 跟贴 172
打卡 | 未来五年，如何建设旅游强国？

学申论的谈妹 2026-07-08 11:37:41
1 跟贴 1
网传“新能源汽车智驾芯片自主化率不低于70%”系谣言（2026·07·07）

今日辟谣 2026-07-07 17:14:14
153 跟贴 153
岚图梦想家9官宣命名，以“智尊旗舰MPV”定位50万级

齐鲁壹点 2026-07-08 10:51:35
3 跟贴 3
“倒贴99元替别人遛狗”，年轻人捧红这门赔本生意

新周刊 2026-07-08 13:10:51
0 跟贴 0
这一次广西洪灾，被实名举报“假慈善”的韩红，打了多少黑粉的脸

社会日日鲜 2026-07-08 13:10:21
0 跟贴 0

埃及足协向国际足联正式提出申诉，要求调查对阿根廷比赛中的“严重误判”，将该主裁判及裁判组逐出本届世界杯；埃及头号球星未跟风批评

埃及足协向国际足联正式提出申诉，要求调查对阿根廷比赛中的“严重误判”，将该主裁判及裁判组逐出本届世界杯；埃及头号球星未跟风批评

极目新闻

2026-07-08 10:38:10

贴脸开大！比利时队嘲讽美国队：来“推翻试试”

贴脸开大！比利时队嘲讽美国队：来“推翻试试”

鲁中晨报

2026-07-07 17:02:11

埃及暴怒炮轰裁判！刘建宏：弱国无外交国际足联想让阿根廷晋级

埃及暴怒炮轰裁判！刘建宏：弱国无外交国际足联想让阿根廷晋级

念洲

2026-07-08 07:17:33

巴媒称内马尔世界杯前签了8份广告合同，因巴西队出局损失上亿美元，“六冠英雄”纪录片也泡汤

巴媒称内马尔世界杯前签了8份广告合同，因巴西队出局损失上亿美元，“六冠英雄”纪录片也泡汤

中国能源网

2026-07-07 16:04:12

强制企业按实发工资缴社保，最终是员工承担了所有。

强制企业按实发工资缴社保，最终是员工承担了所有。

HR蔷薇

2026-07-08 09:20:36

车位被占反遭对方报警，为什么守规矩的人维权这么累？

车位被占反遭对方报警，为什么守规矩的人维权这么累？

观察者网

2026-07-07 16:33:15

广西水灾，胡锡进是最大功臣！

麦杰逊

2026-07-07 16:58:07

中国电影终于把自己玩死了

浪子说

2026-07-07 00:05:03

美加墨世界杯8强全落位，金球奖悬念也不大了，将在以下6人中诞生

美加墨世界杯8强全落位，金球奖悬念也不大了，将在以下6人中诞生

球场没跑道

2026-07-08 11:33:45

埃及头号球星萨拉赫赛后保持克制，未跟风批评裁判：我不想过多评论，大家都亲眼见证了全过程

埃及头号球星萨拉赫赛后保持克制，未跟风批评裁判：我不想过多评论，大家都亲眼见证了全过程

红星新闻

2026-07-08 10:08:21

中共中央批准，周立伟跨省履新！两个省级领导班子同日调整

中共中央批准，周立伟跨省履新！两个省级领导班子同日调整

上观新闻

2026-07-08 12:13:11

清华“丘班”，爆出大瓜

Dr小鱼

2026-07-06 22:43:34

埃及足协向国际足联提出申诉，指责裁判导致其世界杯出局

埃及足协向国际足联提出申诉，指责裁判导致其世界杯出局

红星新闻

2026-07-08 10:51:23

裁员10万人，“国民神车”扛不住了

裁员10万人，“国民神车”扛不住了

蒋东文

2026-07-07 22:53:00

6队大交易！米德尔顿3年1760万签换重返奇才拉塞尔被送往灰熊

6队大交易！米德尔顿3年1760万签换重返奇才拉塞尔被送往灰熊

罗说NBA

2026-07-08 08:49:48

马斯克有句话点醒过我“如果今天我破产了，绝对不会去找工作，而是去做一件能快速产生现金流，并且可以复制放大的事。”

马斯克有句话点醒过我“如果今天我破产了，绝对不会去找工作，而是去做一件能快速产生现金流，并且可以复制放大的事。”

LULU生活家

2026-07-07 20:59:47

土壤饱和、山洪暴发：横州六蓝水库为何出现50米缺口？

土壤饱和、山洪暴发：横州六蓝水库为何出现50米缺口？

猫头鹰视频

2026-07-07 20:47:31

埃及主帅怒批：公平去哪了?黑哨没人管锋霸：FIFA保送阿根廷夺冠

埃及主帅怒批：公平去哪了?黑哨没人管锋霸：FIFA保送阿根廷夺冠

风过乡

2026-07-08 03:31:44

中国洲际导弹发射数小时后，美国终于发声了，但却让日本感到心寒

中国洲际导弹发射数小时后，美国终于发声了，但却让日本感到心寒

春日在捕月

2026-07-07 21:37:48

李佰平任常州市委书记

环球网资讯

2026-07-08 12:22:08

AI产业主平台领航智能+时代

15636文章数 66949关注度

往期回顾全部

数码要闻

NVIDIA确认下代Rosa CPU采用Rigel内核，单核性能再提升

头条要闻

牛弹琴：全世界哭笑不得北约被骂懵中国又"躺枪"

头条要闻

牛弹琴：全世界哭笑不得北约被骂懵中国又"躺枪"

体育要闻

阿根廷被埃及埋了一半，死里逃生

娱乐要闻

黄子佼逍遥法外，暗网黑产仍在上新

财经要闻

科技新贵们，买爆深圳豪宅

科技要闻

GLM5.2用量暴涨后，传智谱也想自研AI芯片

汽车要闻

定名岚图梦想家9！岚图全新旗舰MPV来袭

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

时尚

艺术

本地

军事航空

教育要闻

七林最高220（满分）！北二外267已录取！四文400已录取！川师附203已录取！教科附205已录取！七万201已录取…成都部分项目班录取分数整理

小黑裙，让人从夏美到秋！

艺术要闻

张奇风景油画写生

本地新闻

国内足球之旅？这座小城给你高分答案

军事要闻

美军发动空袭后伊朗称击落一架美军“死神”无人机

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版