网易首页 > 网易号 > 正文 申请入驻

o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI“最新最强版”推理模型o3-pro,实际推理能力到底有多强?

全球首位全职提示工程师Riley Goodside来给它上难度:

  • 说出歌手Sabrina Carpenter的一首歌的歌名,回答这个问题时,每个单词最后一个字母连起来看,也能对应这首歌名

结果,o3-pro在经过4分25秒的推理过后,成功给出正确答案。

经Sabrina Carpenter实测,o3只能做对个大概,通常只能把最后几个字母凑对。

该测试引来OpenAI前AGI Readiness团队负责人Miles Brundage的转发关注。

虽然人已经不在OpenAI了,但Miles Brundage还是替老东家直接开大阴阳苹果:如果这都不叫推理那什么叫推理。

PS:苹果前几天发了个新研究,用汉诺塔等四个小游戏测试大模型,称推理模型全都没在真正思考,只是另一种形式的“模式匹配”,所谓思考只是一种假象。

除了网友实测外,各大评测榜单已陆续同步更新排名。

总结来看,和官方给的测试结果略有不同。

官方测评中,o3-pro超越o3、o1-pro,成为当前最擅长编码的OpenAI模型。

而在大模型权威榜单LiveBench上,o3-pro和o3编码平均得分几乎无差,o3-pro仅有0.07分的优势。

智能体编码平均得分方面,o3-pro甚至大比分落后于o3(31.67 vs 36.67)。

亚马逊云科技&谷歌前高管Bindu Reddy表示:

  • 主要是它在智能体这块不太行,工具使用也不咋擅长。
  • 昨天的大新闻不是o3-pro ,而是o3降价了!!

另外,针对大模型长上下文理解的基准测试Fiction.LiveBench也放榜了。

o3-pro在较短上下文场景下表现很出色,较o3有所提升。

然鹅,192k超长上下文处理依然是Gemini 2.5 Pro占优势,Gemini 2.5 Pro得分90.6,而o3-pro仅得分65.6。

让人困惑的是,在这个基准测试中,不管是o3-pro还是o3,在16k上下文中分数都下降了,到了32k,两个模型得分又回到了100。

除此之外,苹果&SpaceX前工程师Ben Hylak之前分享o1使用心得,得到不少网友关注,连奥特曼、Brockman都转发了。

这次o3-pro他同样没放过,而且又被奥特曼翻了牌子。

苹果&SpaceX前工程师分享使用心得

苹果&SpaceX前工程师Ben Hylak的分享,好似恰巧解释了o3-pro的官方测评和各大评测榜单结果有所出入的问题。

Ben Hylak曾任SpaceX软件工程师、苹果VisionOS人机交互设计师,目前在创业为AI产品提供分析服务。

此前o1 pro推出满血$200/月版本时,Ben Hyla第一天就交了钱,整整测试了一天。

结果体验很糟糕,很多人表示同感,但也有人强烈反对。Ben Hylak在与持不同观点人激烈讨论了一番后,意识到自己的使用方法完全错了。

  • 我还在把o1当聊天模型来用,但o1已经不是聊天模型了。

后来,Ben Hylak从讨厌o1转变成了每天都在用它解决最重要的问题。这件事儿的反转,让Ben Hylak测试o3-pro更加用心。

他透露这次自己一周前就已经提前接触到了3-pro,o3-pro“以不同方式测试,实际体验会有所不同”。

从经常测评大模型的经验来看,Ben Hylak认为“模型能力的发挥高度依赖背景信息”,他表示自己目前使用o3关键就是:

  • 不把它当聊天对象,而是当作报告生成器。给它背景信息、设定目标,然后让它自由发挥。

由此,要看出o3-pro的真正实力,得给它多得多的背景信息。然鹅,Ben Hylak手头的信息素材都快榨干了。于是,Ben Hylak换了种方法:

他和他的联合创始人Alexis花时间把他们在Raindrop所有历史会议记录、目标全翻出来,甚至录了语音备忘录,一股脑塞给o3-pro,让它做规划。

结果,被o3-pro惊艳到了:

  • 它输出的计划精准踩中我们想要的点——目标数据、时间排期、优先级排序,连“必须砍哪些业务”都写得明明白白。
  • o3给出的计划合理、说得通;但o3-pro给出的计划足够具体、有依据,真真切切改变了我们对未来的思考方式。
  • 这在评估中很难体现出来。

除此之外,Ben Hylak认为如今的模型在孤立环境下表现已然十分出色,简单测试难不倒它,真正的挑战在于将其融入社会。

这种融入主要体现在工具调用方面,即模型与人类、外部数据以及其它AI协作得如何

经测试,Ben Hylak表示o3-pro在这方面有了实实在在的提升——

“它在识别自身所处环境、准确说明可使用的工具、知晓何时需询问外部世界信息(而非假装自己掌握相关信息或权限 )以及为任务挑选合适工具等方面,表现都明显更优。”

下面是展示示例。Ben Hylak让o3-pro和o3做一个日历。

o3-pro显然能更好地理解其所处环境的边界,明确表示:

在这个聊天窗口中无法显示实时交互的HTML预览(我的环境仅支持纯文本和代码片段)

并且给出了要查看渲染后日历的详细步骤操作,还描述了用户将看到的视觉内容。

相比之下,o3明明做不到还装能做,表示可以“创建日历小组件的实时交互预览”。

下面这个例子,Ben Hylak让模型找今年关于Borges的Substack文章。

o3-pro同样明确表示进行实时Substack查询所需的网页搜索工具在当前环境未启用,所以无法直接获取最新链接。

而o3表示搜索了,但没有找到2025年发布的Borges的Substack文章。

Ben Hylak还发现,需要给o3-pro提供更多上下文,要是不提供足够的上下文,它会出现过度思考的情况。

  • 它在分析方面超强,也很擅长借助工具做事,但自己直接动手做事就没那么在行。我觉得它会是个超棒的协调者。不过,有些ClickHouse SQL相关问题,o3处理得更好。实际效果因人而异。

o3-pro给Ben Hylak带来的体验与Claude Opus、Gemini 2.5 Pro相比,都不同。

Ben Hylak认为Claude Opus虽体量庞大,但没让他真切感受到这种“大”的独特价值;而o3-pro的输出更优,仿佛两者完全处于不同的竞争维度。

他继续补充道,OpenAI正沿着强化学习路径深挖(比如Deep Research、Codex项目),不只是教模型“怎么用工具”,更是教它们“思考何时该用工具”。

最后,Ben Hylak总结认为推理模型的Prompt技巧核心逻辑不变,之前他写的o1提示指南,现在依然适用o3-pro。

首先,“语境”是一切,就像给“饼干怪兽”喂饼干,精准投喂才有效,它是一种引导大语言模型激活“类记忆能力”的方式,但因为足够精准,所以效果拔群。

另外,系统提示的影响极大。如今模型的可塑性超强,那些能让模型“理解自身所处环境与目标”的LLM调教框架,能产生远超预期的价值。


[1]https://www.latent.space/p/o3-pro
[2]https://x.com/Miles_Brundage/status/1932889744306024815
[3]https://x.com/ficlive/status/1932588629768982751
[4]https://x.com/bindureddy/status/1932889892562088086

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
19岁王钰栋再谈留洋:出国非易事 有合适机遇才去 不关注外界批评

19岁王钰栋再谈留洋:出国非易事 有合适机遇才去 不关注外界批评

我爱英超
2026-03-26 18:48:21
巴基斯坦外长说美伊正进行间接谈判

巴基斯坦外长说美伊正进行间接谈判

新华社
2026-03-26 18:55:07
联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

扬子晚报
2026-03-26 07:27:54
为何越来越多有钱人,宁愿买两套房和父母住对门,也要搬离别墅?

为何越来越多有钱人,宁愿买两套房和父母住对门,也要搬离别墅?

装修秀
2026-03-26 14:05:47
戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

娱乐圈笔娱君
2026-03-25 10:46:06
新版《哈利·波特》黑人斯内普教授首曝光!梳脏辫戴金戒引热议,演员本人却称被死亡威胁?

新版《哈利·波特》黑人斯内普教授首曝光!梳脏辫戴金戒引热议,演员本人却称被死亡威胁?

英国报姐
2026-03-26 21:26:58
伊朗抓捕14名叛国分子

伊朗抓捕14名叛国分子

财联社
2026-03-26 20:04:13
内部人士:NBA或将取消快船队科怀·伦纳德的“无效”合同

内部人士:NBA或将取消快船队科怀·伦纳德的“无效”合同

好火子
2026-03-25 23:51:43
越扒越猛!释永信在少林寺有多爽,你根本想不到!终于落到这下场

越扒越猛!释永信在少林寺有多爽,你根本想不到!终于落到这下场

林轻吟
2026-03-26 07:34:21
没想到,张雪峰的离开,意外让蓝盈莹采访火了,才懂她活得多清醒

没想到,张雪峰的离开,意外让蓝盈莹采访火了,才懂她活得多清醒

林轻吟
2026-03-26 07:22:50
郑裕彤家族为什么不自救?不是说香港豪门隐形资产很多么?

郑裕彤家族为什么不自救?不是说香港豪门隐形资产很多么?

担扑
2026-03-26 17:02:51
十二届上海市委第八轮巡视启动,将对21家市管单位开展常规巡视

十二届上海市委第八轮巡视启动,将对21家市管单位开展常规巡视

上观新闻
2026-03-26 19:41:07
张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

极目新闻
2026-03-26 20:56:20
艺高人胆大!比赛剩12秒2队战平,鬼才少帅巧换一人,绝杀了对

艺高人胆大!比赛剩12秒2队战平,鬼才少帅巧换一人,绝杀了对

金山话体育
2026-03-26 22:21:04
你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

夜深爱杂谈
2026-02-01 18:57:04
德媒:德总统批评美以违反国际法 伊朗外长点赞

德媒:德总统批评美以违反国际法 伊朗外长点赞

参考消息
2026-03-25 21:54:32
大陆发布统一后安排,蔡正元赶在坐牢前,留下5个字,措辞不寻常

大陆发布统一后安排,蔡正元赶在坐牢前,留下5个字,措辞不寻常

影孖看世界
2026-03-26 23:36:59
美团去年净亏234亿元,核心本地商业经营亏损69亿元

美团去年净亏234亿元,核心本地商业经营亏损69亿元

澎湃新闻
2026-03-26 18:28:26
皮衣+裙,高级到炸

皮衣+裙,高级到炸

Yuki女人故事
2026-03-25 21:59:58
很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

岐黄传人孙大夫
2026-03-26 20:45:03
2026-03-27 00:11:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
手机
房产
时尚
家居

教育要闻

天天学习|走进课堂的“大朋友”

手机要闻

OPPO K15 Pro 系列定档,岚影呼吸灯搭配金属中框

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

400万人爱过的女孩,被黄谣网暴180天后

家居要闻

傍海而居 静观蝴蝶海

无障碍浏览 进入关怀版