网易首页 > 网易号 > 正文 申请入驻

满血版o3探案神技出圈,OpenAI疯狂暗示:大模型不修仙,要卷搬砖了!

0
分享至

编辑|Sia

这份工作的魅力之一,就是能第一时间体验到最新、最前沿的大模型。 当然,发布初期难免有些社死时刻,但这次,例外。

就在前天深夜,OpenAI 重磅空降 o 系列模型的最新成员:o3 与 o4-mini,也是迄今为止他们最聪明的模型。

人类的进化,始于制造和使用工具。o3 和 o4-mini 也是如此,他们的「聪明」源于学会了使用工具

模型能自主调用联网搜索、记忆系统、代码解释器等 ChatGPT 原生工具,实现任务闭环处理。你只需要布置任务,然后可以放心起身去倒杯咖啡——回来时,高质量结果已在屏幕上静候

而且,它们还有一个关键升级:视觉思维能力上线。 不仅能看图识物,更能像刑侦人员一样,从图像中分析、推理、挖掘信息。

要说差异,o3 是满血旗舰,性能拉满;o4-mini 是高性价比小钢炮( GPT-o4 的小型化版本),体积更小、价格更优,但性能不打折——尤其在数学和编程任务上,表现出乎意料的强劲。

网友直呼:一周之内,它就成了我处理绝大多数任务的首选模型!

写作时,我依旧用 GPT-4.5;编程时,还在用 3.7 Sonnet;但除此之外,我一直在用o3

免费用户,每天至少有一次体验o3机会,记得选择 reason。

据说,几周后 OpenAI 还将来发布 o3‑pro,提供更全面的工具支持。 所以,我们可以窥见到一个趋势:

接下来,大家卷的大方向会更务实,会利用强化学习教会模型使用工具,解决现实问题。

所以,后面展示的这些案例——包括我们实测 + 网友反馈——也都是为了帮助大家更直观地理解:

大模型正在变得强大,不是因为「懂得多」、「知道一切」,而是因为「能连续、递进地使用多个工具」去搞定更复杂的问题。

论读图,o3 目前绝对是 No.1。

先上开胃菜。随手在办公室拍了张照片,故意把书放歪,先问 Google Gemini ( Gemini 2.0 Flash ) 书名是啥?

哥们儿完全识别不了(左); 换了 o3 ,轻松搞定(右)。

最精彩的部分是 o3 思考的模样,感觉和人的动作很像:

翻过来、倒过去、剪裁、拉近、放大,想尽办法用工具看清书脊上的字。

成功识别书名后,继续询问价格、哪里可以买得到?它又自动调用网页搜索,寻找关键信息:

很快完成任务,豆瓣评分都给找好了。


不过,真正让我们感受到o3 是真· Agent的,还是它在某些极限任务上的表现——比如:地理猜测能力

我们上传了一张悬疑剧《沙尘暴》的剧照,画面里能看到的,只有:

  • 一位模糊的警察;

  • 一辆模糊的车;

  • 高压电线;

  • 以及,大片几乎没有细节的灰黄色背景。


连人看了都只想说一句:这能猜出啥?我们却对 o3 发出指令:Geoguess this place.

o3 启动了,可以清楚看到它先看什么、怎么看、看到了什么、想到了什么。

看的结果一刹那,我飚了一句 hollyshit !

我当然知道这部剧是在甘肃瓜州等地拍摄的,但万万没想到一个 AI 可以凭借电网特征、垂直光柱、戈壁地形等线索,给出这么精确定位——

敦煌熔盐塔式光热发电站周边,还有地理坐标!

顺便送上了相关网页链接,点进去就是发电站介绍。

这已经不是图像识别精度的问题,而是能基于视觉线索展开因果、社会文化背景等多维推理,像探员一样,从一帧图里挖出更多信息。这也是「模型即 Agent」的价值所在

作为对比,这是没能触发 Agent 能力的结果:细节、精准度实在差太多。和人一样, 大模型也会偷懒、划水。


精彩还在继续。

《聪明的沃利》是一套由英国插画家 Martin Handford 创作的儿童书籍,目标就是在一张人山人海的图片中找出一个特定的人物沃尔多( Waldo ),多久才能找到沃尔多?10秒?30秒?一分钟?

这回,我们让 o4-mini 玩了把《 Waldo 在哪里?》,请从图中找到与周杰伦最神似的人。


图片以四倍速展示

你觉得 o4-mini 找到的这个人物像周董吗?

o3也能玩儿

真是有了python 工具在手,啥都不怕。

一次性找到一条穿过这个 200x200 迷宫的路径,也不在怕的。

提示语:Solve this maze by adding a red dotted line for the solution path

甚至还能出个小动画,让结果「动」起来,比静态图直观多了。

?o3 也没问题。虽然它不是文生视频模型,但你可以让它绘制寻路路径的帧图,将它们做成 GIF 或者MP4 下载。


来自X @gantrols

这个交通事故分析的例子,真的是现实落地典范。 一张事故现场图,就能帮你分析事故原因、判断责任。图像理解+因果分析+法律知识,一锅炖。


来自X @
@op7418

说到出色的推理能力,据说,这是一个 只有 o3 能答对的题:

有一天,一个女孩参加数学考试只得了38分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了88分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她巴掌,怒吼道:你这8怎么一半是绿的一半是红的,你以为我是傻子吗?女孩被打后,委屈地哭了起来,什么也没说。 过了一会儿,父亲突然崩溃了。 请问:这位父亲为什么过一会儿崩溃了?

最近,,还能免费体验,它也善于调用工具,就先让它试试。

思考过程中,它确实意识到了色盲问题,但终究没能捕捉到这个遗传信号里隐藏的关键信息,进一步展开推理。

错失靶点,结论又回到了「因内疚而崩溃。」

换了 o3, 自动执行搜索资料,敏锐捕捉到遗传信号里的疑点,推理出更惊人的事实。

当然,它也不是每次都这么聪明——有时也会偷懒,给你瞎胡扯一通(如下)。但当它真的认真起来,那推理能力是真的惊艳。

GPT 4o 的 Deep Research 是目前最强大的科研助手。现在,有了工具能力加持, o3 就像精简版 Deep Research。

比如最近我想深挖斯诺登的《永久记录》,就请它做了一份反向大纲,挑出那些「网上很难找到,但书中明确存在的观点」——结果还真有,比如:

隐藏线索,电子游戏(无法后退)与数字系统不可撤销的暗和。

容易忽略的观点,本书后半出现了日记、谈到了爱,这种「情感连接」和贯穿全书的「数据连接」构成了强烈对比。

提示语:读完这本书的全部内容。给写一份详细的反向大纲,找出人们通常会忽略的关于这本书的有趣且令人惊讶的主题、观点等等(比如,你在网上任何地方都找不到但肯定在书中存在的内容,也许是作者放进去但大多数人没有注意到的内容)


最后,丢一点点丑话。

就算咱是尊贵的 20 美元月付用户,也不能保证每次都能触发视觉推理能力,成功概率也跟赌博差不多。

为什么会这样?

网友各有说法,比如和输入语言有关、任务类型有关。我们的推测,这类服务总归是个非常耗费算力的事情, 官方不可能四平八稳响应每一个任务,应该会想办法「节流」。

但,每天头几个任务,一般还是可以顺利激活。

另外,就是幻觉这个问题。o3 有时会以为自己用了工具,但实际上并没有。

按有的网友说法,「o3 经常为了满足用户请求而编造操作,并在用户质问时精心辩解这些编造行为的合理性。」

总的来说,现在的大模型正在冲击一个新阶段:更智能,更务实,仍需要咱「带脑子」使用,合理管理预期。

© THE END

转载请联系本公众号获得授权

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
老朱家血统可能不干净……

老朱家血统可能不干净……

汉周读书
2026-01-31 12:55:06
汪小菲又曝大瓜!葛思齐称其半夜给自己打电话,不理解大S离婚

汪小菲又曝大瓜!葛思齐称其半夜给自己打电话,不理解大S离婚

不八卦掌门人
2026-02-01 15:46:12
什么叫洗钱?网友:比亚迪造卫星一年20亿,拍一个减肥电影要3亿

什么叫洗钱?网友:比亚迪造卫星一年20亿,拍一个减肥电影要3亿

夜深爱杂谈
2025-12-11 20:39:39
2014年,黄海波刚走出收容所的大门,曲栅栅迎了上来

2014年,黄海波刚走出收容所的大门,曲栅栅迎了上来

忠于法纪
2026-01-20 18:30:40
备战同曦!李弘权参加踩场,卢伟单独执教小偰,郭昊文与众人叙旧

备战同曦!李弘权参加踩场,卢伟单独执教小偰,郭昊文与众人叙旧

篮球资讯达人
2026-02-01 15:36:50
“真正的中国人是付钱的!”日本人竟冒充国人在巴基斯坦骗吃骗喝

“真正的中国人是付钱的!”日本人竟冒充国人在巴基斯坦骗吃骗喝

有书
2026-01-31 16:45:03
92岁前法官独居上海养老院,独子留英40年开公司,他竟说不后悔

92岁前法官独居上海养老院,独子留英40年开公司,他竟说不后悔

大鱼简科
2026-01-23 16:41:32
反向收割?印度人把中国网贷当作“国家补贴”,坏账率高达80%!

反向收割?印度人把中国网贷当作“国家补贴”,坏账率高达80%!

胖哥不胡说
2026-01-20 11:47:25
昨日贵金属现史诗级暴跌不减市民抢购热潮,上海豫园老铺黄金门前有人裹着羽绒服带着露营椅彻夜排队,部分畅销款式已断货

昨日贵金属现史诗级暴跌不减市民抢购热潮,上海豫园老铺黄金门前有人裹着羽绒服带着露营椅彻夜排队,部分畅销款式已断货

纵相新闻
2026-02-01 03:17:02
千万别姐弟恋,很累!

千万别姐弟恋,很累!

果粉之家
2026-01-06 11:26:21
宋朝富裕全靠这个行业政策,连元朝都不愿废除,却让朱元璋给废了

宋朝富裕全靠这个行业政策,连元朝都不愿废除,却让朱元璋给废了

历史大学堂
2026-01-31 19:34:36
成人片单!五部被低估的“伦理神作”,把禁忌拍成了艺术

成人片单!五部被低估的“伦理神作”,把禁忌拍成了艺术

得心电影
2026-02-01 17:35:18
江苏南京一校花,身高162CM,体重47公斤,五官精致到无懈可击

江苏南京一校花,身高162CM,体重47公斤,五官精致到无懈可击

奇思妙想生活家
2026-01-31 14:53:58
金晨事件后续,内部聊天曝光,太抠门没谈拢,多段绯闻记者放实锤

金晨事件后续,内部聊天曝光,太抠门没谈拢,多段绯闻记者放实锤

不写散文诗
2026-01-30 15:15:56
勇士消息:库里最新伤情出炉,格林离队概率增加,悍将回归倒计时

勇士消息:库里最新伤情出炉,格林离队概率增加,悍将回归倒计时

冷月小风风
2026-02-01 11:48:45
华为宣布:最高降4000元!此前苹果开启大降价

华为宣布:最高降4000元!此前苹果开启大降价

每日经济新闻
2026-01-29 18:19:05
郭凤莲感叹:要是按照陈永贵书记的设想继续发展,大寨会走向何处

郭凤莲感叹:要是按照陈永贵书记的设想继续发展,大寨会走向何处

悄悄史话
2026-01-26 18:00:42
“流氓有文化更可怕”,退休老干部频繁联系女幼师,聊天记录曝光

“流氓有文化更可怕”,退休老干部频繁联系女幼师,聊天记录曝光

妍妍教育日记
2026-01-27 19:58:28
黄国昌成立竞选总部,柯文哲刚放狂言,民众党生变,美女博士暴怒

黄国昌成立竞选总部,柯文哲刚放狂言,民众党生变,美女博士暴怒

靓仔情感
2026-02-01 16:34:47
贵州毕节临街门面被砌墙封堵?官方通报:业主矛盾,已全部拆除

贵州毕节临街门面被砌墙封堵?官方通报:业主矛盾,已全部拆除

新京报
2026-02-01 17:34:07
2026-02-01 18:15:00
AI好好用 incentive-icons
AI好好用
探索人工智能应用场景及商业化
2095文章数 4431关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

开年首月连打张又侠等十"虎" 反腐没有"禁区特区盲区"

头条要闻

开年首月连打张又侠等十"虎" 反腐没有"禁区特区盲区"

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

时尚
旅游
手机
亲子
公开课

伊姐周六热推:电视剧《年少有为》;电视剧《有罪之身》......

旅游要闻

长丰草莓香飘淮南吾悦广场

手机要闻

别急着换机,只因下半年各大厂商都有大升级,这次等等党要赢了

亲子要闻

班主任察觉:全职妈妈与职场妈妈的育儿效果,二者天差地别

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版