网易首页 > 网易号 > 正文 申请入驻

智商136,o3王者归来!变身福尔摩斯「AI查房」,一张图秒定坐标

0
分享至

新智元报道

编辑:定慧 犀牛

【新智元导读】AI智商再创新高!OpenAI o3以惊人的136分刷新门萨智商测试纪录,超越不久前登顶的Gemini 2.5 Pro。更令人瞩目的是其强大的图像理解能力:仅凭一张无EXIF信息的菜单或风景照,o3就能精准推理并反向定位拍摄地点,引发了用AI玩「照片寻址(GeoGuessr)」的新热潮。

AI智商再升级!

刚发布的OpenAI o3就打破AI智商分数纪录,门萨智商测试得分高达136。

在私有数据集(离线)问题上的得分也有116分。

均在所有模型中排名第一。

相比之下,人类的平均智商为100。

榜首位置还没坐热,就被o3踢了下去。

实际上,从OpenAI o1模型开始,AI的智商测试得分就开始超越人类平均水平了。

随后,推理模型变得越来越主流,这些模型在回答问题前学会了先「思考」,所以变得越来越聪明。

如此聪明的AI能做出什么惊艳的事呢?

o3发布后,大批网友开启了脑洞。

无EXIF菜单找到餐馆位置

知名投资人Deedy发帖称,他只给了一张没有标题及EXIF数据的菜单图片,o3就能够上网搜索、匹配菜单项并找到了这家中餐馆的位置。

「真的是让我大吃一惊。」

这是一张手绘风格的菜单,上面还有汉字。o3就凭这张菜单就找到了餐厅的名字及地址。

随后,网友GoldenHawk使用o4-mini做了一样的测试,也都成功了。

「我以为它只是非常擅长图像匹配——但如果你展开推理部分,它进行了疯狂的网络搜索,列出了许多候选餐厅,包括一个在纽约市的。」Hawk写道。

o3化身大侦探?用照片「查房」

每次OpenAI的更新都会带起一波「潮流」——AI的新能力让人们很兴奋。

上一次是GPT4o原生能像能力发布后引发的「吉卜力」热潮,最后成为了一场全球网友的狂欢。

而这次o3的发布又引发了一波新的潮流——反向地点搜索。

人们正在使用ChatGPT o3来确定照片中场景的位置——o3能够「理解」上传的图像,还可以裁剪、旋转和放大照片。

o3就像一个侦探一样,不断从照片的蛛丝马迹中发现线索。

比如给o3一张不带有任何地理信息的照片,让它猜一下这是哪里。

上图左侧照片:显示了一个从室内窗户向外拍摄的海岸景色。

可以看到长长的沙滩、蜿蜒通往海滩的阶梯步道、远处的海岬以及近处的一些植被(可能是高尔夫球场的一部分)。窗边还有一个插着花的花瓶。

中间是o3对这个照片分析结论:拍摄地点很可能是在加利福尼亚州奥兰治县达纳角 (Dana Point) 的丽思卡尔顿拉古纳尼格尔酒店 (Ritz-Carlton Laguna Niguel) 内,可能是在RAYA或180blũ餐厅附近。

o3是怎么判断的呢?它指出了几个匹配的特征:

  • 西北-东南走向、长而平缓弯曲的盐溪海滩 (Salt Creek Beach)。

  • 从酒店通往公共海滩的米色、之字形的露台式步道和楼梯。

  • 海滩内陆的草地,即帝王海滩高尔夫球场 (Monarch Beach Golf Links)。

  • 远处的岩石海岬(达纳角海岬)。

最后,o3还给出了酒店的地址(One Ritz-Carlton Drive, Dana Point, CA 92629)和大致的经纬度坐标(北纬 33.482°,西经 117.721°)。

然后网友用Google地图确认了一下,标记了达纳角—帝王海滩 (Dana Point-Monarch Beach) 的位置。

实际地图显示的位置与o3提供的信息基本一致。

这就非常Amazing了,如果o3的图像识别能力+无敌的全球数据库,o3岂不是能认出地球上的任何地方?

更多的网友加入这波新的潮流——让o3开始玩起了GeoGuessr!

网友上传了一张在瀑布前自拍的照片,并向o3提问:「这张照片是在哪里拍的?」

o3给出了最佳猜测:亚利桑那州佩森市(Payson, Arizona)北部的Water Wheel Falls / Ellison Creek Cascades。

o3给出它的推理逻辑和线索关键点,包含了:

  • 视觉线索: 浅层滑梯式瀑布,落差约15英尺,落入深色水潭——匹配点: Water Wheel Falls有类似的倾斜花岗岩水道流入翠绿水池。

  • 视觉线索: 粉褐色花岗岩壁,带有垂直裂缝——匹配点: 这是该峡谷标志性的莫戈隆边缘(Mogollon Rim)花岗岩。

  • 视觉线索: 瀑布底部横卧着一根巨大的漂白原木——匹配点: Water Wheel Falls有一根标志性的“阶梯状”原木,已在那里停留多年(引用了The Outbound的信息)。

  • 视觉线索: 瀑布上方有稀疏的河岸灌木和亚利桑那松林——匹配点: 这是埃里森溪(Ellison Creek)走廊的典型植被。

这个推理能力还是很惊艳的!如果换我们来猜很难想到意识到这么多的视觉线索,即使想到了,也无法准确对应。

当然这个能力并不是次次都100%的准确。

但即使如此,这一次的潮流和「吉卜力」完全不同——对于现实世界的解释总是带有一些风险的。

如果有人把这个能力用作不正当用途,以目前OpenAI的对待类似现象的「佛系态度」,目前没有任何防护措施。

目前唯一避免这个风险的办法就是寄希望于o3猜错吧。

图片位置评测——GeoBench

如果不杞人忧天的考虑上面的风险,用o3识别图片的拍摄位置还是非常好玩的。

很火!

那么是只有o3有这个能力吗?并不是,之前很多模型都可以识别照片信息,只不过每次新模型发布后都有「新手保护期」,火一把是肯定的。

这不o3玩GeoGuessr刚火,就上榜了识别图片拍摄位置的评测——GeoBench。

GeoBench测试了一系列模型。

从上表中可以看到一个品牌的模型脱颖而出:谷歌的模型。

GeoBench的作者认为这是有道理的——因为Gemini拥有谷歌街景视图。

并且在他们最近的模型中对视觉的关注,Gemini很可能使用了大量的谷歌街景图像进行训练。

从排行榜来看,在比较容易的「acw-02025025」数据上,目前Gemini 2.5 Pro Experimental处于领先地位。

o3排名第7,落后o1和Claude。

如果你想体验o3的真实水平,不妨把它和谷歌放一起比较一下。

9:50还是8:50?

如上所述,o3的能力很强,但即使对于o3这样的模型来说,解决一个对人类看似简单的问题仍然非常困难。

资深AI工程师Tibor Blaho就称,让o3识别一张有反光的时钟图片上的时间仍然十分困难。

他还顺便说了一下,o3进行的「图像分析」(裁剪、缩放等)背后使用的是Python工具。

从视频可以看出这是一张有着轻微反光的时钟图片,对人类而言,还是很好认出时间的。

而o3却足足用了7分21秒,中间进行了大量的推理思考,多次编写python代码片段图片对图片进行处理。

不过好在最终给出了正确答案。

当Blaho使用o4-mini-high进行测试时,它在思考了30秒后,给出了一个看起来还「挺靠谱」的错误答案。

当然,o4-mini也有很快给出准确时间的例子。比如网友Mel Gibson 2.0的测试。

不论如何,目前o3和o4-mini在有些视觉推理问题上的表现还不稳定。

不过相信OpenAI凭借其强劲的工程能力,加上o3、o4-mini顶尖的基础性能,这些稳定性问题很快会被优化掉。

参考资料:

https://x.com/AISafetyMemes/status/1912876239322218973

https://x.com/AISafetyMemes/status/1912875957897003354

https://x.com/ficlive/status/1912863028141244850

https://x.com/btibor91/status/1912897373736734997

https://geobench.org/

https://x.com/deedydas/status/1912607561947230575

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
警惕!山西流感H3N2毒株流行 学生为主要高发人群

警惕!山西流感H3N2毒株流行 学生为主要高发人群

极目新闻
2025-11-15 11:22:33
安世中国:仍有能力、有信心发放全体员工足额工资和福利

安世中国:仍有能力、有信心发放全体员工足额工资和福利

界面新闻
2025-11-14 17:39:20
李诞直播徐志胜私事,难堪话题引多人围观,徐志胜的回击很有水平

李诞直播徐志胜私事,难堪话题引多人围观,徐志胜的回击很有水平

娱乐独家内幕
2025-11-14 03:30:59
杭州女子买小米SU7后巨后悔,网友:订金给他,保命要紧

杭州女子买小米SU7后巨后悔,网友:订金给他,保命要紧

热点菌本君
2025-11-15 16:02:03
越秀领导,被央企告了!

越秀领导,被央企告了!

风声声
2025-11-14 16:00:55
2-0!阿根廷夺3连胜为今年收官 38岁梅西传射+差3助成历史助攻王

2-0!阿根廷夺3连胜为今年收官 38岁梅西传射+差3助成历史助攻王

我爱英超
2025-11-15 06:02:29
前TVB小生地铁被偶遇!染金发挺肚腩!网友盛赞:胖了还是帅

前TVB小生地铁被偶遇!染金发挺肚腩!网友盛赞:胖了还是帅

我爱追港剧
2025-11-13 08:07:42
中方定性 “侵略”!日本政客踩台海红线,外援全扑空还遭俄补刀

中方定性 “侵略”!日本政客踩台海红线,外援全扑空还遭俄补刀

吃货的分享
2025-11-16 02:39:47
黄磊回应暂停《向往的生活》,节目嘉宾一场戏仅挣300元不敢体检

黄磊回应暂停《向往的生活》,节目嘉宾一场戏仅挣300元不敢体检

陈意小可爱
2025-11-15 16:21:46
魔兽时光服:528大佬纷纷发难,雷火开启退款通道,进服资格保留

魔兽时光服:528大佬纷纷发难,雷火开启退款通道,进服资格保留

胖哥游戏说
2025-11-15 17:47:45
陈伟霆母亲首次探望孙子,何穗亲自拍照热情迎接!

陈伟霆母亲首次探望孙子,何穗亲自拍照热情迎接!

小巍解说
2025-11-14 01:04:07
赛事点评,全运会女足决赛江苏女足是如何夺冠的

赛事点评,全运会女足决赛江苏女足是如何夺冠的

酷马西者野
2025-11-15 22:51:44
朝鲜今年对俄供弹锐减,乌情报称一半弹药“老旧”需翻新

朝鲜今年对俄供弹锐减,乌情报称一半弹药“老旧”需翻新

桂系007
2025-11-15 23:56:34
马筱梅透露:小箖箖总和她抱怨不想上体育课!筱梅也是没有办法了

马筱梅透露:小箖箖总和她抱怨不想上体育课!筱梅也是没有办法了

乐悠悠娱乐
2025-11-15 11:34:57
邓家佳在重庆吃烤鱼被偶遇,小姨妈气质绝了 脸小精致 美得恰到好处

邓家佳在重庆吃烤鱼被偶遇,小姨妈气质绝了 脸小精致 美得恰到好处

陈意小可爱
2025-11-16 03:34:50
就在今天!樊振东4-2王楚钦,创造全运会史无前例66年纪录,奇迹

就在今天!樊振东4-2王楚钦,创造全运会史无前例66年纪录,奇迹

侃球熊弟
2025-11-15 13:58:24
亏损17.9亿!北京1-9月住宿餐饮中小微企营收还在跌

亏损17.9亿!北京1-9月住宿餐饮中小微企营收还在跌

小星球探索
2025-11-15 19:18:30
关税突发,特朗普最新签署!降息,大消息!黄金暴跌,美股突变!

关税突发,特朗普最新签署!降息,大消息!黄金暴跌,美股突变!

证券时报e公司
2025-11-15 08:00:59
那年送女同学回家遇山洪,她脱光烤火命令:转头是君子偷看就娶我

那年送女同学回家遇山洪,她脱光烤火命令:转头是君子偷看就娶我

云端小院
2025-11-14 09:01:52
全运会激烈战报:陈梦逆转王曼昱,孙颖莎憾负朱雨玲

全运会激烈战报:陈梦逆转王曼昱,孙颖莎憾负朱雨玲

7号观察室
2025-11-15 21:00:20
2025-11-16 04:35:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13877文章数 66247关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

大量日本民众围堵首相官邸 大喊:高市早苗下台

头条要闻

大量日本民众围堵首相官邸 大喊:高市早苗下台

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

时尚
本地
游戏
房产
军事航空

有品味的中年女人,穿衣都有4个共同点,看看你掌握了几个

本地新闻

沈阳都市圈“冷资源”点燃“热联动” “组团”北上“圈粉”哈尔滨

解说杯:打野远胜前职业,GBS战胜RHPA,晋级决赛

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

军事要闻

解密福建舰电磁弹射背后的硬核支撑

无障碍浏览 进入关怀版