网易首页 > 网易号 > 正文 申请入驻

OpenAI用3个松鼠漫画测出9家AI的「阅读理解」差距

0
分享至

同一张松鼠玩角色扮演的四格漫画,9个顶尖大模型给出的解读能差出多少?有人读出存在主义危机,有人连角色关系都搞混。这不是学术评测,是AI公司自己扔出来的压力测试。

测试设计很简单:四格漫画,两只松鼠假装自己是中世纪骑士。第一格介绍设定,第二格一只松鼠质疑"我们明明是松鼠",第三格另一只坚持"不,我是兰斯洛特爵士",第四格给出开放式结局。没有文字,纯靠视觉理解。

OpenAI的o3模型花了4分47秒,输出了一份1273字的文学分析。它识别出"松鼠-骑士"的身份错位,把这种假装解读为"对逃避现实的温柔批判",甚至扯上了加缪。分析结尾还给自己找补:"当然,也可能只是两只松鼠在傻乐。"

第一梯队:读懂了"假装"的代价

Gemini 2.5 Pro和o3表现最接近。它不仅认出角色扮演,还捕捉到第三格松鼠的"防御性姿态"——耳朵后压、身体紧绷,这是真觉得被冒犯了的身体语言。Claude 4 Sonnet更直接,点出"坚持幻想的那只松鼠在维护群体安全感",把四格漫画读成了小型社会心理学实验。

这三个模型的共同点是:都注意到了第二格到第三格的转折。质疑者说完"我们是松鼠"之后,并没有继续追问,而是被同伴的坚定态度噎了回去。这个沉默的间隙,被o3形容为"认知失调的瞬间"。

但细节处理上仍有裂缝。o3把第四格解读为"两位骑士并肩眺望远方",实际上画面里两只松鼠背对观众、面向不同方向,更像是各自陷入了某种思绪。Gemini没犯这个错,但它花了6分多钟,比o3还慢。

中间层:看懂了图,没看懂人

GPT-4.1、Grok 3、Llama 4 Maverick这一档,基本能描述画面内容,但对"为什么第三格要强调兰斯洛特"普遍无感。GPT-4.1把四格当成流水账复述,Grok 3过度解读出"对现代消费主义的讽刺"——漫画里连人类都没有。

Llama 4的问题更典型。它正确识别了角色扮演设定,却坚持认为"两只松鼠最终和解了",理由是第四格它们站得很近。实际上画面构图刻意拉开距离,中间隔着半棵树干。

DeepSeek-V3-0324和o4-mini属于"快但糙"。前者3分钟交卷,把四格压缩成两句话的剧情简介;后者是OpenAI自家的轻量版,反而没继承o3的细腻,把开放式结局读成了"大团圆"。

掉队区:角色关系都理不清

GPT-4o和Gemini 2.5 Flash(轻量版)在这一轮翻车。4o把两只松鼠当成同一只的不同状态,"它先质疑,然后自我说服"。Flash更离谱,认为"兰斯洛特爵士是第三格才出现的第三个角色"。

这种错误暴露了一个盲区:视觉语言模型在处理"谁在说话"时,对画面空间关系的敏感度远低于人类。四格漫画的分镜逻辑——同位置角色延续、对话框指向——对它们来说仍是硬编码的猜测,而非真正的理解。

最讽刺的对比发生在OpenAI内部。o3和o4-mini共享训练数据,架构差异也不算大,但o3的"思考时间"设置让它愿意在不确定性上多盘旋几圈。4分47秒不是浪费,是模型在反复核对"这只松鼠的耳朵方向是否真的表示抵触"。

Google那边,Gemini 2.5 Pro和Flash的差距更大。Pro能讨论"骑士精神的表演性",Flash连角色数量都数错。这种断层说明当前的多模态能力并非平滑演进,而是在某个阈值附近突然跃迁——过了那条线,"看懂"和"没看懂"是质的区别。

测试发起人、OpenAI研究员Gabriel Goh在X上发了条笔记:「最难的不是识别物体,是识别'假装'本身。一只松鼠假装自己是骑士,这需要模型理解元表征——对虚假信念的信念。」

这话有点绕。换个场景就明白了:你同事说"我没事",但嘴角在抖。人类能瞬间判断这是反话,AI需要额外推理层才能抵达同样的结论。松鼠漫画把这套测试压缩成了四格画面。

目前o3和Gemini 2.5 Pro的"阅读理解"得分最高,但代价是速度和成本。o3的1273字分析,API调用费用够买几十份真的四格漫画实体书。这种精度是否值得,取决于你要用AI做什么——写论文注释和做实时表情包识别,显然是两套需求。

测试数据还藏着个未解的疑问:o3在分析末尾主动加入的自我怀疑,是真实的概率校准,还是训练数据里"谦逊表达"的条件反射?Gabriel Goh没有回答这个。或许下一轮测试,该换一组"假装在假装"的套娃漫画了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全世界惊炸:伊朗凭什么能击落美军最先进F-35?

全世界惊炸:伊朗凭什么能击落美军最先进F-35?

华山穹剑
2026-03-20 21:11:01
23.7万起!大众官宣:新车正式发布

23.7万起!大众官宣:新车正式发布

高科技爱好者
2026-04-16 23:12:45
智谱让微信支付宝躺赢了

智谱让微信支付宝躺赢了

字母榜
2026-04-15 12:06:02
美财长点名中国,不许做2件事!24小时内,中国58吨物资抵达伊朗

美财长点名中国,不许做2件事!24小时内,中国58吨物资抵达伊朗

健身狂人
2026-04-16 18:44:21
拉夫罗夫:莫斯科将把所有历史上的俄罗斯土地归还其合法家园

拉夫罗夫:莫斯科将把所有历史上的俄罗斯土地归还其合法家园

番茄说史聊
2026-02-22 14:07:52
别再尬演情妇了!一脸疲态、五大三粗,这是迷倒男人该有的皮囊?

别再尬演情妇了!一脸疲态、五大三粗,这是迷倒男人该有的皮囊?

白面书誏
2026-04-14 14:09:53
5种人工养殖的海鱼,几乎没有纯野生的,最后一种号称“药罐子”

5种人工养殖的海鱼,几乎没有纯野生的,最后一种号称“药罐子”

秀厨娘
2026-04-16 11:24:34
同门反目!大疆近百名工程师倒戈,核心地盘被昔日自己人抢占

同门反目!大疆近百名工程师倒戈,核心地盘被昔日自己人抢占

火山詩话
2026-04-15 06:41:46
江苏某院降薪后月发两千,领导放话:不接受来找我黑白两道玩得开

江苏某院降薪后月发两千,领导放话:不接受来找我黑白两道玩得开

黯泉
2026-04-16 12:58:43
霍尔木兹海峡,“隔空决战”

霍尔木兹海峡,“隔空决战”

中国新闻周刊
2026-04-16 12:05:59
互联网是有记忆的,她的黑历史一大堆啊!

互联网是有记忆的,她的黑历史一大堆啊!

BenSir本色说
2026-04-15 22:38:07
2026年Q1全球手机市场:苹果21% 三星20% 小米13% OPPO11% vivo8%

2026年Q1全球手机市场:苹果21% 三星20% 小米13% OPPO11% vivo8%

黄海峰
2026-04-15 13:53:56
老板娘问我喜欢屁股大的吗?我该怎么回答?

老板娘问我喜欢屁股大的吗?我该怎么回答?

太急张三疯
2026-04-16 17:56:09
是巧合吗?苏林是兴安春桥人,春桥的董事长叫苏勇,被传是亲兄弟

是巧合吗?苏林是兴安春桥人,春桥的董事长叫苏勇,被传是亲兄弟

纵拥千千晚星
2026-04-16 12:47:27
成大事的人,没一个是靠自己做起来的。单打独斗的人,最后都败了

成大事的人,没一个是靠自己做起来的。单打独斗的人,最后都败了

清风拂心
2026-03-28 11:15:07
中国11人进世锦赛,张安达请客,5人小团体聚餐,跟赵心童开玩笑

中国11人进世锦赛,张安达请客,5人小团体聚餐,跟赵心童开玩笑

球场没跑道
2026-04-16 13:43:29
跳水跌停,一字跌停,换手跌停,今日最惨股,一周跌了40%!

跳水跌停,一字跌停,换手跌停,今日最惨股,一周跌了40%!

丁丁鲤史纪
2026-04-16 16:14:04
一线城市房价全面上涨!

一线城市房价全面上涨!

地产观点
2026-04-16 11:49:43
马筱梅也是的拎不清的,她完全分不清汪家的大小王,网友:智商低

马筱梅也是的拎不清的,她完全分不清汪家的大小王,网友:智商低

魔都姐姐杂谈
2026-04-16 19:49:26
刚刚宣布:停火10天!今夜,大逆转,再创新高!

刚刚宣布:停火10天!今夜,大逆转,再创新高!

中国基金报
2026-04-17 00:12:40
2026-04-17 04:00:49
报错免疫体
报错免疫体
一名在需求评审和数据异常中反复横跳的产品运营。
1473文章数 13关注度
往期回顾 全部

科技要闻

赵明:智驾之战,看谁在大模型上更高效

头条要闻

特朗普宣布黎以将停火后 以军大规模空袭黎巴嫩

头条要闻

特朗普宣布黎以将停火后 以军大规模空袭黎巴嫩

体育要闻

皇马拜仁踢出名局,但最抢镜的还是他

娱乐要闻

丝芭传媒创始人王子杰去世,享年63岁

财经要闻

海尔与医美女王互撕 换血抗衰谁的生意?

汽车要闻

空间大五个乘客都满意?体验岚图泰山X8

态度原创

亲子
艺术
数码
房产
军事航空

亲子要闻

儿子认字还可以吧? 董路的微博视频

艺术要闻

你绝对想不到!这幅油画背后的美丽故事!

数码要闻

荣耀史上最短发布会,发布荣耀史上最强MagicBook数字系列

房产要闻

人人人人!封关后首届消博会,挤爆了!

军事要闻

封锁霍尔木兹海峡后 美释放双重信号

无障碍浏览 进入关怀版