OpenAI用3个松鼠漫画测出9家AI的「阅读理解」差距|加缪|四格漫画|openai|gemini

OpenAI用3个松鼠漫画测出9家AI的「阅读理解」差距

2026-04-12 10:20:48　来源: 报错免疫体

北京举报

分享至

同一张松鼠玩角色扮演的四格漫画，9个顶尖大模型给出的解读能差出多少？有人读出存在主义危机，有人连角色关系都搞混。这不是学术评测，是AI公司自己扔出来的压力测试。

测试设计很简单：四格漫画，两只松鼠假装自己是中世纪骑士。第一格介绍设定，第二格一只松鼠质疑"我们明明是松鼠"，第三格另一只坚持"不，我是兰斯洛特爵士"，第四格给出开放式结局。没有文字，纯靠视觉理解。

OpenAI的o3模型花了4分47秒，输出了一份1273字的文学分析。它识别出"松鼠-骑士"的身份错位，把这种假装解读为"对逃避现实的温柔批判"，甚至扯上了加缪。分析结尾还给自己找补："当然，也可能只是两只松鼠在傻乐。"

第一梯队：读懂了"假装"的代价

Gemini 2.5 Pro和o3表现最接近。它不仅认出角色扮演，还捕捉到第三格松鼠的"防御性姿态"——耳朵后压、身体紧绷，这是真觉得被冒犯了的身体语言。Claude 4 Sonnet更直接，点出"坚持幻想的那只松鼠在维护群体安全感"，把四格漫画读成了小型社会心理学实验。

这三个模型的共同点是：都注意到了第二格到第三格的转折。质疑者说完"我们是松鼠"之后，并没有继续追问，而是被同伴的坚定态度噎了回去。这个沉默的间隙，被o3形容为"认知失调的瞬间"。

但细节处理上仍有裂缝。o3把第四格解读为"两位骑士并肩眺望远方"，实际上画面里两只松鼠背对观众、面向不同方向，更像是各自陷入了某种思绪。Gemini没犯这个错，但它花了6分多钟，比o3还慢。

中间层：看懂了图，没看懂人

GPT-4.1、Grok 3、Llama 4 Maverick这一档，基本能描述画面内容，但对"为什么第三格要强调兰斯洛特"普遍无感。GPT-4.1把四格当成流水账复述，Grok 3过度解读出"对现代消费主义的讽刺"——漫画里连人类都没有。

Llama 4的问题更典型。它正确识别了角色扮演设定，却坚持认为"两只松鼠最终和解了"，理由是第四格它们站得很近。实际上画面构图刻意拉开距离，中间隔着半棵树干。

DeepSeek-V3-0324和o4-mini属于"快但糙"。前者3分钟交卷，把四格压缩成两句话的剧情简介；后者是OpenAI自家的轻量版，反而没继承o3的细腻，把开放式结局读成了"大团圆"。

掉队区：角色关系都理不清

GPT-4o和Gemini 2.5 Flash（轻量版）在这一轮翻车。4o把两只松鼠当成同一只的不同状态，"它先质疑，然后自我说服"。Flash更离谱，认为"兰斯洛特爵士是第三格才出现的第三个角色"。

这种错误暴露了一个盲区：视觉语言模型在处理"谁在说话"时，对画面空间关系的敏感度远低于人类。四格漫画的分镜逻辑——同位置角色延续、对话框指向——对它们来说仍是硬编码的猜测，而非真正的理解。

最讽刺的对比发生在OpenAI内部。o3和o4-mini共享训练数据，架构差异也不算大，但o3的"思考时间"设置让它愿意在不确定性上多盘旋几圈。4分47秒不是浪费，是模型在反复核对"这只松鼠的耳朵方向是否真的表示抵触"。

Google那边，Gemini 2.5 Pro和Flash的差距更大。Pro能讨论"骑士精神的表演性"，Flash连角色数量都数错。这种断层说明当前的多模态能力并非平滑演进，而是在某个阈值附近突然跃迁——过了那条线，"看懂"和"没看懂"是质的区别。

测试发起人、OpenAI研究员Gabriel Goh在X上发了条笔记：「最难的不是识别物体，是识别'假装'本身。一只松鼠假装自己是骑士，这需要模型理解元表征——对虚假信念的信念。」

这话有点绕。换个场景就明白了：你同事说"我没事"，但嘴角在抖。人类能瞬间判断这是反话，AI需要额外推理层才能抵达同样的结论。松鼠漫画把这套测试压缩成了四格画面。

目前o3和Gemini 2.5 Pro的"阅读理解"得分最高，但代价是速度和成本。o3的1273字分析，API调用费用够买几十份真的四格漫画实体书。这种精度是否值得，取决于你要用AI做什么——写论文注释和做实时表情包识别，显然是两套需求。

测试数据还藏着个未解的疑问：o3在分析末尾主动加入的自我怀疑，是真实的概率校准，还是训练数据里"谦逊表达"的条件反射？Gabriel Goh没有回答这个。或许下一轮测试，该换一组"假装在假装"的套娃漫画了。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

OpenAI用3个松鼠漫画测出9家AI的「阅读理解」差距

第一梯队：读懂了"假装"的代价

中间层：看懂了图，没看懂人

掉队区：角色关系都理不清

赵明：智驾之战，看谁在大模型上更高效

特朗普宣布黎以将停火后 以军大规模空袭黎巴嫩

特朗普宣布黎以将停火后 以军大规模空袭黎巴嫩

皇马拜仁踢出名局，但最抢镜的还是他

丝芭传媒创始人王子杰去世，享年63岁

海尔与医美女王互撕 换血抗衰谁的生意？

空间大五个乘客都满意?体验岚图泰山X8

态度原创

儿子认字还可以吧？ 董路的微博视频

你绝对想不到！这幅油画背后的美丽故事！

荣耀史上最短发布会，发布荣耀史上最强MagicBook数字系列

人人人人！封关后首届消博会，挤爆了！

封锁霍尔木兹海峡后 美释放双重信号

特朗普宣布黎以将停火后以军大规模空袭黎巴嫩

特朗普宣布黎以将停火后以军大规模空袭黎巴嫩

海尔与医美女王互撕换血抗衰谁的生意？

儿子认字还可以吧？董路的微博视频

封锁霍尔木兹海峡后美释放双重信号