同一张松鼠玩角色扮演的四格漫画,9个顶尖大模型给出的解读能差出多少?有人读出存在主义危机,有人连角色关系都搞混。这不是学术评测,是AI公司自己扔出来的压力测试。
测试设计很简单:四格漫画,两只松鼠假装自己是中世纪骑士。第一格介绍设定,第二格一只松鼠质疑"我们明明是松鼠",第三格另一只坚持"不,我是兰斯洛特爵士",第四格给出开放式结局。没有文字,纯靠视觉理解。
OpenAI的o3模型花了4分47秒,输出了一份1273字的文学分析。它识别出"松鼠-骑士"的身份错位,把这种假装解读为"对逃避现实的温柔批判",甚至扯上了加缪。分析结尾还给自己找补:"当然,也可能只是两只松鼠在傻乐。"
第一梯队:读懂了"假装"的代价
Gemini 2.5 Pro和o3表现最接近。它不仅认出角色扮演,还捕捉到第三格松鼠的"防御性姿态"——耳朵后压、身体紧绷,这是真觉得被冒犯了的身体语言。Claude 4 Sonnet更直接,点出"坚持幻想的那只松鼠在维护群体安全感",把四格漫画读成了小型社会心理学实验。
这三个模型的共同点是:都注意到了第二格到第三格的转折。质疑者说完"我们是松鼠"之后,并没有继续追问,而是被同伴的坚定态度噎了回去。这个沉默的间隙,被o3形容为"认知失调的瞬间"。
但细节处理上仍有裂缝。o3把第四格解读为"两位骑士并肩眺望远方",实际上画面里两只松鼠背对观众、面向不同方向,更像是各自陷入了某种思绪。Gemini没犯这个错,但它花了6分多钟,比o3还慢。
中间层:看懂了图,没看懂人
GPT-4.1、Grok 3、Llama 4 Maverick这一档,基本能描述画面内容,但对"为什么第三格要强调兰斯洛特"普遍无感。GPT-4.1把四格当成流水账复述,Grok 3过度解读出"对现代消费主义的讽刺"——漫画里连人类都没有。
Llama 4的问题更典型。它正确识别了角色扮演设定,却坚持认为"两只松鼠最终和解了",理由是第四格它们站得很近。实际上画面构图刻意拉开距离,中间隔着半棵树干。
DeepSeek-V3-0324和o4-mini属于"快但糙"。前者3分钟交卷,把四格压缩成两句话的剧情简介;后者是OpenAI自家的轻量版,反而没继承o3的细腻,把开放式结局读成了"大团圆"。
掉队区:角色关系都理不清
GPT-4o和Gemini 2.5 Flash(轻量版)在这一轮翻车。4o把两只松鼠当成同一只的不同状态,"它先质疑,然后自我说服"。Flash更离谱,认为"兰斯洛特爵士是第三格才出现的第三个角色"。
这种错误暴露了一个盲区:视觉语言模型在处理"谁在说话"时,对画面空间关系的敏感度远低于人类。四格漫画的分镜逻辑——同位置角色延续、对话框指向——对它们来说仍是硬编码的猜测,而非真正的理解。
最讽刺的对比发生在OpenAI内部。o3和o4-mini共享训练数据,架构差异也不算大,但o3的"思考时间"设置让它愿意在不确定性上多盘旋几圈。4分47秒不是浪费,是模型在反复核对"这只松鼠的耳朵方向是否真的表示抵触"。
Google那边,Gemini 2.5 Pro和Flash的差距更大。Pro能讨论"骑士精神的表演性",Flash连角色数量都数错。这种断层说明当前的多模态能力并非平滑演进,而是在某个阈值附近突然跃迁——过了那条线,"看懂"和"没看懂"是质的区别。
测试发起人、OpenAI研究员Gabriel Goh在X上发了条笔记:「最难的不是识别物体,是识别'假装'本身。一只松鼠假装自己是骑士,这需要模型理解元表征——对虚假信念的信念。」
这话有点绕。换个场景就明白了:你同事说"我没事",但嘴角在抖。人类能瞬间判断这是反话,AI需要额外推理层才能抵达同样的结论。松鼠漫画把这套测试压缩成了四格画面。
目前o3和Gemini 2.5 Pro的"阅读理解"得分最高,但代价是速度和成本。o3的1273字分析,API调用费用够买几十份真的四格漫画实体书。这种精度是否值得,取决于你要用AI做什么——写论文注释和做实时表情包识别,显然是两套需求。
测试数据还藏着个未解的疑问:o3在分析末尾主动加入的自我怀疑,是真实的概率校准,还是训练数据里"谦逊表达"的条件反射?Gabriel Goh没有回答这个。或许下一轮测试,该换一组"假装在假装"的套娃漫画了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.