网易首页 > 网易号 > 正文 申请入驻

「一只手有几根手指」,你的GPT-5答对了吗?

0
分享至


机器之心报道

编辑:杜伟、+0

「一只手有几根手指?」

这个看似简单的问题,强如 GPT-5 却并不能总是答对。

今天,CMU 博士生、英伟达 GEAR(通用具身智能体研究)团队成员 Tairan He(何泰然)向 GPT-5 询问了这个问题,结果模型回答错了。

他接着延伸出一个论点:语言虽然是强大的工具,但却很难完全满足视觉与机器人领域的需求。

我们更需要以视觉为中心的视觉语言模型(VLM)以及以视觉-动作为中心的 VLA 模型。

看起来,这里 Tairan He 对 Fingers 的定义应该是「包括拇指在内所有的手指」。

在英文语境中(包括柯林斯词典、词源词典等的解释),Fingers 既可以指代除拇指以外的其余四指,也可以指代包括拇指在内的全部五指。

图源:柯林斯词典

图源:词源词典

不只是 GPT-5,推理版本 GPT-5-Thinking 也犯错了,「包括拇指在内 5 根手指,不包括拇指则 4 根手指」。

此前,在 Grok 4 推出之后,同样有人用数手指问题来测试它,结果同样翻车。

实测:

时对时错,Gemini 2.5 Pro 也未能幸免

有趣的是,在认定手指(finger)包含拇指的前提下,编辑部也去测试了一下,结果发现 GPT-5 居然答对了,而且多次测试均回答正确。

不过,六指图的中文语境中 GPT-5 却总是回答错误。

我们又在 Gemini 2.5 Pro 上继续测试,它贴心的单独统计了 finger 和 thumb,但最终答案是错的。

可以看到,在面对一些基础常识性问题尤其存在语言先验干扰(这里的 finger 本身就有歧义)时,即便是顶尖大模型也频频「翻车」。

这说明,模型虽然在语言推理方面很强,但对图像的基础视觉理解,包括目标检测和语义分类等,仍然不够稳健。模型中的视觉模块可能并不是真正地「看」懂,而只是利用语言模式去猜。

为何回答不对?如何应对?

Tairan He 在后续评论中提到了谢赛宁团队去年的一篇论文,这篇论文提出并实践了一套系统、深入且以视觉为中心的研究与评估方法,展示了如何对多模态大语言模型(MLLM)的视觉基础能力进行科学、严谨的评估。

Tairan He 认为,应该将这种严谨的评估思想和方法论应用到 VLA 模型研究中去。

  • 论文标题:Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
  • 论文地址:
  • https://arxiv.org/pdf/2406.16860

论文指出,当前许多基准测试并不足以真实评估模型核心的视觉能力,部分测试甚至在没有视觉输入的情况下也能被解答。

团队创建了一个名为CV-Bench的全新、更专注的基准测试集,专门用于检验模型在物体计数、空间关系判断及深度感知等关键且基础的 2D 和 3D 视觉理解能力,从而建立了一套更严格的评估标准。

论文系统性地评估了超过 20 种不同的视觉编码器,并对训练策略和数据配比进行了详尽的研究,其成果如同一本可供参考的「公开食谱」,为领域内的后续工作提供了严谨的参照。

谢赛宁也参与了讨论,表示多模态大型语言模型中的虚假相关性是一个棘手的基准测试问题。他认为,模型对语言先验的依赖既是优势也是陷阱,因为它可能导致模型忽视其他模态,成为一种「捷径」。

从经济角度看,这让公司能在不进行大量实际多模态研究的情况下,宣称在「多模态推理」上取得成功。然而,当这些系统被应用于机器人等现实世界时,这种捷径的缺陷就会暴露,并付出巨大代价。

另一项研究也印证这种观点。实验显示,最先进的 VLM 在识别常见物体图像(例如,知道阿迪达斯标志有 3 条条纹,狗有 4 条腿)的数量时,准确率能达到 100%;但在计算反事实图像(例如,计算一个有 4 条条纹的类阿迪达斯标志中的条纹数量,或一只 5 条腿的狗的腿数)时,准确率仅有约 17%。

  • 项目主页:
  • https://vlmsarebiased.github.io/

该研究指出,VLM 实际上并不能真的「看到」,它们依赖于记忆的知识而不是视觉分析。

针对这一问题,密歇根大学的博士生 Martin Ziqiao Ma(马子乔)也详细阐述了自己的观点。

他认为关键问题在于:用大语言模型来初始化视觉-语言(-动作)模型(VLA),是一个诱人的陷阱,看似取得了进展,但实际上并没有真正实现突破。大多数基准测试都过于集中在推理和数字领域,而没有从根本上解决感知问题,尤其是中、低层次的视觉能力。

人类在直觉物理和心理理解上,显然有着前语言阶段的认知根基,例如固体性、连续性、重力等基本原则。

2024 年,他及团队在构建了 GroundHog 之后,花了一些时间反思 VLM 的核心问题。他再也无法说服自己,仅仅把 CLIP 和 DINO 叠加上几层投影层就是「将视觉符号化」的终极方案。视觉-语言模型需要更强大的视觉基础,或许必须从以视觉为中心的视角重新开始。

此后,他暂停 VLM 开发一年并探索了其他方向。并且真正从零开始,他开始研究 3D 基础模型和视频扩散模型,并暂时搁置了联合视觉-语言扩散模型的可能性。他开发了 4D-LRM,目标是在完全没有语言先验的情况下,大规模学习 4D 先验。

这只是第一步。未来某个时候,他会回到 VLM 工程领域。但下一次,他希望自己能先从世界模型入手,再在其之上解锁语言模块。

大语言模型什么时候能够真正理解图像等视觉信息,而不仅仅把视觉当作语言的附属输入?对此你怎么看呢?

参考内容:
https://x.com/ziqiao_ma/status/1954665867238600881
https://x.com/TairanHe99/status/1954610939438977211

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美伊“特殊交易”曝光:美国解冻资产,换取海峡安全通航

美伊“特殊交易”曝光:美国解冻资产,换取海峡安全通航

识局Insight
2026-04-11 18:36:49
镇雄一名小学生给老师起外号被扇耳光致耳损伤,家长:涉事老师愿意给予补偿,我们会加强对小孩的教育

镇雄一名小学生给老师起外号被扇耳光致耳损伤,家长:涉事老师愿意给予补偿,我们会加强对小孩的教育

极目新闻
2026-04-11 19:44:41
公安部新规落地!70岁驾照免年审真相,这件事不做驾照直接注销

公安部新规落地!70岁驾照免年审真相,这件事不做驾照直接注销

复转这些年
2026-04-10 12:01:32
为这场和谈,巴基斯坦押上国运!万人封城不给以色列任何可乘之机

为这场和谈,巴基斯坦押上国运!万人封城不给以色列任何可乘之机

青青子衿
2026-04-11 02:19:32
油价,暴跌!

油价,暴跌!

环球网资讯
2026-04-11 13:32:09
突发!以军发动袭击

突发!以军发动袭击

农民日报
2026-04-11 09:56:05
巴基斯坦预警机紧急升空!以色列偷袭计划落空,中方战术果然高

巴基斯坦预警机紧急升空!以色列偷袭计划落空,中方战术果然高

十三级台阶
2026-04-11 09:09:36
湖南祁东沿路插了百余米的白事支架灯笼,上面印“奠” 下面挂长条幅,当地民政局:已全部拆除

湖南祁东沿路插了百余米的白事支架灯笼,上面印“奠” 下面挂长条幅,当地民政局:已全部拆除

大风新闻
2026-04-11 10:41:08
百万豪车被陪葬后续:死者身份披露,官方通报处理结果,家属回应

百万豪车被陪葬后续:死者身份披露,官方通报处理结果,家属回应

小娱乐悠悠
2026-04-11 10:05:05
A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

另子维爱读史
2026-04-11 13:26:55
红牌!补时压哨绝平,郑智不敢相信:3分变1分,5轮仅1胜

红牌!补时压哨绝平,郑智不敢相信:3分变1分,5轮仅1胜

足球狗说
2026-04-11 21:01:49
张靓颖这次披着麻绳上台了 上挡不住内衣 下遮不住内裤 主打一个清凉

张靓颖这次披着麻绳上台了 上挡不住内衣 下遮不住内裤 主打一个清凉

陈意小可爱
2026-04-11 21:18:08
说唱歌手首秀5中0吞蛋!同曦遭广州双杀 徐昕21+11+4帽

说唱歌手首秀5中0吞蛋!同曦遭广州双杀 徐昕21+11+4帽

醉卧浮生
2026-04-11 21:37:39
1980年,66军炮兵团“叛乱”,邓小平大惊:华国锋不宜留在领导层

1980年,66军炮兵团“叛乱”,邓小平大惊:华国锋不宜留在领导层

帝哥说史
2026-04-10 06:30:03
他是上海体育名嘴,不当主持开店创业当网红,如今又转行玩古董

他是上海体育名嘴,不当主持开店创业当网红,如今又转行玩古董

白面书誏
2026-04-11 16:58:20
美伊谈判:俩“生手”上桌,三大分歧待解,都藏着后手

美伊谈判:俩“生手”上桌,三大分歧待解,都藏着后手

上游新闻
2026-04-11 16:59:35
女子坐地铁时被挡水板绊倒受伤,索赔27万元!法院:驳回,不能因“在公共场所受伤”盲目索赔

女子坐地铁时被挡水板绊倒受伤,索赔27万元!法院:驳回,不能因“在公共场所受伤”盲目索赔

扬子晚报
2026-04-11 09:00:29
全红婵后续:香港媒体爆料,广东体委撑腰,沪圈京圈打压穷孩子!

全红婵后续:香港媒体爆料,广东体委撑腰,沪圈京圈打压穷孩子!

眼光很亮
2026-04-10 14:29:21
封锁6周,超2万海员被困船上:同事死去,不得不与遗体共处一船;物资短缺,有人已出现“精神崩溃”,还有人辞职并拒绝穿越霍尔木兹海峡

封锁6周,超2万海员被困船上:同事死去,不得不与遗体共处一船;物资短缺,有人已出现“精神崩溃”,还有人辞职并拒绝穿越霍尔木兹海峡

大风新闻
2026-04-11 12:35:03
李想在朋友圈飙脏话!疑似炮轰东风日产

李想在朋友圈飙脏话!疑似炮轰东风日产

鞭牛士
2026-04-11 16:34:04
2026-04-11 22:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12729文章数 142623关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

特朗普:美方开始清理霍尔木兹海峡

头条要闻

特朗普:美方开始清理霍尔木兹海峡

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

旅游
游戏
时尚
本地
军事航空

旅游要闻

火出圈!成都人民公园相亲角被老外包围了

《红色沙漠》更新神速:韩国人都不休息的吗?

普通人穿衣其实很简单!构造腰线、一衣多穿,大方舒适又自然

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

军事要闻

伊朗议长带四名遇难儿童照片赴美伊谈判

无障碍浏览 进入关怀版