网易首页 > 网易号 > 正文 申请入驻

「一只手有几根手指」,你的GPT-5答对了吗?

0
分享至




机器之心报道

编辑:杜伟、+0

「一只手有几根手指?」

这个看似简单的问题,强如 GPT-5 却并不能总是答对。

今天,CMU 博士生、英伟达 GEAR(通用具身智能体研究)团队成员 Tairan He(何泰然)向 GPT-5 询问了这个问题,结果模型回答错了。



他接着延伸出一个论点:语言虽然是强大的工具,但却很难完全满足视觉与机器人领域的需求。

我们更需要以视觉为中心的视觉语言模型(VLM)以及以视觉-动作为中心的 VLA 模型。

看起来,这里 Tairan He 对 Fingers 的定义应该是「包括拇指在内所有的手指」。

在英文语境中(包括柯林斯词典、词源词典等的解释),Fingers 既可以指代除拇指以外的其余四指,也可以指代包括拇指在内的全部五指。



图源:柯林斯词典



图源:词源词典

不只是 GPT-5,推理版本 GPT-5-Thinking 也犯错了,「包括拇指在内 5 根手指,不包括拇指则 4 根手指」。



此前,在 Grok 4 推出之后,同样有人用数手指问题来测试它,结果同样翻车。

实测:

时对时错,Gemini 2.5 Pro 也未能幸免

有趣的是,在认定手指(finger)包含拇指的前提下,编辑部也去测试了一下,结果发现 GPT-5 居然答对了,而且多次测试均回答正确。







不过,六指图的中文语境中 GPT-5 却总是回答错误。





我们又在 Gemini 2.5 Pro 上继续测试,它贴心的单独统计了 finger 和 thumb,但最终答案是错的。





可以看到,在面对一些基础常识性问题尤其存在语言先验干扰(这里的 finger 本身就有歧义)时,即便是顶尖大模型也频频「翻车」。

这说明,模型虽然在语言推理方面很强,但对图像的基础视觉理解,包括目标检测和语义分类等,仍然不够稳健。模型中的视觉模块可能并不是真正地「看」懂,而只是利用语言模式去猜。

为何回答不对?如何应对?

Tairan He 在后续评论中提到了谢赛宁团队去年的一篇论文,这篇论文提出并实践了一套系统、深入且以视觉为中心的研究与评估方法,展示了如何对多模态大语言模型(MLLM)的视觉基础能力进行科学、严谨的评估。

Tairan He 认为,应该将这种严谨的评估思想和方法论应用到 VLA 模型研究中去。



  • 论文标题:Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
  • 论文地址:
  • https://arxiv.org/pdf/2406.16860

论文指出,当前许多基准测试并不足以真实评估模型核心的视觉能力,部分测试甚至在没有视觉输入的情况下也能被解答。

团队创建了一个名为CV-Bench的全新、更专注的基准测试集,专门用于检验模型在物体计数、空间关系判断及深度感知等关键且基础的 2D 和 3D 视觉理解能力,从而建立了一套更严格的评估标准。

论文系统性地评估了超过 20 种不同的视觉编码器,并对训练策略和数据配比进行了详尽的研究,其成果如同一本可供参考的「公开食谱」,为领域内的后续工作提供了严谨的参照。

谢赛宁也参与了讨论,表示多模态大型语言模型中的虚假相关性是一个棘手的基准测试问题。他认为,模型对语言先验的依赖既是优势也是陷阱,因为它可能导致模型忽视其他模态,成为一种「捷径」。

从经济角度看,这让公司能在不进行大量实际多模态研究的情况下,宣称在「多模态推理」上取得成功。然而,当这些系统被应用于机器人等现实世界时,这种捷径的缺陷就会暴露,并付出巨大代价。



另一项研究也印证这种观点。实验显示,最先进的 VLM 在识别常见物体图像(例如,知道阿迪达斯标志有 3 条条纹,狗有 4 条腿)的数量时,准确率能达到 100%;但在计算反事实图像(例如,计算一个有 4 条条纹的类阿迪达斯标志中的条纹数量,或一只 5 条腿的狗的腿数)时,准确率仅有约 17%。

  • 项目主页:
  • https://vlmsarebiased.github.io/

该研究指出,VLM 实际上并不能真的「看到」,它们依赖于记忆的知识而不是视觉分析。



针对这一问题,密歇根大学的博士生 Martin Ziqiao Ma(马子乔)也详细阐述了自己的观点。

他认为关键问题在于:用大语言模型来初始化视觉-语言(-动作)模型(VLA),是一个诱人的陷阱,看似取得了进展,但实际上并没有真正实现突破。大多数基准测试都过于集中在推理和数字领域,而没有从根本上解决感知问题,尤其是中、低层次的视觉能力。



人类在直觉物理和心理理解上,显然有着前语言阶段的认知根基,例如固体性、连续性、重力等基本原则。

2024 年,他及团队在构建了 GroundHog 之后,花了一些时间反思 VLM 的核心问题。他再也无法说服自己,仅仅把 CLIP 和 DINO 叠加上几层投影层就是「将视觉符号化」的终极方案。视觉-语言模型需要更强大的视觉基础,或许必须从以视觉为中心的视角重新开始。

此后,他暂停 VLM 开发一年并探索了其他方向。并且真正从零开始,他开始研究 3D 基础模型和视频扩散模型,并暂时搁置了联合视觉-语言扩散模型的可能性。他开发了 4D-LRM,目标是在完全没有语言先验的情况下,大规模学习 4D 先验。

这只是第一步。未来某个时候,他会回到 VLM 工程领域。但下一次,他希望自己能先从世界模型入手,再在其之上解锁语言模块。

大语言模型什么时候能够真正理解图像等视觉信息,而不仅仅把视觉当作语言的附属输入?对此你怎么看呢?

参考内容:
https://x.com/ziqiao_ma/status/1954665867238600881
https://x.com/TairanHe99/status/1954610939438977211

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
狗狗立大功!广东女子上山遛狗,狗狗在草丛中发现“国宝级”生物

狗狗立大功!广东女子上山遛狗,狗狗在草丛中发现“国宝级”生物

万象硬核本尊
2026-01-24 12:28:54
你身边有把一手好牌打的稀烂的人吗?网友:都是上辈子欠人家的

你身边有把一手好牌打的稀烂的人吗?网友:都是上辈子欠人家的

带你感受人间冷暖
2026-01-21 00:15:05
刚刚,晚间16家公司出现重大利空公告,有没有与你相关的个股?

刚刚,晚间16家公司出现重大利空公告,有没有与你相关的个股?

股市皆大事
2026-01-24 16:59:35
台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

顾史
2026-01-21 21:04:39
比没钱更可怕的是戴“中国式大妈配饰”,自以为时髦,实际很廉价

比没钱更可怕的是戴“中国式大妈配饰”,自以为时髦,实际很廉价

白宸侃片
2026-01-22 11:07:38
教外语应该穿什么,学外语又该穿什么?

教外语应该穿什么,学外语又该穿什么?

三人成虎V5
2026-01-24 21:53:04
有趣!迪亚洛偷鸡不成蚀把米,让山西队吃到2个技术犯规

有趣!迪亚洛偷鸡不成蚀把米,让山西队吃到2个技术犯规

体育哲人
2026-01-24 23:14:54
历史性突破!U23国足首进亚洲杯决赛

历史性突破!U23国足首进亚洲杯决赛

财联社
2026-01-21 01:28:20
二人转演员娇娇被官方点名:利用封建迷信疯狂敛财,涉案金额惊人

二人转演员娇娇被官方点名:利用封建迷信疯狂敛财,涉案金额惊人

娱慧
2026-01-22 12:17:49
光速翻脸?6万吨菜籽油刚卖给中国,电车就遭针对,卡尼直摇头

光速翻脸?6万吨菜籽油刚卖给中国,电车就遭针对,卡尼直摇头

娱乐八卦木木子
2026-01-23 12:39:27
皮尔斯:詹姆斯为湖人带来了一座总冠军和100亿美元,湖人太划算了

皮尔斯:詹姆斯为湖人带来了一座总冠军和100亿美元,湖人太划算了

懂球帝
2026-01-24 15:37:08
南部空军霸气官宣:“从今以后,绝不允许有人对我大声说话”

南部空军霸气官宣:“从今以后,绝不允许有人对我大声说话”

武器纵论
2026-01-21 22:11:41
太精彩了!温瑞博苦战七局击败樊振东德国队友,夺冠后振臂欢呼

太精彩了!温瑞博苦战七局击败樊振东德国队友,夺冠后振臂欢呼

杨哥乒乓
2026-01-24 21:49:04
西方史上最严重高铁事故,背后的日本企业无人关注

西方史上最严重高铁事故,背后的日本企业无人关注

枫冷慕诗
2026-01-23 14:27:24
巴萨迎战西甲倒1:赢球=创造30年纪录 亚马尔回归 4人缺席

巴萨迎战西甲倒1:赢球=创造30年纪录 亚马尔回归 4人缺席

叶青足球世界
2026-01-24 20:41:06
温瑞博险胜弗朗西斯卡,国乒夺得四冠,包揽了男女单打冠军

温瑞博险胜弗朗西斯卡,国乒夺得四冠,包揽了男女单打冠军

子水体娱
2026-01-24 21:49:06
回顾:四川“烧妻案”唐路被注射死刑,行刑前浑身哆嗦,崩溃痛哭

回顾:四川“烧妻案”唐路被注射死刑,行刑前浑身哆嗦,崩溃痛哭

谈史论天地
2026-01-24 14:55:03
U23男足队长来自武汉!今晚决战日本,他父亲突然落泪……

U23男足队长来自武汉!今晚决战日本,他父亲突然落泪……

极目新闻
2026-01-24 21:55:33
郭永航辞去广东省人大代表职务,此前已卸任省委常委

郭永航辞去广东省人大代表职务,此前已卸任省委常委

澎湃新闻
2026-01-23 21:17:05
原来他们是两口子,戏里戏外都是夫妻,看不出年龄相差有16岁

原来他们是两口子,戏里戏外都是夫妻,看不出年龄相差有16岁

陈穟侃故事
2026-01-24 17:15:11
2026-01-24 23:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12179文章数 142549关注度
往期回顾 全部

科技要闻

黄仁勋现身上海菜市场

头条要闻

张又侠、刘振立被查 解放军报发布社论

头条要闻

张又侠、刘振立被查 解放军报发布社论

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

教育
健康
数码
本地
艺术

教育要闻

高考地理中的赛事经济

耳石脱落为何让人天旋地转+恶心?

数码要闻

酷态科6号Ultra充电器曝光:双Type-C接口均支持100W快充

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

艺术要闻

在格陵兰岛坐牢,是一种怎样的体验?

无障碍浏览 进入关怀版