网易首页 > 网易号 > 正文 申请入驻

人类秒懂AI却懵圈:VLM²-Bench揭示视觉语言模型视觉关联能力短板

0
分享至

本文来自港科与 MIT 教授团队。本文有两个共同一作:张鉴殊为武汉大学本科四年级,本篇为其在港科大访问期间完成,将于 2025 秋季前往美国西北大学攻读 CS PhD。姚栋宇目前就读于 CMU CS 系下的 MSCV 项目。


  • 论文链接:https://arxiv.org/pdf/2502.12084
  • 项目主页:https://vlm2-bench.github.io/

当前,视觉语言模型(VLMs)的能力边界不断被突破,但大多数评测基准仍聚焦于复杂知识推理或专业场景。本文提出全新视角:如果一项能力对人类而言是 “无需思考” 的本能,但对 AI 却是巨大挑战,它是否才是 VLMs 亟待突破的核心瓶颈?

基于此,该团队推出 VLM²-Bench 来系统探究模型在 “人类级基础视觉线索关联能力” 上的表现。

本文将如下的两点作为本工作的出发点:

  • 什么能力对于人类来说是在日常生活中非常重要,且这种能力还得是对人们来说非常容易的,不需要庞大的知识储备也能完成。

我们在浏览不同的照片时可以找到出现在多张照片的同一个人,但是我们并不需要在之前就见过这个人,叫得出名字或者对这个人很了解,而是简单的在不同的图片间通过脸部特征在视觉上的比对和关联。同理我们还会拿着喜欢球鞋的图片去线下门店比对挑选出一样的款式(如下图),而不需要知道这个鞋的具体产品型号,只需要把鞋的花纹这一视觉特征给关联起来即可。这种视觉关联的能力显然是不依赖于先验知识,是纯粹基于视觉侧的关联。

日常生活中我们经常利用“视觉关联”,比如图中这个男孩正拿着手机上的图片去线下门店一一比对,来挑选出一样的球鞋款式(图片由AI生成)

  • 为什么这种能力对于现在 VLMs 也是非常重要的?

随着 VLMs 从单图处理扩展到多图、视频输入,其视觉感知的广度和深度显著提升。然而,视觉内容的扩展并未带来对视觉线索关联能力的同步提升,而 VLMs 时需要具有 “回头” 关联视觉线索的能力来帮助在其更一致且和谐的理解世界。

VLM²-Bench 的设计

  • 全面考察 VLMs 对于通用线索 GC(General Cue)、物体线索 OC(Object-centric Cue)和人物线索 PC(Person-centric Cue)三个大类的基础关联能力,总共可分为 9 个子任务,同时涵盖多图和视频的测试数据,共计 3060 个测试案例。
  • 评测问题的形式包含了判断题、多选题、数值题、开放题,其中对于每种形式我们都设计了特定的评估方式来更好的反应模型的性能。
  • 结合人工验证与自动化过滤,同时确保数据质量与挑战性。

以上是 VLM²-Bench 统计数据。

实验与发现

这里我们引入了蒙题(Chance-Level)和人类做答(Human-Level)的两个基准来更好的衡量 VLMs。根据表 1,可以发现 VLM²-Bench 对于人类来说几乎没有什么难度,但绝大多数模型的准确率甚至比不上乱蒙,和人类表现差距甚大。尤其是在描述视频中出现的人(VID)这一任务上,模型很容易把变化的人当作同一个来描述,把第二次出现的人当作一个新出现的人介绍。

同时我们还观察到模型在关联人物线索 PC 上的表现比物体线索 OC 更好,这个可能是因为关于人的图文数据上有提供区分度较大的不同的人名作为人物视觉线索的文本锚点,而在物体有关的数据上训练时往往都是用宽泛的类别这一作为锚点,从而模型更擅长区分不同人。

通过在通用线索 GC 这个大类中的进一步的分析,可以看到在匹配线索(Matching)这一子任务上,模型匹配两个由于替换(Swp)导致的不一致的能力较弱;而在跟踪线索(Tracking)这一子任务上,模型匹配两个由于添加或去除(A/R)时很难给出线索的变化顺序。这一发现说明模型在视觉线索关联任务中的短板存在一定的共性 —— 过度依赖于线索的 “连续可见性”,缺乏全局关联这一动态视觉理解的能力。

不仅仅局限于简单的评测,本文还探究了以语言为中心(CoT-)和以视觉为中心(VP-)的 prompting 方法能否促进模型在这种视觉关联能力。有以下的几点发现:

  • 将语言为中心的推理(如逐步说出解决问题的过程),可以在一定程度上促进关联时的逻辑,但是前提是视觉线索适合用语言进行表达,对于抽象的视觉线索,以语言为中心的推理会因为表达的开放性从而严重影响表现。
  • 将视觉为中心的提示(如放大关键的视觉线索),在物体线索 OC 的场景下帮助较大,而在人物线索 PC 上反倒会 “帮倒忙”。
  • 以视觉为中心的提示带来的效果和模型的视觉基础能力呈现正相关的关系。只有在模型能够先后理解视觉提示带来的额外的辅助信息以及图中本身的信息时,视觉为中心的提示才能起到较好的效果。

未来方向

  • 增强基础视觉能力:提升模型的核心视觉能力不仅能直接提升性能,还能增强适应性。更强的视觉基础可以最大化视觉提示的效果,并减少对先验知识的依赖,使模型在以视觉为核心的任务能够实现独立和可拓展。

  • 平衡基于语言的推理在视觉任务中的作用:在视觉任务中引入语言推理需要谨慎调整。未来研究应明确哪些情况下语言推理可以增强视觉理解,哪些情况下会引入不必要的偏差,以确保模型合理地利用语言侧的优势。

  • 新的训练范式:当前的训练方法主要关注视觉和语言的关联,但随着模型视觉上下文窗口的扩展,单纯在视觉域内进行推理的能力变得越来越重要。未来应优先发展能够在视觉线索之间进行结构化、组织和推理的模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国评出世界空军前三甲,中国在迫近式追赶,已经无力再拉开距离

美国评出世界空军前三甲,中国在迫近式追赶,已经无力再拉开距离

小熊侃史
2026-01-05 10:37:37
G7一致减少中国稀土进口,北约认可中国北极国家地位

G7一致减少中国稀土进口,北约认可中国北极国家地位

泄气得爱
2026-01-15 07:17:03
风暴中的携程总部,大楼形如“高速列车”,扎哈设计!

风暴中的携程总部,大楼形如“高速列车”,扎哈设计!

GA环球建筑
2026-01-15 17:32:25
2014年,北京女博士李香蓉因接受不了新郎身份,在车内将其几刀刺死

2014年,北京女博士李香蓉因接受不了新郎身份,在车内将其几刀刺死

红豆讲堂
2024-10-14 15:30:03
该来的还是来了!库明加申请交易!这队谁爱待谁待!

该来的还是来了!库明加申请交易!这队谁爱待谁待!

篮球大图
2026-01-15 23:51:56
突发内讧!莫兰特怒喷队友!NBA第一超级刺头

突发内讧!莫兰特怒喷队友!NBA第一超级刺头

篮球实战宝典
2026-01-16 00:08:05
高市彻底怒了,再对中国下死手,解放军火速下场,中国绝不能垮

高市彻底怒了,再对中国下死手,解放军火速下场,中国绝不能垮

阿芒娱乐说
2026-01-16 01:22:42
21岁男子心生色胆,欲趁表姐熟睡时与其发生关系!

21岁男子心生色胆,欲趁表姐熟睡时与其发生关系!

张晓磊
2026-01-01 11:45:39
国际电池开发商:美国在芯片上全力制裁中国,但中国已经在下一个技术时代开始称霸了

国际电池开发商:美国在芯片上全力制裁中国,但中国已经在下一个技术时代开始称霸了

大白聊IT
2026-01-15 10:28:04
满是心酸!42岁著名歌手江苏走穴,宾客只顾吃席没人搭理

满是心酸!42岁著名歌手江苏走穴,宾客只顾吃席没人搭理

查尔菲的笔记
2026-01-04 13:13:57
大师赛世界第一6-2击败中国一哥,赵心童1-4决赛赛程艰难

大师赛世界第一6-2击败中国一哥,赵心童1-4决赛赛程艰难

吴朑爱游泳
2026-01-15 01:25:35
券商两融额度告急?中小券商利率优惠不再,有大券商已低于4%

券商两融额度告急?中小券商利率优惠不再,有大券商已低于4%

第一财经资讯
2026-01-15 17:48:19
医生含泪提醒:男性若戒掉吸烟,用不了半年,身体或会有5个改变

医生含泪提醒:男性若戒掉吸烟,用不了半年,身体或会有5个改变

小童历史
2026-01-12 14:49:57
勇篮湖3方交易将达成,库明加辅佐东詹,波特辅佐库里,篮网赚了

勇篮湖3方交易将达成,库明加辅佐东詹,波特辅佐库里,篮网赚了

毒舌NBA
2026-01-15 09:11:15
瑞典军工发布导弹视频:1枚导弹命中摧毁中国052d型驱逐舰!

瑞典军工发布导弹视频:1枚导弹命中摧毁中国052d型驱逐舰!

达文西看世界
2026-01-11 19:10:20
乌克兰否决了多项任命,开始为泽连斯基的下台,做着最后的准备?

乌克兰否决了多项任命,开始为泽连斯基的下台,做着最后的准备?

军机Talk
2026-01-15 11:53:27
一个悠悠球卖1万8千元!部分地区已断货,网友:我的童年不配……

一个悠悠球卖1万8千元!部分地区已断货,网友:我的童年不配……

环球网资讯
2026-01-14 19:34:11
动荡下的小国:摩尔多瓦总统希望与罗马尼亚再次合并,瑞典新加坡担忧国家安全

动荡下的小国:摩尔多瓦总统希望与罗马尼亚再次合并,瑞典新加坡担忧国家安全

红星新闻
2026-01-14 13:18:16
“中国早就有了!”美国会炸锅

“中国早就有了!”美国会炸锅

观察者网
2026-01-15 14:11:17
演员朱珠疑似塌房?照片流出,惊呆网友!

演员朱珠疑似塌房?照片流出,惊呆网友!

大眼妹妹
2025-12-15 10:39:19
2026-01-16 02:56:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12126文章数 142536关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

美突袭委内瑞拉动用神秘武器:委士兵跪倒在地吐血

头条要闻

美突袭委内瑞拉动用神秘武器:委士兵跪倒在地吐血

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

92岁陶玉玲去世,冯远征曹可凡悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

亲子
游戏
数码
教育
公开课

亲子要闻

爸爸妈妈必备的问题答案——这个世界没有鬼!因为孩子的认知和心理承受力太小了

任天堂股价暴跌!为何索尼未收影响?专家分析来了

数码要闻

新一代SU7全系搭载小米V6s Plus超级电机,四大升级公布

教育要闻

突发!美国官宣对75个国家暂停签发所有签证,东南亚多国榜上有名

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版