网易首页 > 网易号 > 正文 申请入驻

上海大学联合南开大学揭示多模态模型中一个被忽视的重要偏置问题

0
分享至



近年来,Vision-Language Models(视觉 — 语言模型)在多模态理解任务中取得了显著进展,并逐渐成为通用人工智能的重要技术路线。然而,这类模型在实际应用中往往面临推理开销大、效率受限的问题,研究者通常依赖 visual token pruning 等策略降低计算成本,其中 attention 机制被广泛视为衡量视觉信息重要性的关键依据。

近日,上海大学曾丹团队联合南开大学研究人员,从 attention 可靠性的角度出发,系统揭示了 Vision-Language Models 中普遍存在的 attention 偏置问题,并提出了一种无需重新训练的 attention 去偏方法,在多个主流模型、剪枝策略及图像与视频基准上验证了其有效性,为多模态模型的高效、可靠部署提供了新的思路。



  • 论文标题:Attention Debiasing for Token Pruning in Vision Language Models
  • 论文链接:https://arxiv.org/abs/2508.17807
  • 代码链接:https://github.com/intcomp/attention-bias

一、研究意义


近年来,视觉 — 语言模型(Vision-Language Models,VLMs)在图像理解、视觉问答、多模态对话等任务中表现突出,并逐渐成为通用人工智能的重要技术基础。然而,这类模型在实际部署时往往面临一个现实挑战:模型推理成本高,速度慢。

为提升效率,研究者通常会采用visual token pruning(视觉 token 剪枝)技术,即在不显著影响性能的前提下,丢弃不重要的视觉信息。其中,attention 机制 被广泛用作判断 “哪些视觉 token 更重要” 的核心依据。

但上海大学曾丹团队在研究中发现:attention 并不总是可靠的 “重要性指标”。在多模态模型中,attention 往往受到多种结构性偏置的影响,这些偏置与真实语义无关,却会直接左右剪枝结果,从而影响模型性能。

针对这一问题,该团队系统分析了 VLM 中 attention 的行为特性,提出了一种Attention Debiasing(注意力去偏)方法,在无需重新训练模型的前提下,有效提升了多种主流剪枝方法的稳定性与可靠性。如下图所示,提出的方法应用于目前基于 attention 的剪枝方法上之后,都有提升。



二、研究背景

在直觉上,attention 机制往往被理解为 “模型更关注哪里”,因此被自然地视为语义重要性的体现。然而,曾丹团队的研究表明,在 Vision-Language Models 中,attention 往往并非只由内容决定,而是隐含着多种系统性偏置。

其中最典型的有两类:

第一类是位置偏置(recency bias)。研究发现,language-to-vision attention 会随着视觉 token 在序列中的位置不断增大,也就是说,模型更倾向于关注 “后面的 token”。如图所示,这通常表现为模型对图像下方区域给予更高 attention,即便这些区域并不包含关键信息。



第二类是padding 引发的 attention sink 现象。在实际输入中,为了统一尺寸,图像往往需要 padding,但这些区域在语义上是 “空白” 的。然而,由于 hidden state 中出现异常激活,padding 对应的 token 反而可能获得较高 attention,从而被错误地保留下来。下图是 pad 区域填充不同的数值时,pad 区域对应的 attention score 数值以及 hidden states 的激活值。



更值得注意的是,当 attention 被用于剪枝排序时,这些偏置并不会被削弱,反而会被进一步放大,最终导致剪枝结果偏离真实语义需求。

三、研究方法

针对上述问题,上海大学曾丹团队并没有提出新的剪枝算法,也没有对模型结构进行修改,而是从一个更基础的角度出发:既然 attention 本身是有偏的,是否可以先对 attention 进行修正?

该团队观察到,attention 中的偏置并非随机噪声,而是呈现出稳定的整体趋势。因此,他们通过对 attention 随 token 位置变化的趋势进行拟合,构建了一条反映 “位置偏置” 的曲线,并在此基础上对原始 attention 进行去偏修正,显式削弱与内容无关的位置因素,使 attention 更接近真实的语义重要性。如下图所示。

与此同时,在剪枝阶段显式抑制 padding token 的影响,避免语义为空的区域干扰剪枝排序。整个过程无需重新训练模型,也不依赖特定的剪枝策略,可作为plug-and-play 模块直接集成到现有方法中。



四、实验结果

在实验验证中,该团队将 Attention Debiasing 方法集成到 FastV、PyramidDrop、SparseVLM、HiMAP、TokenCarve、iLLaVA 等 6 种主流 attention-based 剪枝方法中,在 10 个图像理解基准与 3 个视频理解基准 上进行了系统评估,并覆盖 LLaVA-7B / 13B 等多种主流 Vision-Language Models。

实验结果表明,在几乎所有设置下,经过 attention 去偏修正后,剪枝模型都能获得一致且稳定的性能提升,且在剪枝更激进、token 预算更紧张的情况下效果尤为明显。这说明,对 attention 进行去偏处理,有助于模型在 “更少信息” 的条件下做出更可靠的判断。





此外,通过对实验结果的可视化分析,原始 attention-based 剪枝方法往往保留了大量位于图像下方或 padding 区域的视觉 token,而与问题语义密切相关的关键区域却容易被忽略。引入 attention 去偏修正后,模型保留的视觉区域更加集中于目标物体及关键细节位置,有效减少了无关背景的干扰。该结果直观验证了 attention 去偏在提升剪枝合理性和可解释性方面的作用。



五、总结

该研究表明,attention 并非天然等价于语义重要性,尤其在 Vision-Language Models 中,如果忽视 attention 中潜在的结构性偏置,基于 attention 的剪枝策略可能会被误导。上海大学曾丹团队通过简单而有效的 attention 去偏方法,显著提升了多模态模型在效率与可靠性之间的平衡能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普警告伊朗在和平协议问题上“认真起来”

特朗普警告伊朗在和平协议问题上“认真起来”

界面新闻
2026-03-26 19:29:30
战争太残酷,3天死一个加强旅

战争太残酷,3天死一个加强旅

北京作家编剧肥猪满圈
2026-03-24 19:08:36
勇敢发声!科威特记者联合国痛批“反以仪式”

勇敢发声!科威特记者联合国痛批“反以仪式”

Nee看
2026-03-26 14:15:21
张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

180视角
2026-03-26 14:51:03
张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

未曾青梅
2026-03-26 22:48:49
全新速腾S价格盲猜:若真10万左右,这波“值”字赢麻了!

全新速腾S价格盲猜:若真10万左右,这波“值”字赢麻了!

车知事
2026-03-26 21:34:27
原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

大铁猫娱乐
2026-03-25 13:03:57
官宣!中国最大省再设立新县,什么信号?

官宣!中国最大省再设立新县,什么信号?

西部城市
2026-03-26 21:08:33
张雪峰灵堂照曝光,门口摆满了花圈,网友看到遗像后心里酸酸的

张雪峰灵堂照曝光,门口摆满了花圈,网友看到遗像后心里酸酸的

180视角
2026-03-26 18:36:11
特朗普再次表态:伊朗正与美方对话

特朗普再次表态:伊朗正与美方对话

财联社
2026-03-26 23:10:07
石油危机一旦爆发,房子、现金、股票、黄金谁最危险?

石油危机一旦爆发,房子、现金、股票、黄金谁最危险?

蜉蝣说
2026-03-26 16:52:10
突发,雷军辞职董事长!

突发,雷军辞职董事长!

品牌头版
2026-03-26 14:46:17
日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

知法而形
2026-03-25 18:38:56
岛上设陷阱,海上堵两头!伊朗布下天罗地网,曼德海峡将成美国经济新“放血点”?

岛上设陷阱,海上堵两头!伊朗布下天罗地网,曼德海峡将成美国经济新“放血点”?

红星新闻
2026-03-26 18:34:31
去世还不到48小时,张雪峰过往争议被扒,出轨传闻早已真相大白

去世还不到48小时,张雪峰过往争议被扒,出轨传闻早已真相大白

兰亭墨未干
2026-03-26 22:47:38
苹果 Max 新品正式开售,3999 元起!

苹果 Max 新品正式开售,3999 元起!

科技堡垒
2026-03-26 11:36:39
伊朗军方:已击中或击落202架各类美以军机

伊朗军方:已击中或击落202架各类美以军机

界面新闻
2026-03-26 15:29:15
周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

爆角追踪
2026-03-26 08:56:24
中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

何氽简史
2026-03-26 15:40:58
泰国征兵广告用张凌赫做海报:想像“武安侯”一样帅气骑马吗?今年四月报名参军 选择骑兵部队

泰国征兵广告用张凌赫做海报:想像“武安侯”一样帅气骑马吗?今年四月报名参军 选择骑兵部队

闪电新闻
2026-03-26 17:45:38
2026-03-26 23:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
时尚
数码
艺术
军事航空

旅游要闻

探访资中文旅新地标 邂逅千年古城的诗与远方

这些才是适合春季的穿搭!不沉闷、不单调,大方靓丽又减龄

数码要闻

Intel IBOT加速技术揭秘!硬件不变 白嫖22%游戏性能

艺术要闻

哪一座桥不是风景?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版