网易首页 > 网易号 > 正文 申请入驻

上海大学联合南开大学揭示多模态模型中一个被忽视的重要偏置问题

0
分享至



近年来,Vision-Language Models(视觉 — 语言模型)在多模态理解任务中取得了显著进展,并逐渐成为通用人工智能的重要技术路线。然而,这类模型在实际应用中往往面临推理开销大、效率受限的问题,研究者通常依赖 visual token pruning 等策略降低计算成本,其中 attention 机制被广泛视为衡量视觉信息重要性的关键依据。

近日,上海大学曾丹团队联合南开大学研究人员,从 attention 可靠性的角度出发,系统揭示了 Vision-Language Models 中普遍存在的 attention 偏置问题,并提出了一种无需重新训练的 attention 去偏方法,在多个主流模型、剪枝策略及图像与视频基准上验证了其有效性,为多模态模型的高效、可靠部署提供了新的思路。



  • 论文标题:Attention Debiasing for Token Pruning in Vision Language Models
  • 论文链接:https://arxiv.org/abs/2508.17807
  • 代码链接:https://github.com/intcomp/attention-bias

一、研究意义


近年来,视觉 — 语言模型(Vision-Language Models,VLMs)在图像理解、视觉问答、多模态对话等任务中表现突出,并逐渐成为通用人工智能的重要技术基础。然而,这类模型在实际部署时往往面临一个现实挑战:模型推理成本高,速度慢。

为提升效率,研究者通常会采用visual token pruning(视觉 token 剪枝)技术,即在不显著影响性能的前提下,丢弃不重要的视觉信息。其中,attention 机制 被广泛用作判断 “哪些视觉 token 更重要” 的核心依据。

但上海大学曾丹团队在研究中发现:attention 并不总是可靠的 “重要性指标”。在多模态模型中,attention 往往受到多种结构性偏置的影响,这些偏置与真实语义无关,却会直接左右剪枝结果,从而影响模型性能。

针对这一问题,该团队系统分析了 VLM 中 attention 的行为特性,提出了一种Attention Debiasing(注意力去偏)方法,在无需重新训练模型的前提下,有效提升了多种主流剪枝方法的稳定性与可靠性。如下图所示,提出的方法应用于目前基于 attention 的剪枝方法上之后,都有提升。



二、研究背景

在直觉上,attention 机制往往被理解为 “模型更关注哪里”,因此被自然地视为语义重要性的体现。然而,曾丹团队的研究表明,在 Vision-Language Models 中,attention 往往并非只由内容决定,而是隐含着多种系统性偏置。

其中最典型的有两类:

第一类是位置偏置(recency bias)。研究发现,language-to-vision attention 会随着视觉 token 在序列中的位置不断增大,也就是说,模型更倾向于关注 “后面的 token”。如图所示,这通常表现为模型对图像下方区域给予更高 attention,即便这些区域并不包含关键信息。



第二类是padding 引发的 attention sink 现象。在实际输入中,为了统一尺寸,图像往往需要 padding,但这些区域在语义上是 “空白” 的。然而,由于 hidden state 中出现异常激活,padding 对应的 token 反而可能获得较高 attention,从而被错误地保留下来。下图是 pad 区域填充不同的数值时,pad 区域对应的 attention score 数值以及 hidden states 的激活值。



更值得注意的是,当 attention 被用于剪枝排序时,这些偏置并不会被削弱,反而会被进一步放大,最终导致剪枝结果偏离真实语义需求。

三、研究方法

针对上述问题,上海大学曾丹团队并没有提出新的剪枝算法,也没有对模型结构进行修改,而是从一个更基础的角度出发:既然 attention 本身是有偏的,是否可以先对 attention 进行修正?

该团队观察到,attention 中的偏置并非随机噪声,而是呈现出稳定的整体趋势。因此,他们通过对 attention 随 token 位置变化的趋势进行拟合,构建了一条反映 “位置偏置” 的曲线,并在此基础上对原始 attention 进行去偏修正,显式削弱与内容无关的位置因素,使 attention 更接近真实的语义重要性。如下图所示。

与此同时,在剪枝阶段显式抑制 padding token 的影响,避免语义为空的区域干扰剪枝排序。整个过程无需重新训练模型,也不依赖特定的剪枝策略,可作为plug-and-play 模块直接集成到现有方法中。



四、实验结果

在实验验证中,该团队将 Attention Debiasing 方法集成到 FastV、PyramidDrop、SparseVLM、HiMAP、TokenCarve、iLLaVA 等 6 种主流 attention-based 剪枝方法中,在 10 个图像理解基准与 3 个视频理解基准 上进行了系统评估,并覆盖 LLaVA-7B / 13B 等多种主流 Vision-Language Models。

实验结果表明,在几乎所有设置下,经过 attention 去偏修正后,剪枝模型都能获得一致且稳定的性能提升,且在剪枝更激进、token 预算更紧张的情况下效果尤为明显。这说明,对 attention 进行去偏处理,有助于模型在 “更少信息” 的条件下做出更可靠的判断。





此外,通过对实验结果的可视化分析,原始 attention-based 剪枝方法往往保留了大量位于图像下方或 padding 区域的视觉 token,而与问题语义密切相关的关键区域却容易被忽略。引入 attention 去偏修正后,模型保留的视觉区域更加集中于目标物体及关键细节位置,有效减少了无关背景的干扰。该结果直观验证了 attention 去偏在提升剪枝合理性和可解释性方面的作用。



五、总结

该研究表明,attention 并非天然等价于语义重要性,尤其在 Vision-Language Models 中,如果忽视 attention 中潜在的结构性偏置,基于 attention 的剪枝策略可能会被误导。上海大学曾丹团队通过简单而有效的 attention 去偏方法,显著提升了多模态模型在效率与可靠性之间的平衡能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
去过养老院才发现:健康的老人并不受欢迎,有钱的也比没钱的痛苦

去过养老院才发现:健康的老人并不受欢迎,有钱的也比没钱的痛苦

人间百态大全
2026-01-07 06:40:02
高价器材植入体内后“消失”,郑大一附院医生诈骗94名患者获刑

高价器材植入体内后“消失”,郑大一附院医生诈骗94名患者获刑

重案组37号
2026-02-04 09:07:07
续航超600km,换电3分钟,春节返乡这台豪华纯电 SUV 太香了

续航超600km,换电3分钟,春节返乡这台豪华纯电 SUV 太香了

三农老历
2026-02-04 16:26:11
多名前员工称意外收到大疆发的新春礼盒 大疆:感恩付出 已连续发了多年

多名前员工称意外收到大疆发的新春礼盒 大疆:感恩付出 已连续发了多年

快科技
2026-02-04 00:10:45
记者:祖马已和山东泰山达成口头一致,将签署1+1合同

记者:祖马已和山东泰山达成口头一致,将签署1+1合同

懂球帝
2026-02-04 21:03:06
老人用筷子蘸酒喂5月龄宝宝,导致其肝损伤,接近肝衰竭

老人用筷子蘸酒喂5月龄宝宝,导致其肝损伤,接近肝衰竭

观威海
2026-02-04 09:06:09
广东四所高中争第二,谁能成为家长们的首选

广东四所高中争第二,谁能成为家长们的首选

解说阿洎
2026-02-03 01:01:11
0-3!U16国足遭遇完败,西班牙教头饱受质疑,董路:应该下课

0-3!U16国足遭遇完败,西班牙教头饱受质疑,董路:应该下课

绿茵舞着
2026-02-04 22:37:36
敢不敢打?我军重大人事变故后菲律宾南海演习,更像是一种试探

敢不敢打?我军重大人事变故后菲律宾南海演习,更像是一种试探

云天之巅明
2026-02-03 13:37:10
爱国者硬刚锆石!乌克兰创下高超音速拦截新纪录

爱国者硬刚锆石!乌克兰创下高超音速拦截新纪录

老马拉车莫少装
2026-02-03 22:55:29
R.I.P.,22岁前克鲁塞罗U17球员被流弹击中不幸身亡

R.I.P.,22岁前克鲁塞罗U17球员被流弹击中不幸身亡

懂球帝
2026-02-05 00:37:04
新疆塔吉克族:千年保持白人血统,为何从不与汉人通婚?

新疆塔吉克族:千年保持白人血统,为何从不与汉人通婚?

混沌录
2026-02-02 23:13:41
双重爆点!71岁成龙自曝ADHD,与小龙女26年破冰,全家近况大起底

双重爆点!71岁成龙自曝ADHD,与小龙女26年破冰,全家近况大起底

银河史记
2026-02-02 12:28:33
初中和高中的区别:初中即使每次都考第一名,到高中都可能变倒数

初中和高中的区别:初中即使每次都考第一名,到高中都可能变倒数

好爸育儿
2026-02-04 22:18:57
中铁某局出“大事”了!

中铁某局出“大事”了!

黯泉
2026-02-05 00:02:54
打起来了,美航母开了第一枪,伊朗果然好猛,各大势力选边站

打起来了,美航母开了第一枪,伊朗果然好猛,各大势力选边站

万物知识圈
2026-02-04 16:52:12
马斯克密访晶科能源叩响太空能源之门, 中国光伏巨头“第二增长曲线”怎么样?

马斯克密访晶科能源叩响太空能源之门, 中国光伏巨头“第二增长曲线”怎么样?

新浪财经
2026-02-04 22:31:16
几种毒蔬菜流通市面,建议:买菜切记避开这3样!

几种毒蔬菜流通市面,建议:买菜切记避开这3样!

健康科普365
2026-01-28 11:00:45
知道斩杀线后,再看《当幸福来敲门》:六处细思极恐,一个大Bug

知道斩杀线后,再看《当幸福来敲门》:六处细思极恐,一个大Bug

窥史
2026-01-25 21:53:37
李荣浩与杨丞琳出行,乍一看以为是爸爸领着女儿,好雷人!

李荣浩与杨丞琳出行,乍一看以为是爸爸领着女儿,好雷人!

小娱乐悠悠
2026-02-04 10:52:25
2026-02-05 01:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12251文章数 142562关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

"天下银楼"1205万元无人拍:纯银达1.75吨 不可以拆卖

头条要闻

"天下银楼"1205万元无人拍:纯银达1.75吨 不可以拆卖

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

春晚主持人阵容曝光,5位都是老面孔

财经要闻

白银,突然暴涨

汽车要闻

综合续航1730km 5座中级电混SUV吉利银河M7官图发布

态度原创

房产
旅游
艺术
家居
教育

房产要闻

还在涨!成交量连飙四个月 海口二手房开始稳了!

旅游要闻

9大主题场景+9大玩法 成都端出春节“文旅大餐”

艺术要闻

133.8亿!深圳自贸时代中心,年内竣工!

家居要闻

灰白意境 光影奏鸣曲

教育要闻

数学提分,往往从复盘开始

无障碍浏览 进入关怀版