网易首页 > 网易号 > 正文 申请入驻

VLM剪枝新SOTA:无需重训练,注意力去偏置超越6大主流方案

0
分享至


新智元报道

编辑:LRST

【新智元导读】常用的attention机制存在位置偏置和padding异常,影响剪枝效果。上海大学曾丹团队提出一种无需重新训练的attention去偏方法,有效提升剪枝性能,使模型在信息受限时仍能可靠运行,为VLMs在移动端和边缘计算等场景的高效部署提供了新思路。

近年来,Vision-Language Models(视觉—语言模型)在多模态理解任务中取得了显著进展,并逐渐成为通用人工智能的重要技术路线。

然而,这类模型在实际应用中往往面临推理开销大、效率受限的问题,研究者通常依赖visual token pruning等策略降低计算成本,其中attention机制被广泛视为衡量视觉信息重要性的关键依据。

近日,上海大学曾丹团队联合南开大学研究人员,从attention可靠性的角度出发,系统揭示了Vision-Language Models中普遍存在的attention偏置问题,并提出了一种无需重新训练的attention去偏方法,在多个主流模型、剪枝策略及图像与视频基准上验证了其有效性,为多模态模型的高效、可靠部署提供了新的思路。


文章代码:https://github.com/intcomp/attention-bias

文章链接:https://arxiv.org/abs/2508.17807

研究意义

近年来,视觉—语言模型(Vision-Language Models,VLMs)在图像理解、视觉问答、多模态对话等任务中表现突出,并逐渐成为通用人工智能的重要技术基础。

然而,这类模型在实际部署时往往面临一个现实挑战:模型推理成本高,速度慢

为提升效率,研究者通常会采用visual token pruning(视觉 token 剪枝)技术,即在不显著影响性能的前提下,丢弃不重要的视觉信息。其中,attention机制被广泛用作判断「哪些视觉 token 更重要」的核心依据。

但上海大学曾丹团队在研究中发现:attention并不总是可靠的「重要性指标」

在多模态模型中,attention 往往受到多种结构性偏置的影响,这些偏置与真实语义无关,却会直接左右剪枝结果,从而影响模型性能。

针对这一问题,该团队系统分析了VLM中attention的行为特性,提出了一种Attention Debiasing(注意力去偏)方法,在无需重新训练模型的前提下,有效提升了多种主流剪枝方法的稳定性与可靠性。

如下图所示,提出的方法应用于目前基于attention的剪枝方法上之后,都有提升。


研究背景

在直觉上,attention机制往往被理解为「模型更关注哪里」,因此被自然地视为语义重要性的体现。

然而,曾丹团队的研究表明,在Vision-Language Models中,attention 往往并非只由内容决定,而是隐含着多种系统性偏置。

其中最典型的有两类:

第一类是位置偏置(recency bias)。研究发现,language-to-vision attention 会随着视觉 token 在序列中的位置不断增大,也就是说,模型更倾向于关注「后面的 token」。如图所示,这通常表现为模型对图像下方区域给予更高 attention,即便这些区域并不包含关键信息。


第二类是padding引发的attention sink现象。在实际输入中,为了统一尺寸,图像往往需要padding,但这些区域在语义上是「空白」的。然而,由于hidden state中出现异常激活,padding对应的token反而可能获得较高attention,从而被错误地保留下来。下图是pad区域填充不同的数值时,pad区域对应的attention score数值以及hidden states的激活值。


更值得注意的是,当attention被用于剪枝排序时,这些偏置并不会被削弱,反而会被进一步放大,最终导致剪枝结果偏离真实语义需求。

研究方法

针对上述问题,上海大学曾丹团队并没有提出新的剪枝算法,也没有对模型结构进行修改,而是从一个更基础的角度出发:既然attention本身是有偏的,是否可以先对attention进行修正?

该团队观察到,attention中的偏置并非随机噪声,而是呈现出稳定的整体趋势。因此,他们通过对attention随token位置变化的趋势进行拟合,构建了一条反映「位置偏置」的曲线,并在此基础上对原始attention进行去偏修正,显式削弱与内容无关的位置因素,使attention更接近真实的语义重要性。如下图所示。

与此同时,在剪枝阶段显式抑制padding token的影响,避免语义为空的区域干扰剪枝排序。整个过程无需重新训练模型,也不依赖特定的剪枝策略,可作为plug-and-play模块直接集成到现有方法中。


实验结果和应用前景

在实验验证中,该团队将Attention Debiasing方法集成到FastV、PyramidDrop、SparseVLM、HiMAP、TokenCarve、iLLaVA等6种主流attention-based剪枝方法中,在10个图像理解基准与3个视频理解基准上进行了系统评估,并覆盖LLaVA-7B / 13B等多种主流Vision-Language Models

实验结果表明,在几乎所有设置下,经过attention去偏修正后,剪枝模型都能获得一致且稳定的性能提升,且在剪枝更激进、token预算更紧张的情况下效果尤为明显。这说明,对attention进行去偏处理,有助于模型在「更少信息」的条件下做出更可靠的判断。



此外,通过对实验结果的可视化分析,原始attention-based剪枝方法往往保留了大量位于图像下方或padding区域的视觉token,而与问题语义密切相关的关键区域却容易被忽略。引入attention去偏修正后,模型保留的视觉区域更加集中于目标物体及关键细节位置,有效减少了无关背景的干扰。该结果直观验证了attention去偏在提升剪枝合理性和可解释性方面的作用。

从应用角度来看,该研究对多模态模型在「移动端部署、边缘计算、实时视觉理解」等场景具有重要意义,也为后续更稳健的attention设计和多模态模型优化提供了新的研究思路。


总结

该研究表明,attention并非天然等价于语义重要性,尤其在Vision-Language Models中,如果忽视attention中潜在的结构性偏置,基于attention的剪枝策略可能会被误导。

上海大学曾丹团队通过简单而有效的attention去偏方法,显著提升了多模态模型在效率与可靠性之间的平衡能力。

参考资料:

https://arxiv.org/abs/2508.17807


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国500公里超远程空空导弹亮相,重塑太平洋空战格局

中国500公里超远程空空导弹亮相,重塑太平洋空战格局

正经的烧杯1
2026-01-30 18:41:15
高市早苗硬刚中国两月,流泪放话还有大事要干,俄电话打到北京

高市早苗硬刚中国两月,流泪放话还有大事要干,俄电话打到北京

时尚的弄潮
2026-01-30 23:32:49
巴尔达诺:穆帅知道如何对付皇马,用高位逼抢和提高比赛节奏

巴尔达诺:穆帅知道如何对付皇马,用高位逼抢和提高比赛节奏

懂球帝
2026-01-30 22:27:07
昔日不世出天才,如今22岁没人要:拔苗助长毁了他职业生涯机会

昔日不世出天才,如今22岁没人要:拔苗助长毁了他职业生涯机会

里芃芃体育
2026-01-30 03:00:03
电磁弹射的代价:为何“福建”号常规动力无法支撑中国的远洋野心

电磁弹射的代价:为何“福建”号常规动力无法支撑中国的远洋野心

潋滟晴方DAY
2026-01-26 01:12:20
不打伊朗了?俄武器到货,美调转枪口,逼中国外交官收拾包袱走人

不打伊朗了?俄武器到货,美调转枪口,逼中国外交官收拾包袱走人

音乐时光的娱乐
2026-01-30 17:20:44
阿森纳 8000 万王牌铁心离队!阿尔特塔无奈松口,两大豪门抢疯了

阿森纳 8000 万王牌铁心离队!阿尔特塔无奈松口,两大豪门抢疯了

澜归序
2026-01-30 05:31:22
法尔克:拜仁给于帕2000万年薪+2000万签字费,要求周日前答复

法尔克:拜仁给于帕2000万年薪+2000万签字费,要求周日前答复

懂球帝
2026-01-30 04:05:45
49条航线“熔断”仅一天,让人恶心的一幕出现,中方罕见升级警告

49条航线“熔断”仅一天,让人恶心的一幕出现,中方罕见升级警告

壹知眠羊
2026-01-30 11:51:40
斯诺克赛程:决出4强,2个罗伯逊PK,囧哥战克星,肖国栋11连败?

斯诺克赛程:决出4强,2个罗伯逊PK,囧哥战克星,肖国栋11连败?

刘姚尧的文字城堡
2026-01-30 08:21:43
OPTA统计:英超100%锁定下赛季额外欧冠名额,继续有5队参加

OPTA统计:英超100%锁定下赛季额外欧冠名额,继续有5队参加

兰亭墨未干
2026-01-31 00:29:18
四国演练击沉中国军舰,中方轻飘飘回了句英文,伤害不大侮辱性强

四国演练击沉中国军舰,中方轻飘飘回了句英文,伤害不大侮辱性强

墨兰史书
2026-01-30 17:25:04
战争打响,伊朗唯一活路是把一万枚导弹当成“一次性打火机”!

战争打响,伊朗唯一活路是把一万枚导弹当成“一次性打火机”!

百态人间
2026-01-29 15:41:40
缅北明珍珍伏法,不满30岁魂归黄泉,坟前注定只有荒草无祭品

缅北明珍珍伏法,不满30岁魂归黄泉,坟前注定只有荒草无祭品

一盅情怀
2026-01-30 20:39:34
至今未破的悬案——“南大碎尸案”背后的疑团与真相

至今未破的悬案——“南大碎尸案”背后的疑团与真相

清清河边草
2024-12-20 21:17:32
68岁王朔现状:满头白发神似李亚鹏,手上没钱,靠朋友接济过活

68岁王朔现状:满头白发神似李亚鹏,手上没钱,靠朋友接济过活

小徐讲八卦
2026-01-30 11:33:42
邓莎14年AA制豪门婚姻终结!送13岁儿子去英国留学后不联系她!

邓莎14年AA制豪门婚姻终结!送13岁儿子去英国留学后不联系她!

一盅情怀
2026-01-30 20:09:36
中国芯片英雄,被美国囚禁9年后终于回家!他反手把苹果告上法庭

中国芯片英雄,被美国囚禁9年后终于回家!他反手把苹果告上法庭

胖哥不胡说
2026-01-24 18:45:24
李亚鹏找到医院新址,直播眼里泛泪,房东心态崩了,只求过个好年

李亚鹏找到医院新址,直播眼里泛泪,房东心态崩了,只求过个好年

子芫伴你成长
2026-01-25 08:10:03
2-3!国乒再爆冷门:女单二号种子首轮出局,输给排名第243位对手

2-3!国乒再爆冷门:女单二号种子首轮出局,输给排名第243位对手

越岭寻踪
2026-01-30 01:14:25
2026-01-31 02:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14445文章数 66549关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

金晨是否构成肇事逃逸 助理顶包有何后果 律师解读

头条要闻

金晨是否构成肇事逃逸 助理顶包有何后果 律师解读

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

水贝惊雷:揭秘杰我睿百亿黄金赌局的背后

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

艺术
房产
健康
教育
游戏

艺术要闻

惊艳!越南摄影师镜头下的妩媚女子!

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

耳石症分类型,症状大不同

教育要闻

害群之马!老师因“把分数写在试卷上”被家长投诉,官方要求整改

我们参加了《古神:风里希》的线下发布会,这次是真的神仙打架

无障碍浏览 进入关怀版