网易首页 > 网易号 > 正文 申请入驻

NeurIPS 2025 | 港科大&上交大提出HoloV:剪掉近90%视觉Token,性能不掉点,多模态大模型推理“大瘦身”

0
分享至

文章来源:我爱计算机视觉(ID:aicvml)

多模态大语言模型(MLLMs)虽然功能强大,但处理高分辨率图片时,海量的视觉Token(可以理解为图像的“像素块”信息)带来了巨大的计算开销,让推理速度变得很慢。为了给这些“臃肿”的模型“瘦身”,学术界一直在研究视觉Token剪枝(Token Pruning)技术,也就是丢掉那些不重要的视觉信息。

最近,一篇被 NeurIPS 2025 接收的论文《Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention》对现有的剪枝方法提出了挑战,并带来了一个简单又高效的解决方案—— HoloV。这项研究由香港科技大学、INSAIT、索非亚大学和上海交通大学等机构的研究者们共同完成。HoloV这个名字源于“Holistic Vision”,强调了它在剪枝时所采用的“全局视觉”策略。



  • 论文标题 : Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention

  • 作者 : Xin Zou, Di Lu, Yizhou Wang, Yibo Yan, Yuanhuiyi Lyu, Xu Zheng, Linfeng Zhang, Xuming Hu

  • 机构 : 香港科技大学(广州)、香港科技大学、INSAIT 索非亚大学、上海交通大学

  • 录用会议 : NeurIPS 2025

  • 论文地址 : https://arxiv.org/abs/2510.02912

  • 项目地址 : https://github.com/obananas/HoloV

现有方法的困境:只追“高光”,丢失全局

以往的Token剪枝方法,如FastV,大多采用一种“注意力优先”(Attention-First)的策略。它们通过计算文本和视觉之间的交叉注意力,或者利用特殊的[CLS] Token的注意力得分,来判断哪些视觉Token最“重要”,然后保留这些“高光”Token。

这种方法看似合理,但论文作者发现了一个致命缺陷:注意力机制倾向于关注那些语义相似的Token。比如,一张图里有一只猫,那么很多高注意力的Token可能都集中在描述这只猫的不同部位。在高比例剪枝(比如剪掉90%)的情况下,模型保留下来的可能是一堆关于“猫”的冗余信息,而图片中的背景、其他物体等全局上下文信息则被完全丢弃了。这导致模型性能急剧下降。


上图清晰地展示了这个问题,随着剪枝率的提高,基于注意力的方法(虚线)性能急剧恶化,而HoloV(实线)则能在高剪枝率下依然保持强大的性能。


上图右侧的可视化案例更直观,FastV保留的Token(绿色点)高度集中,存在大量冗余,而HoloV保留的Token则分布更均匀,覆盖了更丰富的上下文信息。

HoloV:从全局视角保留视觉上下文

为了解决上述问题,HoloV放弃了只追逐“高光”Token的思路,而是从一个更宏观、更整体的视角(Holistic Perspective)来重新思考Token的保留策略。


HoloV的核心机制可以概括为:

  1. 划分区域 :将输入的图片看作由多个空间区块(Spatial Crops)组成。

  2. 预算分配 :不再将所有“保留名额”都给注意力最高的Token,而是 自适应地将剪枝预算分配到不同的空间区块中

  3. 全局保留 :通过对高亮Token进行重新排序,确保最终保留下来的Token能够覆盖全局的视觉上下文,而不是仅仅聚集在少数几个显著特征上。

通过这种方式,HoloV避免了“表征崩溃”(Representational Collapse)的现象,即使在极高的剪枝率下,也能有效地保留与任务相关的重要信息,实现了局部显著性和全局上下文的平衡。

实验结果:极致的效率-精度权衡

HoloV作为一个即插即用的框架,在多种任务、多种MLLM架构和不同剪枝率下都展现了卓越的性能。

最惊人的结果是,在LLaVA-1.5模型上,HoloV 在剪掉了88.9%的视觉Token后,依然保留了原始模型95.8%的性能,实现了顶尖的效率-精度权衡。



从上面两个性能对比表中可以看到,无论是在哪个基准测试上,HoloV(蓝色字体)的平均性能都远超其他SOTA方法,尤其是在高剪枝率(如87.5%)下,优势更为明显。

在推理速度上,HoloV也带来了实打实的提升。



该方法不仅适用于图像任务,在视频问答(Video QA)任务上同样有效。


下面的可视化案例生动地对比了FastV和HoloV在不同剪枝率下的表现。可以看到,HoloV更好地保留了图片中的关键对象和场景信息(如路标、远处的建筑等),而FastV则丢失了大量重要上下文。





此外,作者还对不同的模型(如Qwen2.5-VL)、不同的剪枝率、不同的超参数(如区块数量)进行了广泛的实验和消融研究,均验证了HoloV的有效性和鲁棒性。




总结

CV君认为,HoloV的思路为多模态大模型的效率优化提供了一个全新的、有价值的方向。在追求效率、进行信息压缩时,不能仅仅关注局部的显著性,更要保留信息的完整性和多样性。“全局观”在AI的世界里同样至关重要。HoloV的提出,无疑为实现更高效、更实用的MLLM应用铺平了道路。

大家对这个“全局观”的剪枝方法怎么看?欢迎在评论区留下你的看法!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
给环卫工人戴定位器工牌,不动就罚款?建议先给出点子的领导们普及

给环卫工人戴定位器工牌,不动就罚款?建议先给出点子的领导们普及

小萝卜丝
2026-01-23 08:56:28
立案调查!刘涛、郭晶晶代言品牌天塌了!

立案调查!刘涛、郭晶晶代言品牌天塌了!

广告创意
2026-01-23 08:24:53
表姐考研借住我家,进门就要主卧,我一句反问让她傻眼

表姐考研借住我家,进门就要主卧,我一句反问让她傻眼

晓艾故事汇
2026-01-14 16:06:25
张子强家人现状曝光:遗孀携20亿定居泰国,大儿子成了餐厅厨师

张子强家人现状曝光:遗孀携20亿定居泰国,大儿子成了餐厅厨师

谈史论天地
2026-01-20 16:40:58
广东强势击败广厦,CBA最新积分榜:广东跃升至第二!

广东强势击败广厦,CBA最新积分榜:广东跃升至第二!

星Xin辰大海
2026-01-22 16:23:04
短裙:一种关于“可能”的怀念

短裙:一种关于“可能”的怀念

疾跑的小蜗牛
2026-01-22 23:09:26
张艺谋推出巨制谍战片,打了春节档一个措手不及,影视圈要变天了

张艺谋推出巨制谍战片,打了春节档一个措手不及,影视圈要变天了

娱乐圈笔娱君
2026-01-22 18:05:08
丹麦外相:愿当面告诉特朗普 格陵兰岛主权归属不容谈判

丹麦外相:愿当面告诉特朗普 格陵兰岛主权归属不容谈判

新华社
2026-01-22 07:12:02
想要拿捏女人很简单,你只要做到这九点中的任意三点就够了

想要拿捏女人很简单,你只要做到这九点中的任意三点就够了

屏儿爱读书
2025-05-12 18:32:52
已被打假的罗大友,推广文章为何还能刊发在认证账号?

已被打假的罗大友,推广文章为何还能刊发在认证账号?

澎湃新闻
2026-01-22 07:57:06
4国首脑准备访华,中方已递出一张邀请函,3天后专机将抵达北京

4国首脑准备访华,中方已递出一张邀请函,3天后专机将抵达北京

特特农村生活
2026-01-23 04:58:33
这是怎么了?埃梅里推搡了被换下的蒂勒曼斯并对他怒吼

这是怎么了?埃梅里推搡了被换下的蒂勒曼斯并对他怒吼

懂球帝
2026-01-23 05:35:16
马克龙受了奇耻大辱,转头对中国提出两个请求,特朗普紧急摊牌

马克龙受了奇耻大辱,转头对中国提出两个请求,特朗普紧急摊牌

吃货的分享
2026-01-23 07:45:10
巴媒:巴西足协已与安切洛蒂就续约至2030年达成协议

巴媒:巴西足协已与安切洛蒂就续约至2030年达成协议

懂球帝
2026-01-23 03:57:46
央视确认!3家中超争冠队欲签李昊,欧洲队也在关注,身价2000万

央视确认!3家中超争冠队欲签李昊,欧洲队也在关注,身价2000万

我爱英超
2026-01-22 19:24:27
拜合拉木表哥:我表弟父母去世后他家里特困难,爷爷养着他长大

拜合拉木表哥:我表弟父母去世后他家里特困难,爷爷养着他长大

懂球帝
2026-01-22 16:29:28
泰国国家旅游局因Lisa旅游宣传图引发争议

泰国国家旅游局因Lisa旅游宣传图引发争议

曼谷陈大叔
2026-01-22 15:59:48
冠军联赛:吴宜泽3-1胜赵心童夺冠,赵心童打出生涯首杆147

冠军联赛:吴宜泽3-1胜赵心童夺冠,赵心童打出生涯首杆147

工从昊懂球阿靖
2026-01-23 04:49:18
金饰每克便宜200元、多人排队抢购,胖东来回应

金饰每克便宜200元、多人排队抢购,胖东来回应

界面新闻
2026-01-22 17:28:41
范志毅英籍女儿男友:一任没钱,二任太老,三任才是老范心中贵婿

范志毅英籍女儿男友:一任没钱,二任太老,三任才是老范心中贵婿

小熊侃史
2025-12-10 07:05:13
2026-01-23 09:16:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5314文章数 64599关注度
往期回顾 全部

科技要闻

财报还行,股价崩了,英特尔“掉链子”

头条要闻

美媒:美国看待中国的心态变了

头条要闻

美媒:美国看待中国的心态变了

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

车银优赚800亿 涉嫌逃税200亿!

财经要闻

西贝拿到“救命钱”,然后呢

汽车要闻

配备多块娱乐屏 极氪8X内饰曝光

态度原创

时尚
教育
亲子
手机
数码

章小姐罕见谈婚姻,这个词用得太妙了

教育要闻

安徽建大这个专业全国24!省内第2超强实力

亲子要闻

产后多久可以同房?四个注意点付医生一个视频给产后妈妈讲清楚了 产后多久可以同房?四个注意点付医生一个...

手机要闻

12月份单品销量Top20出炉,看完有点扎心

数码要闻

2026款华硕无畏Pro 14 / 16笔记本上架,6799元起

无障碍浏览 进入关怀版