网易首页 > 网易号 > 正文 申请入驻

NeurIPS 2025 | 港科大&上交大提出HoloV:剪掉近90%视觉Token,性能不掉点,多模态大模型推理“大瘦身”

0
分享至

文章来源:我爱计算机视觉(ID:aicvml)

多模态大语言模型(MLLMs)虽然功能强大,但处理高分辨率图片时,海量的视觉Token(可以理解为图像的“像素块”信息)带来了巨大的计算开销,让推理速度变得很慢。为了给这些“臃肿”的模型“瘦身”,学术界一直在研究视觉Token剪枝(Token Pruning)技术,也就是丢掉那些不重要的视觉信息。

最近,一篇被 NeurIPS 2025 接收的论文《Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention》对现有的剪枝方法提出了挑战,并带来了一个简单又高效的解决方案—— HoloV。这项研究由香港科技大学、INSAIT、索非亚大学和上海交通大学等机构的研究者们共同完成。HoloV这个名字源于“Holistic Vision”,强调了它在剪枝时所采用的“全局视觉”策略。



  • 论文标题 : Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention

  • 作者 : Xin Zou, Di Lu, Yizhou Wang, Yibo Yan, Yuanhuiyi Lyu, Xu Zheng, Linfeng Zhang, Xuming Hu

  • 机构 : 香港科技大学(广州)、香港科技大学、INSAIT 索非亚大学、上海交通大学

  • 录用会议 : NeurIPS 2025

  • 论文地址 : https://arxiv.org/abs/2510.02912

  • 项目地址 : https://github.com/obananas/HoloV

现有方法的困境:只追“高光”,丢失全局

以往的Token剪枝方法,如FastV,大多采用一种“注意力优先”(Attention-First)的策略。它们通过计算文本和视觉之间的交叉注意力,或者利用特殊的[CLS] Token的注意力得分,来判断哪些视觉Token最“重要”,然后保留这些“高光”Token。

这种方法看似合理,但论文作者发现了一个致命缺陷:注意力机制倾向于关注那些语义相似的Token。比如,一张图里有一只猫,那么很多高注意力的Token可能都集中在描述这只猫的不同部位。在高比例剪枝(比如剪掉90%)的情况下,模型保留下来的可能是一堆关于“猫”的冗余信息,而图片中的背景、其他物体等全局上下文信息则被完全丢弃了。这导致模型性能急剧下降。


上图清晰地展示了这个问题,随着剪枝率的提高,基于注意力的方法(虚线)性能急剧恶化,而HoloV(实线)则能在高剪枝率下依然保持强大的性能。


上图右侧的可视化案例更直观,FastV保留的Token(绿色点)高度集中,存在大量冗余,而HoloV保留的Token则分布更均匀,覆盖了更丰富的上下文信息。

HoloV:从全局视角保留视觉上下文

为了解决上述问题,HoloV放弃了只追逐“高光”Token的思路,而是从一个更宏观、更整体的视角(Holistic Perspective)来重新思考Token的保留策略。


HoloV的核心机制可以概括为:

  1. 划分区域 :将输入的图片看作由多个空间区块(Spatial Crops)组成。

  2. 预算分配 :不再将所有“保留名额”都给注意力最高的Token,而是 自适应地将剪枝预算分配到不同的空间区块中

  3. 全局保留 :通过对高亮Token进行重新排序,确保最终保留下来的Token能够覆盖全局的视觉上下文,而不是仅仅聚集在少数几个显著特征上。

通过这种方式,HoloV避免了“表征崩溃”(Representational Collapse)的现象,即使在极高的剪枝率下,也能有效地保留与任务相关的重要信息,实现了局部显著性和全局上下文的平衡。

实验结果:极致的效率-精度权衡

HoloV作为一个即插即用的框架,在多种任务、多种MLLM架构和不同剪枝率下都展现了卓越的性能。

最惊人的结果是,在LLaVA-1.5模型上,HoloV 在剪掉了88.9%的视觉Token后,依然保留了原始模型95.8%的性能,实现了顶尖的效率-精度权衡。



从上面两个性能对比表中可以看到,无论是在哪个基准测试上,HoloV(蓝色字体)的平均性能都远超其他SOTA方法,尤其是在高剪枝率(如87.5%)下,优势更为明显。

在推理速度上,HoloV也带来了实打实的提升。



该方法不仅适用于图像任务,在视频问答(Video QA)任务上同样有效。


下面的可视化案例生动地对比了FastV和HoloV在不同剪枝率下的表现。可以看到,HoloV更好地保留了图片中的关键对象和场景信息(如路标、远处的建筑等),而FastV则丢失了大量重要上下文。





此外,作者还对不同的模型(如Qwen2.5-VL)、不同的剪枝率、不同的超参数(如区块数量)进行了广泛的实验和消融研究,均验证了HoloV的有效性和鲁棒性。




总结

CV君认为,HoloV的思路为多模态大模型的效率优化提供了一个全新的、有价值的方向。在追求效率、进行信息压缩时,不能仅仅关注局部的显著性,更要保留信息的完整性和多样性。“全局观”在AI的世界里同样至关重要。HoloV的提出,无疑为实现更高效、更实用的MLLM应用铺平了道路。

大家对这个“全局观”的剪枝方法怎么看?欢迎在评论区留下你的看法!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中年男女“越界”后,经常做这三件事,关系大多断不掉

中年男女“越界”后,经常做这三件事,关系大多断不掉

叶飞飞情感屋
2024-12-11 18:16:56
网曝发小杀害一家三口真相:受害人吃饭讨论黄金,却被发小记心里

网曝发小杀害一家三口真相:受害人吃饭讨论黄金,却被发小记心里

谈史论天地
2025-11-01 07:50:19
记者:海港抵达武里南,莱昂纳多、加布、李帅、刘若钒伤缺

记者:海港抵达武里南,莱昂纳多、加布、李帅、刘若钒伤缺

懂球帝
2025-11-02 22:17:09
中国不想当老大,美国不想当老二!诺贝尔奖得主:这才是完蛋之处

中国不想当老大,美国不想当老二!诺贝尔奖得主:这才是完蛋之处

苏曼文史
2025-10-24 17:32:53
本周3只新股申购!1只或为高中签股,集成电路关键材料厂商也来了!

本周3只新股申购!1只或为高中签股,集成电路关键材料厂商也来了!

证券时报e公司
2025-11-03 07:54:21
2025年11月3日凌晨俄乌冲突最新战报:红军城未下,核风险攀升

2025年11月3日凌晨俄乌冲突最新战报:红军城未下,核风险攀升

阿芒娱乐说
2025-11-03 08:00:59
中美吉隆坡磋商:不只停火,更是筹码时代开端!中国打出两张王牌

中美吉隆坡磋商:不只停火,更是筹码时代开端!中国打出两张王牌

王姐懒人家常菜
2025-11-03 07:28:48
建国初期,王海容到中南海做客,一见江青直接喊了句:三奶奶

建国初期,王海容到中南海做客,一见江青直接喊了句:三奶奶

雍亲王府
2025-10-31 15:00:03
安世中国:极为震惊,强烈反对!

安世中国:极为震惊,强烈反对!

占豪
2025-11-03 03:09:30
高考失利仍上985,航天员张洪章的履历,撕开多少人“遮羞布”?

高考失利仍上985,航天员张洪章的履历,撕开多少人“遮羞布”?

Thurman在昆明
2025-11-03 06:00:31
苏超落幕,谁是真正大赢家?

苏超落幕,谁是真正大赢家?

吴晓波频道
2025-11-02 08:30:38
海牛1-0,赢球不可怕,可怕的是李霄鹏赛后一席话,尽显高情商

海牛1-0,赢球不可怕,可怕的是李霄鹏赛后一席话,尽显高情商

范櫳舍长
2025-11-02 20:20:16
11.3日早评|卖爆了!A股11月要加油!

11.3日早评|卖爆了!A股11月要加油!

龙行天下虎
2025-11-03 02:12:28
官方丨7次扑救+扑点,当选全场最佳

官方丨7次扑救+扑点,当选全场最佳

米兰圈
2025-11-03 09:02:08
你见过哪些惊为天人的神操作?网友:我愿称第一个小姐姐为天人

你见过哪些惊为天人的神操作?网友:我愿称第一个小姐姐为天人

带你感受人间冷暖
2025-11-01 00:10:10
这下好了,不仅全国人民知道了,就连空间站的航天员也知道了!

这下好了,不仅全国人民知道了,就连空间站的航天员也知道了!

夜深爱杂谈
2025-11-01 07:58:52
奇怪!上官正义协助警方解救被贩卖的婴儿后,自己却被控制数小时

奇怪!上官正义协助警方解救被贩卖的婴儿后,自己却被控制数小时

火山诗话
2025-11-03 07:10:37
CBA新赛季唯一一支全华班?曝昔日总冠军不找外援,或面临降级

CBA新赛季唯一一支全华班?曝昔日总冠军不找外援,或面临降级

老叶评球
2025-11-02 17:16:06
华泰证券:2026年度A股市场风格进入再均衡而非切换

华泰证券:2026年度A股市场风格进入再均衡而非切换

证券时报
2025-11-03 08:31:03
被坑惨了!2000亿已经给了美国,66架F-16V却一架也没得到!

被坑惨了!2000亿已经给了美国,66架F-16V却一架也没得到!

阿龙聊军事
2025-11-03 06:06:21
2025-11-03 09:12:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5208文章数 64596关注度
往期回顾 全部

科技要闻

马斯克为这事开骂:“他们什么都不懂”!

头条要闻

媒体:美防长针对中国发出尖锐"警告" 随后说法又变了

头条要闻

媒体:美防长针对中国发出尖锐"警告" 随后说法又变了

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

马斯克:未来5-6年传统手机与App将消失

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

健康
手机
游戏
亲子
教育

核磁VS肌骨超声,谁更胜一筹?

手机要闻

古尔曼:Apple Intelligence 入华计划再延期,iOS 26.4 成新目标

魔兽怀旧服:MOP内容丰富,为何玩家期待时光服?吃排骨才是关键

亲子要闻

研究:运动与电子屏幕使用方式影响青少年大脑发育

教育要闻

韦达定理构方程,实在是太巧妙啦!

无障碍浏览 进入关怀版