网易首页 > 网易号 > 正文 申请入驻

NeurIPS 2025 | 港科大&上交大提出HoloV:剪掉近90%视觉Token,性能不掉点,多模态大模型推理“大瘦身”

0
分享至

文章来源:我爱计算机视觉(ID:aicvml)

多模态大语言模型(MLLMs)虽然功能强大,但处理高分辨率图片时,海量的视觉Token(可以理解为图像的“像素块”信息)带来了巨大的计算开销,让推理速度变得很慢。为了给这些“臃肿”的模型“瘦身”,学术界一直在研究视觉Token剪枝(Token Pruning)技术,也就是丢掉那些不重要的视觉信息。

最近,一篇被 NeurIPS 2025 接收的论文《Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention》对现有的剪枝方法提出了挑战,并带来了一个简单又高效的解决方案—— HoloV。这项研究由香港科技大学、INSAIT、索非亚大学和上海交通大学等机构的研究者们共同完成。HoloV这个名字源于“Holistic Vision”,强调了它在剪枝时所采用的“全局视觉”策略。

论文标题 : Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention

  • 作者 : Xin Zou, Di Lu, Yizhou Wang, Yibo Yan, Yuanhuiyi Lyu, Xu Zheng, Linfeng Zhang, Xuming Hu

  • 机构 : 香港科技大学(广州)、香港科技大学、INSAIT 索非亚大学、上海交通大学

  • 录用会议 : NeurIPS 2025

  • 论文地址 : https://arxiv.org/abs/2510.02912

  • 项目地址 : https://github.com/obananas/HoloV

  • 现有方法的困境:只追“高光”,丢失全局

    以往的Token剪枝方法,如FastV,大多采用一种“注意力优先”(Attention-First)的策略。它们通过计算文本和视觉之间的交叉注意力,或者利用特殊的[CLS] Token的注意力得分,来判断哪些视觉Token最“重要”,然后保留这些“高光”Token。

    这种方法看似合理,但论文作者发现了一个致命缺陷:注意力机制倾向于关注那些语义相似的Token。比如,一张图里有一只猫,那么很多高注意力的Token可能都集中在描述这只猫的不同部位。在高比例剪枝(比如剪掉90%)的情况下,模型保留下来的可能是一堆关于“猫”的冗余信息,而图片中的背景、其他物体等全局上下文信息则被完全丢弃了。这导致模型性能急剧下降。

    上图清晰地展示了这个问题,随着剪枝率的提高,基于注意力的方法(虚线)性能急剧恶化,而HoloV(实线)则能在高剪枝率下依然保持强大的性能。

    上图右侧的可视化案例更直观,FastV保留的Token(绿色点)高度集中,存在大量冗余,而HoloV保留的Token则分布更均匀,覆盖了更丰富的上下文信息。

    HoloV:从全局视角保留视觉上下文

    为了解决上述问题,HoloV放弃了只追逐“高光”Token的思路,而是从一个更宏观、更整体的视角(Holistic Perspective)来重新思考Token的保留策略。

    HoloV的核心机制可以概括为:

    1. 划分区域 :将输入的图片看作由多个空间区块(Spatial Crops)组成。

    2. 预算分配 :不再将所有“保留名额”都给注意力最高的Token,而是 自适应地将剪枝预算分配到不同的空间区块中

    3. 全局保留 :通过对高亮Token进行重新排序,确保最终保留下来的Token能够覆盖全局的视觉上下文,而不是仅仅聚集在少数几个显著特征上。

    通过这种方式,HoloV避免了“表征崩溃”(Representational Collapse)的现象,即使在极高的剪枝率下,也能有效地保留与任务相关的重要信息,实现了局部显著性和全局上下文的平衡。

    实验结果:极致的效率-精度权衡

    HoloV作为一个即插即用的框架,在多种任务、多种MLLM架构和不同剪枝率下都展现了卓越的性能。

    最惊人的结果是,在LLaVA-1.5模型上,HoloV 在剪掉了88.9%的视觉Token后,依然保留了原始模型95.8%的性能,实现了顶尖的效率-精度权衡。

    从上面两个性能对比表中可以看到,无论是在哪个基准测试上,HoloV(蓝色字体)的平均性能都远超其他SOTA方法,尤其是在高剪枝率(如87.5%)下,优势更为明显。

    在推理速度上,HoloV也带来了实打实的提升。

    该方法不仅适用于图像任务,在视频问答(Video QA)任务上同样有效。

    下面的可视化案例生动地对比了FastV和HoloV在不同剪枝率下的表现。可以看到,HoloV更好地保留了图片中的关键对象和场景信息(如路标、远处的建筑等),而FastV则丢失了大量重要上下文。

    此外,作者还对不同的模型(如Qwen2.5-VL)、不同的剪枝率、不同的超参数(如区块数量)进行了广泛的实验和消融研究,均验证了HoloV的有效性和鲁棒性。

    总结

    CV君认为,HoloV的思路为多模态大模型的效率优化提供了一个全新的、有价值的方向。在追求效率、进行信息压缩时,不能仅仅关注局部的显著性,更要保留信息的完整性和多样性。“全局观”在AI的世界里同样至关重要。HoloV的提出,无疑为实现更高效、更实用的MLLM应用铺平了道路。

    大家对这个“全局观”的剪枝方法怎么看?欢迎在评论区留下你的看法!

    特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

    Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

    相关推荐
    热点推荐
    C罗被取消6个进球?真相大白

    C罗被取消6个进球?真相大白

    星耀国际足坛
    2026-04-07 16:20:17
    杨振宁去世5个月后,49岁翁帆现状:剪了头发染了色,仍独居国内

    杨振宁去世5个月后,49岁翁帆现状:剪了头发染了色,仍独居国内

    照见古今
    2026-03-26 19:06:28
    国足未来中场主力,可能会在以下4人中诞生

    国足未来中场主力,可能会在以下4人中诞生

    男足的小球童
    2026-04-07 18:49:38
    78比72掀翻澳洲!男篮热身赛获两连胜:U18中国队3战2胜收官!

    78比72掀翻澳洲!男篮热身赛获两连胜:U18中国队3战2胜收官!

    篮球快餐车
    2026-04-07 02:54:46
    刚被特朗普点名,李在明就当着全韩国的面,宣布进入“战时状态”

    刚被特朗普点名,李在明就当着全韩国的面,宣布进入“战时状态”

    李侽在北漂
    2026-04-07 19:29:14
    德国乒协致信国际乒联,严厉批评伦敦世乒赛新赛制

    德国乒协致信国际乒联,严厉批评伦敦世乒赛新赛制

    懂球帝
    2026-04-06 17:00:09
    突发!王文灵任上被查

    突发!王文灵任上被查

    中国基金报
    2026-04-07 18:47:22
    乌克兰重创俄罗斯新罗西斯克港!击中所有码头

    乌克兰重创俄罗斯新罗西斯克港!击中所有码头

    项鹏飞
    2026-04-06 21:40:36
    联合国警告特朗普政府:若袭击伊朗民用设施 或构成战争罪

    联合国警告特朗普政府:若袭击伊朗民用设施 或构成战争罪

    新京报
    2026-04-07 20:17:06
    80年失踪已久的彭加木“现身”美国,中央严令:无论如何要找到他

    80年失踪已久的彭加木“现身”美国,中央严令:无论如何要找到他

    春秋砚
    2026-04-07 16:10:04
    伊朗:克制已结束,将打击美国及其盟友基础设施,在未来数年内切断美国及其盟友在本地区的石油和天然气供应

    伊朗:克制已结束,将打击美国及其盟友基础设施,在未来数年内切断美国及其盟友在本地区的石油和天然气供应

    新浪财经
    2026-04-07 21:16:38
    刚刚,欧美股市集体跳水

    刚刚,欧美股市集体跳水

    第一财经资讯
    2026-04-07 21:13:40
    郑丽文来南京,老板:鸭四件别错过!马英九王力宏都吃这口金陵味

    郑丽文来南京,老板:鸭四件别错过!马英九王力宏都吃这口金陵味

    马蹄烫嘴说美食
    2026-04-07 20:23:30
    佟丽娅带10岁儿子吃饭被偶遇,这孩子站那就像一幅会呼吸的旧照片

    佟丽娅带10岁儿子吃饭被偶遇,这孩子站那就像一幅会呼吸的旧照片

    庭小娱
    2026-04-07 13:40:33
    59岁江珊无单位无退休工资,一场罢演,让她一辈子为生计奔波

    59岁江珊无单位无退休工资,一场罢演,让她一辈子为生计奔波

    丹妮观
    2026-04-06 14:49:48
    二叔坐牢十年回来,全家没人理,我给他端了碗饺子,他送我三套房

    二叔坐牢十年回来,全家没人理,我给他端了碗饺子,他送我三套房

    千秋文化
    2026-02-17 14:52:56
    28亿元救一个上校,美国为何不惜一切代价非救不可?

    28亿元救一个上校,美国为何不惜一切代价非救不可?

    码头青年
    2026-04-06 07:37:05
    魏建军这次是要赌一把大的

    魏建军这次是要赌一把大的

    ZAKER新闻
    2026-04-07 19:44:47
    晚节不保?杨亚洲也没想到,倪萍如今会以这种方式让人操碎了心

    晚节不保?杨亚洲也没想到,倪萍如今会以这种方式让人操碎了心

    阿纂看事
    2026-04-07 14:28:10
    “这次穿得算保守了”,女老师短裙配蕾丝袜,学生上课头都不敢抬

    “这次穿得算保守了”,女老师短裙配蕾丝袜,学生上课头都不敢抬

    妍妍教育日记
    2026-03-21 10:05:03
    2026-04-07 22:07:00
    算法与数学之美 incentive-icons
    算法与数学之美
    分享知识,交流思想
    5460文章数 64622关注度
    往期回顾 全部

    科技要闻

    满嘴谎言!OpenAI奥特曼黑料大起底

    头条要闻

    台湾一些人被指准备"润" 赖清德曾称儿子在美"学功夫"

    头条要闻

    台湾一些人被指准备"润" 赖清德曾称儿子在美"学功夫"

    体育要闻

    官宣签约“AI球员”,这支球队被骂惨了...

    娱乐要闻

    女首富陈丽华离世 被曝生前已分好遗产

    财经要闻

    10万亿财政转移支付,被谁拿走了?

    汽车要闻

    不止是大 极狐首款MPV问道V9静态体验

    态度原创

    房产
    艺术
    家居
    健康
    军事航空

    房产要闻

    重磅!三亚拟出安居房新政!

    艺术要闻

    美丽风光看不尽

    家居要闻

    雅致惬意 感知生活之美

    干细胞抗衰4大误区,90%的人都中招

    军事要闻

    美军营救飞行员出动155架飞机

    无障碍浏览 进入关怀版