网易首页 > 网易号 > 正文 申请入驻

东方理工团队提出HiDrop:压缩90%视觉Token实现2.2倍加速

0
分享至



随着多模态大语言模型(MLLM)支持更长上下文,高分辨率图像和长视频会产生远多于文本的视觉 Token,在自注意力二次复杂度下迅速成为效率瓶颈。

现有研究通常通过渐进式剪枝来减少视觉 Token,但多采用固定策略,忽略了 MLLM 不同层在多模态处理中的功能差异。

通过对 MLLM 内部信息流的分析,本文发现不同层的功能存在明显差异:浅层主要传递视觉特征,中层进行跨模态融合,而深层则承担语义整合与推理,视觉信息在层间呈现明显的非均匀演化过程。

基于上述观察,宁波东方理工大学 / 宁波数字孪生(东方理工)研究院沈晓宇团队提出 HiDrop,通过 延迟注入(Late Injection) 、凹金字塔式剪枝(Concave Pyramid Pruning)和提前退出(Early Exit) 设计与模型层级功能对齐的视觉 Token 压缩策略。

实验效果: 在压缩约 90% 的视觉 Token 的情况下,HiDrop 仍能保持98.3%的模型性能,并实现1.72×的训练加速和2.2×的预填充加速。



图 1:不同视觉 Token 剪枝策略的对比。 FastV 和 TwigVLM 在浅层阶段进行早期剪枝,PDrop 在各层采用统一比例的逐层剪枝,而 HiDrop 根据模型层级功能动态调整视觉 Token:浅层延迟注入,中层进行非均匀剪枝,并在深层提前移除剩余 Token,从而在保持性能的同时显著降低计算开销。

目前,该论文已被 ICLR 2026 接收。



  • 论文标题:HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit
  • 论文链接:https://arxiv.org/pdf/2602.23699
  • 仓库链接:https://github.com/EIT-NLP/HiDrop

核心发现:揭示 MLLMS 内部信息处理的动态机制

为理解 MLLM 是如何处理和整合视觉信息,作者分析了模型表征在不同层中的演化过程。具体而言,通过计算各模态表示在层间的余弦相似度,以衡量模态内部表征的变化;同时,通过观察固定指令在配对不同图像时文本嵌入的变化,以评估视觉信息对文本表示的跨模态影响。



图 2:MLLM 各层的信息表征动态。左图展示了模态内部表征的逐层精化过程,而右图则反映了视觉与语言之间的跨模态交互强度。

浅层:从左图可以看到,浅层视觉 Token 表征具有明显的自相似性,仅在连续层之间发生微小的变化,表明 LLM 在此阶段对视觉表征的处理可忽略不计;从右图可以看到,浅层中固定指令的文本嵌入对不同的匹配图像几乎保持不变,这表明跨模态影响仍可忽略,且有意义的融合尚未发生。因此,浅层更像是视觉信息的传递通道,主要负责将视觉特征向更深层传播,而非进行实质性的语义处理。

中层:与被动的浅层不同,中层成为跨模态融合的关键阶段。此时,视觉信息开始显著影响文本表示,说明模型正在主动整合视觉与语言信息,完成语义层面的对齐与融合。然而进一步分析发现,这一过程具有明显的稀疏性:只有少量关键视觉 Token 对文本表示产生决定性影响,而大量视觉 Token 则相对冗余。因此,中层成为视觉 Token 压缩的关键阶段。

深层:当跨模态融合在中层基本完成后,模型进入以抽象语义推理为主的阶段。此时视觉信息对文本表示的直接影响逐渐减弱,模型更多依赖融合后的语义表示进行高层推理。



图 3:中层视觉 Token 的稀疏性分析。左图:不同 p 值下的视觉标记压缩曲线,其中较低的 p 值会强制实施更强的剪枝。右图:即使在高压缩率下,模型性能仍保持稳定,表明该剪枝策略具有良好的鲁棒性。

综合来看,MLLM 的信息处理呈现出明显的层级结构:浅层主要传递视觉信息,中层进行视觉与语言的跨模态融合,而深层则侧重于高层语义理解与推理。这一发现为设计更加合理的视觉 Token 压缩策略提供了重要启示。

核心方法:HiDrop 的三段式层级对齐压缩策略

基于对 MLLM 层级信息处理动态的分析,作者提出HiDrop 框架,通过与模型层级结构对齐的视觉 Token 压缩策略,在保证模型性能的同时显著降低计算开销。如图 4 所示,HiDrop 将视觉 Token 的处理划分为 浅层、中层和深层三个阶段,并分别设计了不同的压缩策略,使计算资源分配与模型实际信息处理过程相匹配。



图 4:HiDrop 框架概述 (a) 框架示意图,浅层专注于视觉无关推理,中间层通过凹金字塔式方案多阶段剪枝冗余标记,深层实现早期视觉退出。(b) Hard top-k 算子与 Differentiable Top-k 算子的对比,后者实现自适应选择并更好地保留信息。

1. 浅层:视觉延迟注入 (Late Injection)

根据前文分析,浅层对视觉信息的处理有限,视觉 Token 主要被动地向更深层传播。因此,HiDrop 并不会在模型输入时立即注入视觉 Token,而是延迟到更深层再引入。注入位置被设置在跨模态融合的起始处,作者通过视觉表征层间相似性曲线(图 2)中的局部最小值进行识别。由于浅层并不承担跨模态融合任务,这种延迟注入在减少计算量的同时几乎不会影响模型性能。

2. 中层:凹金字塔式剪枝 (Concave Pyramid Pruning)

与浅层不同,中层是视觉与语言进行跨模态融合的关键阶段,同时视觉 Token 的贡献呈现明显稀疏性。因此 HiDrop 在该阶段采用 激进的凹金字塔式剪枝策略,通过先急后缓的方式减少视觉 Token,并引入 Differentiable Top-k 算子实现自适应选择,在保持关键信息的同时降低计算开销。

为确定剪枝层级位置,作者提出 Inter-Layer Visual Attention Similarity(ILVAS) 指标,通过衡量视觉 Token 注意力在相邻层之间的稳定性来识别适合进行过滤的层,并根据 ILVAS 曲线的局部极值确定中层的剪枝位置。

3. 深层:视觉提前退出 (Early Exit)

当跨模态融合在中层基本完成后,模型进入以高层语义理解与推理为主的阶段,此时视觉 Token 对文本表示的影响显著减弱。因此,HiDrop 在深层提前移除剩余视觉 Token,使后续层仅处理融合后的语义表示。

为确定退出位置,作者通过 从深到浅的掩码分析 观察性能变化,并选择性能趋于稳定的退出点,从而减少深层注意力计算。结合浅层的 延迟注入 与深层的 提前退出,HiDrop 实际形成了一个 聚焦的视觉处理窗口,将视觉 Token 的计算集中在中间层。消融实验表明,该窗口识别策略能够实现良好的效率–性能 trade-off。

此外,HiDrop 还针对动态 Token 选择带来的实现挑战进行了优化,例如采用 持久化位置编码 保持位置一致性、保持与 FlashAttention 的兼容,并通过并行解耦视觉计算进一步缩短预填充时间。

实验结果:更高压缩率,更优性能,更佳效率



在多个多模态基准测试上,HiDrop 在更高压缩率下仍保持优异性能。实验结果表明,当压缩率为 88.9% 时,仍能保持 98.3% 的原始性能;即使压缩率进一步提升至 91.7% 时,其性能仍然超过 PDrop 在 88.9% 压缩率下的表现,展现出更优的压缩–性能 trade-off。



除了保持性能外,HiDrop 还显著提升了计算效率。该方法将平均视觉 Token 数量减少约 90%,大幅降低了推理 FLOPs,并在 LLaVA-1.5-7B 上实现约 1.7× 的训练加速和 2.2× 预填充加速

总结

本文从 MLLM 内部的信息处理动态出发,揭示了视觉信息在不同层中的功能差异,并据此提出 HiDrop 压缩框架。实验结果表明,HiDrop 在实现极高视觉 Token 压缩率的同时仍能保持接近原始模型的性能,并显著提升训练与推理效率。该研究表明,理解模型内部的信息流结构是设计高效多模态模型的重要方向。

作者介绍

第一作者吴浩,为宁波东方理工大学 / 宁波数字孪生(东方理工)研究院沈晓宇团队科研助理,研究方向为多模态大模型压缩和流式大模型。其在 ICLR、CVPR、ECCV 等顶级会议发表多篇研究成果,其中一篇入选 Best Paper Award Finalist。更多科研项目成果请参阅实验室主页:https://idt.eitech.edu.cn/nlp/#/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杀鱼姐含泪想重回胖东来?离职后才看清,自己没有想象中那么值钱

杀鱼姐含泪想重回胖东来?离职后才看清,自己没有想象中那么值钱

今朝牛马
2026-06-26 22:44:51
白宫官员:美国可能会考虑申办2038年男足世界杯

白宫官员:美国可能会考虑申办2038年男足世界杯

懂球帝
2026-06-26 18:23:24
一出好戏上演,高市宣布出席APEC但不见中方,美国找个理由不来了

一出好戏上演,高市宣布出席APEC但不见中方,美国找个理由不来了

云上乌托邦
2026-06-26 22:07:08
康宁玻璃桥技术推动玻璃光互联爆发,核心受益12大龙头名单!

康宁玻璃桥技术推动玻璃光互联爆发,核心受益12大龙头名单!

普陀动物世界
2026-06-27 01:37:26
俄罗斯本土连遭重创,欧洲多国情报警告,俄军或袭击北约破局

俄罗斯本土连遭重创,欧洲多国情报警告,俄军或袭击北约破局

全球风情大揭秘
2026-06-27 05:11:12
美媒曝出重磅交易方案:湖人送出四名核心球员,报价伦纳德!

美媒曝出重磅交易方案:湖人送出四名核心球员,报价伦纳德!

夜白侃球
2026-06-26 10:39:04
吴月娘:我这浪肉,被男人摸一下真好

吴月娘:我这浪肉,被男人摸一下真好

老达子
2026-06-26 06:50:03
女演员千万别整容,看42岁王佳佳和40岁江疏影同框,就知道了

女演员千万别整容,看42岁王佳佳和40岁江疏影同框,就知道了

芬霏剧时光
2026-06-26 11:31:34
德媒:卡拉斯遭“孤立”暴露欧盟权斗

德媒:卡拉斯遭“孤立”暴露欧盟权斗

环球网资讯
2026-06-26 06:44:16
河南南阳通报“‘无主’冻货在南阳被查扣并拍卖”:依法查处无检验检疫合格证明的冷冻肉食品,涉事均为过境车辆,拍卖期间未收到认领申请

河南南阳通报“‘无主’冻货在南阳被查扣并拍卖”:依法查处无检验检疫合格证明的冷冻肉食品,涉事均为过境车辆,拍卖期间未收到认领申请

大风新闻
2026-06-26 15:21:55
中国斯诺克战报!贺国强全胜晋级,新人终结连败,吕昊天2平1负!

中国斯诺克战报!贺国强全胜晋级,新人终结连败,吕昊天2平1负!

刘姚尧的文字城堡
2026-06-27 07:48:51
创历史!杨紫成白玉兰首位90后最佳女主角 于和伟斩获最佳男主角

创历史!杨紫成白玉兰首位90后最佳女主角 于和伟斩获最佳男主角

上观新闻
2026-06-26 22:17:32
WC!三项指控!警方逮捕韦德儿子...

WC!三项指控!警方逮捕韦德儿子...

技巧君侃球
2026-06-27 08:00:36
美联储想不到,第一个被拉爆的是日本?日元40年生命线岌岌可危

美联储想不到,第一个被拉爆的是日本?日元40年生命线岌岌可危

北向财经
2026-06-26 21:27:30
断粮了!黄一鸣主账号与亲子账号被封,网友:王思聪的大麻烦来了

断粮了!黄一鸣主账号与亲子账号被封,网友:王思聪的大麻烦来了

火山詩话
2026-06-27 06:15:36
王忠林任全国人大环境与资源保护委员会副主任委员

王忠林任全国人大环境与资源保护委员会副主任委员

澎湃新闻
2026-06-26 19:50:33
就马岛主权问题,中方明确表态

就马岛主权问题,中方明确表态

上观新闻
2026-06-26 10:09:00
离谱至极!突尼斯球员半场迟到致比赛中断,BBC解说直言难以置信

离谱至极!突尼斯球员半场迟到致比赛中断,BBC解说直言难以置信

夜白侃球
2026-06-26 09:47:22
雨雨雨雨雨!大雨暴雨连片!确认重返江苏

雨雨雨雨雨!大雨暴雨连片!确认重返江苏

江南晚报
2026-06-27 02:48:03
真是被惯坏了!初三家长用奶茶袋子送大疆,女儿秒臭脸,气到网友

真是被惯坏了!初三家长用奶茶袋子送大疆,女儿秒臭脸,气到网友

世界圈
2026-06-27 08:22:56
2026-06-27 09:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13370文章数 142682关注度
往期回顾 全部

科技要闻

GPT-5.6发布,旗舰模型先向可信伙伴开放

头条要闻

没有牛的牧场空转8年 130万"牧场主"碎了:涉案5.6亿

头条要闻

没有牛的牧场空转8年 130万"牧场主"碎了:涉案5.6亿

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

玥儿不回北京,马筱梅解释后妈身份

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

11.99万起 捷途自由者7 PLUS/山海T1四驱版上市

态度原创

数码
手机
亲子
艺术
家居

数码要闻

戴尔外星人推出AW3426DW曲面电竞显示器,34英寸QD-OLED 280Hz

手机要闻

vivo 联发科共研大屏 AI 最优解,X Fold6 展开旗舰折叠新时代

亲子要闻

当妈妈说给我买黄金木乃伊+四月返场转盘!

艺术要闻

莫兰迪不多见的简约风景画!

家居要闻

绿意盎然 自然之境

无障碍浏览 进入关怀版