网易首页 > 网易号 > 正文 申请入驻

东方理工团队提出HiDrop:压缩90%视觉Token实现2.2倍加速

0
分享至



随着多模态大语言模型(MLLM)支持更长上下文,高分辨率图像和长视频会产生远多于文本的视觉 Token,在自注意力二次复杂度下迅速成为效率瓶颈。

现有研究通常通过渐进式剪枝来减少视觉 Token,但多采用固定策略,忽略了 MLLM 不同层在多模态处理中的功能差异。

通过对 MLLM 内部信息流的分析,本文发现不同层的功能存在明显差异:浅层主要传递视觉特征,中层进行跨模态融合,而深层则承担语义整合与推理,视觉信息在层间呈现明显的非均匀演化过程。

基于上述观察,宁波东方理工大学 / 宁波数字孪生(东方理工)研究院沈晓宇团队提出 HiDrop,通过 延迟注入(Late Injection) 、凹金字塔式剪枝(Concave Pyramid Pruning)和提前退出(Early Exit) 设计与模型层级功能对齐的视觉 Token 压缩策略。

实验效果: 在压缩约 90% 的视觉 Token 的情况下,HiDrop 仍能保持98.3%的模型性能,并实现1.72×的训练加速和2.2×的预填充加速。



图 1:不同视觉 Token 剪枝策略的对比。 FastV 和 TwigVLM 在浅层阶段进行早期剪枝,PDrop 在各层采用统一比例的逐层剪枝,而 HiDrop 根据模型层级功能动态调整视觉 Token:浅层延迟注入,中层进行非均匀剪枝,并在深层提前移除剩余 Token,从而在保持性能的同时显著降低计算开销。

目前,该论文已被 ICLR 2026 接收。



  • 论文标题:HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit
  • 论文链接:https://arxiv.org/pdf/2602.23699
  • 仓库链接:https://github.com/EIT-NLP/HiDrop

核心发现:揭示 MLLMS 内部信息处理的动态机制

为理解 MLLM 是如何处理和整合视觉信息,作者分析了模型表征在不同层中的演化过程。具体而言,通过计算各模态表示在层间的余弦相似度,以衡量模态内部表征的变化;同时,通过观察固定指令在配对不同图像时文本嵌入的变化,以评估视觉信息对文本表示的跨模态影响。



图 2:MLLM 各层的信息表征动态。左图展示了模态内部表征的逐层精化过程,而右图则反映了视觉与语言之间的跨模态交互强度。

浅层:从左图可以看到,浅层视觉 Token 表征具有明显的自相似性,仅在连续层之间发生微小的变化,表明 LLM 在此阶段对视觉表征的处理可忽略不计;从右图可以看到,浅层中固定指令的文本嵌入对不同的匹配图像几乎保持不变,这表明跨模态影响仍可忽略,且有意义的融合尚未发生。因此,浅层更像是视觉信息的传递通道,主要负责将视觉特征向更深层传播,而非进行实质性的语义处理。

中层:与被动的浅层不同,中层成为跨模态融合的关键阶段。此时,视觉信息开始显著影响文本表示,说明模型正在主动整合视觉与语言信息,完成语义层面的对齐与融合。然而进一步分析发现,这一过程具有明显的稀疏性:只有少量关键视觉 Token 对文本表示产生决定性影响,而大量视觉 Token 则相对冗余。因此,中层成为视觉 Token 压缩的关键阶段。

深层:当跨模态融合在中层基本完成后,模型进入以抽象语义推理为主的阶段。此时视觉信息对文本表示的直接影响逐渐减弱,模型更多依赖融合后的语义表示进行高层推理。



图 3:中层视觉 Token 的稀疏性分析。左图:不同 p 值下的视觉标记压缩曲线,其中较低的 p 值会强制实施更强的剪枝。右图:即使在高压缩率下,模型性能仍保持稳定,表明该剪枝策略具有良好的鲁棒性。

综合来看,MLLM 的信息处理呈现出明显的层级结构:浅层主要传递视觉信息,中层进行视觉与语言的跨模态融合,而深层则侧重于高层语义理解与推理。这一发现为设计更加合理的视觉 Token 压缩策略提供了重要启示。

核心方法:HiDrop 的三段式层级对齐压缩策略

基于对 MLLM 层级信息处理动态的分析,作者提出HiDrop 框架,通过与模型层级结构对齐的视觉 Token 压缩策略,在保证模型性能的同时显著降低计算开销。如图 4 所示,HiDrop 将视觉 Token 的处理划分为 浅层、中层和深层三个阶段,并分别设计了不同的压缩策略,使计算资源分配与模型实际信息处理过程相匹配。



图 4:HiDrop 框架概述 (a) 框架示意图,浅层专注于视觉无关推理,中间层通过凹金字塔式方案多阶段剪枝冗余标记,深层实现早期视觉退出。(b) Hard top-k 算子与 Differentiable Top-k 算子的对比,后者实现自适应选择并更好地保留信息。

1. 浅层:视觉延迟注入 (Late Injection)

根据前文分析,浅层对视觉信息的处理有限,视觉 Token 主要被动地向更深层传播。因此,HiDrop 并不会在模型输入时立即注入视觉 Token,而是延迟到更深层再引入。注入位置被设置在跨模态融合的起始处,作者通过视觉表征层间相似性曲线(图 2)中的局部最小值进行识别。由于浅层并不承担跨模态融合任务,这种延迟注入在减少计算量的同时几乎不会影响模型性能。

2. 中层:凹金字塔式剪枝 (Concave Pyramid Pruning)

与浅层不同,中层是视觉与语言进行跨模态融合的关键阶段,同时视觉 Token 的贡献呈现明显稀疏性。因此 HiDrop 在该阶段采用 激进的凹金字塔式剪枝策略,通过先急后缓的方式减少视觉 Token,并引入 Differentiable Top-k 算子实现自适应选择,在保持关键信息的同时降低计算开销。

为确定剪枝层级位置,作者提出 Inter-Layer Visual Attention Similarity(ILVAS) 指标,通过衡量视觉 Token 注意力在相邻层之间的稳定性来识别适合进行过滤的层,并根据 ILVAS 曲线的局部极值确定中层的剪枝位置。

3. 深层:视觉提前退出 (Early Exit)

当跨模态融合在中层基本完成后,模型进入以高层语义理解与推理为主的阶段,此时视觉 Token 对文本表示的影响显著减弱。因此,HiDrop 在深层提前移除剩余视觉 Token,使后续层仅处理融合后的语义表示。

为确定退出位置,作者通过 从深到浅的掩码分析 观察性能变化,并选择性能趋于稳定的退出点,从而减少深层注意力计算。结合浅层的 延迟注入 与深层的 提前退出,HiDrop 实际形成了一个 聚焦的视觉处理窗口,将视觉 Token 的计算集中在中间层。消融实验表明,该窗口识别策略能够实现良好的效率–性能 trade-off。

此外,HiDrop 还针对动态 Token 选择带来的实现挑战进行了优化,例如采用 持久化位置编码 保持位置一致性、保持与 FlashAttention 的兼容,并通过并行解耦视觉计算进一步缩短预填充时间。

实验结果:更高压缩率,更优性能,更佳效率



在多个多模态基准测试上,HiDrop 在更高压缩率下仍保持优异性能。实验结果表明,当压缩率为 88.9% 时,仍能保持 98.3% 的原始性能;即使压缩率进一步提升至 91.7% 时,其性能仍然超过 PDrop 在 88.9% 压缩率下的表现,展现出更优的压缩–性能 trade-off。



除了保持性能外,HiDrop 还显著提升了计算效率。该方法将平均视觉 Token 数量减少约 90%,大幅降低了推理 FLOPs,并在 LLaVA-1.5-7B 上实现约 1.7× 的训练加速和 2.2× 预填充加速

总结

本文从 MLLM 内部的信息处理动态出发,揭示了视觉信息在不同层中的功能差异,并据此提出 HiDrop 压缩框架。实验结果表明,HiDrop 在实现极高视觉 Token 压缩率的同时仍能保持接近原始模型的性能,并显著提升训练与推理效率。该研究表明,理解模型内部的信息流结构是设计高效多模态模型的重要方向。

作者介绍

第一作者吴浩,为宁波东方理工大学 / 宁波数字孪生(东方理工)研究院沈晓宇团队科研助理,研究方向为多模态大模型压缩和流式大模型。其在 ICLR、CVPR、ECCV 等顶级会议发表多篇研究成果,其中一篇入选 Best Paper Award Finalist。更多科研项目成果请参阅实验室主页:https://idt.eitech.edu.cn/nlp/#/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不婚不育会被亲戚惦记财产吗?网友:我死之前花完,谁也别惦记

不婚不育会被亲戚惦记财产吗?网友:我死之前花完,谁也别惦记

带你感受人间冷暖
2026-03-14 00:10:08
人类有史以来最大的航母诞生!中国第4艘航空母舰高清卫星图曝光

人类有史以来最大的航母诞生!中国第4艘航空母舰高清卫星图曝光

咣当地球
2026-03-24 09:52:27
20岁女生长期开灯睡觉胖到200斤

20岁女生长期开灯睡觉胖到200斤

观威海
2026-03-24 09:35:51
豪取12连胜,二当家又满血归来!这下冠军和MVP悬念都快被打没了

豪取12连胜,二当家又满血归来!这下冠军和MVP悬念都快被打没了

锅子篮球
2026-03-24 11:58:53
这才是地球禁区!30秒毁全身细胞,剧毒万年不散,内部画面罕曝光

这才是地球禁区!30秒毁全身细胞,剧毒万年不散,内部画面罕曝光

历史的烟火
2026-03-16 17:16:46
特斯拉国内即将迎来重大更新,六项新功能来了!

特斯拉国内即将迎来重大更新,六项新功能来了!

XCiOS俱乐部
2026-03-24 12:05:09
最新消息:伊朗承认美、伊接触谈判属实

最新消息:伊朗承认美、伊接触谈判属实

名人苟或
2026-03-24 14:43:02
1958年,阎锡山和儿子吃早餐,几碟小菜就馒头,父子俩已貌合神离

1958年,阎锡山和儿子吃早餐,几碟小菜就馒头,父子俩已貌合神离

云霄纪史观
2026-03-23 19:52:03
打脸时刻!ESPN赛季前预测战绩被翻出:勇士63胜领跑全联盟

打脸时刻!ESPN赛季前预测战绩被翻出:勇士63胜领跑全联盟

罗说NBA
2026-03-24 06:52:51
同样是晚清重臣,李鸿章后代出了张爱玲,左宗棠后代却在干这些事

同样是晚清重臣,李鸿章后代出了张爱玲,左宗棠后代却在干这些事

阿校谈史
2026-03-23 13:50:43
黄金暴跌的真相

黄金暴跌的真相

虎嗅APP
2026-03-21 20:10:34
谁敢动中国我就灭谁!两国曾向全球发出警告,现在却对准了中国!

谁敢动中国我就灭谁!两国曾向全球发出警告,现在却对准了中国!

杰丝聊古今
2026-03-24 13:52:46
一个女子的生理期,照出了多少衣冠楚楚的禽兽?

一个女子的生理期,照出了多少衣冠楚楚的禽兽?

胖胖说他不胖
2026-03-22 16:05:14
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
比科幻片更恐怖!墨西哥湾流快撑不住了?科学家发现几个危险信号

比科幻片更恐怖!墨西哥湾流快撑不住了?科学家发现几个危险信号

Science科学说
2026-03-23 08:05:03
4月1日起慢病医保彻底变天,三类慢病手机办理,报销比例直接拉满

4月1日起慢病医保彻底变天,三类慢病手机办理,报销比例直接拉满

老特有话说
2026-03-23 15:36:01
中煤大同能源有限责任公司党委书记、董事长张仲清被查

中煤大同能源有限责任公司党委书记、董事长张仲清被查

界面新闻
2026-03-24 10:50:56
四川省人大常委会原党组成员、副主任宋朝华被提起公诉

四川省人大常委会原党组成员、副主任宋朝华被提起公诉

新京报
2026-03-24 10:12:10
315还没完,央视再曝活鱼内幕,不仅暴利还有剧毒,赶紧告诉家人

315还没完,央视再曝活鱼内幕,不仅暴利还有剧毒,赶紧告诉家人

潮鹿逐梦
2026-03-23 16:55:09
通牒变停火?美国这场赌局已经露了底牌

通牒变停火?美国这场赌局已经露了底牌

看看新闻Knews
2026-03-23 20:53:13
2026-03-24 15:56:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12583文章数 142592关注度
往期回顾 全部

科技要闻

苹果WWDC26全球开发者大会官宣6月9日开幕

头条要闻

小区公共收益现-74万元 业主惊呆:5年临时停车收入0

头条要闻

小区公共收益现-74万元 业主惊呆:5年临时停车收入0

体育要闻

NBA最强左手射手,是个右撇子

娱乐要闻

林峰张馨月全家浙江游 岳母帮忙带女儿

财经要闻

很多人,都被黄金吓怕了!

汽车要闻

尚界Z7双车预售22.98万起 问界M6预售26.98万起

态度原创

数码
家居
游戏
旅游
教育

数码要闻

飞利浦2026款全系电视放弃Google TV换用Titan OS

家居要闻

智慧生活 奢享家居

《红色沙漠》脏话用词遭媒体批评:与中世纪设定不符

旅游要闻

踏青好去处!临清千亩杏花烂漫盛开

教育要闻

静待花开——李艳家教好故事

无障碍浏览 进入关怀版