网易首页 > 网易号 > 正文 申请入驻

东方理工团队提出HiDrop:压缩90%视觉Token实现2.2倍加速

0
分享至



随着多模态大语言模型(MLLM)支持更长上下文,高分辨率图像和长视频会产生远多于文本的视觉 Token,在自注意力二次复杂度下迅速成为效率瓶颈。

现有研究通常通过渐进式剪枝来减少视觉 Token,但多采用固定策略,忽略了 MLLM 不同层在多模态处理中的功能差异。

通过对 MLLM 内部信息流的分析,本文发现不同层的功能存在明显差异:浅层主要传递视觉特征,中层进行跨模态融合,而深层则承担语义整合与推理,视觉信息在层间呈现明显的非均匀演化过程。

基于上述观察,宁波东方理工大学 / 宁波数字孪生(东方理工)研究院沈晓宇团队提出 HiDrop,通过 延迟注入(Late Injection) 、凹金字塔式剪枝(Concave Pyramid Pruning)和提前退出(Early Exit) 设计与模型层级功能对齐的视觉 Token 压缩策略。

实验效果: 在压缩约 90% 的视觉 Token 的情况下,HiDrop 仍能保持98.3%的模型性能,并实现1.72×的训练加速和2.2×的预填充加速。



图 1:不同视觉 Token 剪枝策略的对比。 FastV 和 TwigVLM 在浅层阶段进行早期剪枝,PDrop 在各层采用统一比例的逐层剪枝,而 HiDrop 根据模型层级功能动态调整视觉 Token:浅层延迟注入,中层进行非均匀剪枝,并在深层提前移除剩余 Token,从而在保持性能的同时显著降低计算开销。

目前,该论文已被 ICLR 2026 接收。



  • 论文标题:HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit
  • 论文链接:https://arxiv.org/pdf/2602.23699
  • 仓库链接:https://github.com/EIT-NLP/HiDrop

核心发现:揭示 MLLMS 内部信息处理的动态机制

为理解 MLLM 是如何处理和整合视觉信息,作者分析了模型表征在不同层中的演化过程。具体而言,通过计算各模态表示在层间的余弦相似度,以衡量模态内部表征的变化;同时,通过观察固定指令在配对不同图像时文本嵌入的变化,以评估视觉信息对文本表示的跨模态影响。



图 2:MLLM 各层的信息表征动态。左图展示了模态内部表征的逐层精化过程,而右图则反映了视觉与语言之间的跨模态交互强度。

浅层:从左图可以看到,浅层视觉 Token 表征具有明显的自相似性,仅在连续层之间发生微小的变化,表明 LLM 在此阶段对视觉表征的处理可忽略不计;从右图可以看到,浅层中固定指令的文本嵌入对不同的匹配图像几乎保持不变,这表明跨模态影响仍可忽略,且有意义的融合尚未发生。因此,浅层更像是视觉信息的传递通道,主要负责将视觉特征向更深层传播,而非进行实质性的语义处理。

中层:与被动的浅层不同,中层成为跨模态融合的关键阶段。此时,视觉信息开始显著影响文本表示,说明模型正在主动整合视觉与语言信息,完成语义层面的对齐与融合。然而进一步分析发现,这一过程具有明显的稀疏性:只有少量关键视觉 Token 对文本表示产生决定性影响,而大量视觉 Token 则相对冗余。因此,中层成为视觉 Token 压缩的关键阶段。

深层:当跨模态融合在中层基本完成后,模型进入以抽象语义推理为主的阶段。此时视觉信息对文本表示的直接影响逐渐减弱,模型更多依赖融合后的语义表示进行高层推理。



图 3:中层视觉 Token 的稀疏性分析。左图:不同 p 值下的视觉标记压缩曲线,其中较低的 p 值会强制实施更强的剪枝。右图:即使在高压缩率下,模型性能仍保持稳定,表明该剪枝策略具有良好的鲁棒性。

综合来看,MLLM 的信息处理呈现出明显的层级结构:浅层主要传递视觉信息,中层进行视觉与语言的跨模态融合,而深层则侧重于高层语义理解与推理。这一发现为设计更加合理的视觉 Token 压缩策略提供了重要启示。

核心方法:HiDrop 的三段式层级对齐压缩策略

基于对 MLLM 层级信息处理动态的分析,作者提出HiDrop 框架,通过与模型层级结构对齐的视觉 Token 压缩策略,在保证模型性能的同时显著降低计算开销。如图 4 所示,HiDrop 将视觉 Token 的处理划分为 浅层、中层和深层三个阶段,并分别设计了不同的压缩策略,使计算资源分配与模型实际信息处理过程相匹配。



图 4:HiDrop 框架概述 (a) 框架示意图,浅层专注于视觉无关推理,中间层通过凹金字塔式方案多阶段剪枝冗余标记,深层实现早期视觉退出。(b) Hard top-k 算子与 Differentiable Top-k 算子的对比,后者实现自适应选择并更好地保留信息。

1. 浅层:视觉延迟注入 (Late Injection)

根据前文分析,浅层对视觉信息的处理有限,视觉 Token 主要被动地向更深层传播。因此,HiDrop 并不会在模型输入时立即注入视觉 Token,而是延迟到更深层再引入。注入位置被设置在跨模态融合的起始处,作者通过视觉表征层间相似性曲线(图 2)中的局部最小值进行识别。由于浅层并不承担跨模态融合任务,这种延迟注入在减少计算量的同时几乎不会影响模型性能。

2. 中层:凹金字塔式剪枝 (Concave Pyramid Pruning)

与浅层不同,中层是视觉与语言进行跨模态融合的关键阶段,同时视觉 Token 的贡献呈现明显稀疏性。因此 HiDrop 在该阶段采用 激进的凹金字塔式剪枝策略,通过先急后缓的方式减少视觉 Token,并引入 Differentiable Top-k 算子实现自适应选择,在保持关键信息的同时降低计算开销。

为确定剪枝层级位置,作者提出 Inter-Layer Visual Attention Similarity(ILVAS) 指标,通过衡量视觉 Token 注意力在相邻层之间的稳定性来识别适合进行过滤的层,并根据 ILVAS 曲线的局部极值确定中层的剪枝位置。

3. 深层:视觉提前退出 (Early Exit)

当跨模态融合在中层基本完成后,模型进入以高层语义理解与推理为主的阶段,此时视觉 Token 对文本表示的影响显著减弱。因此,HiDrop 在深层提前移除剩余视觉 Token,使后续层仅处理融合后的语义表示。

为确定退出位置,作者通过 从深到浅的掩码分析 观察性能变化,并选择性能趋于稳定的退出点,从而减少深层注意力计算。结合浅层的 延迟注入 与深层的 提前退出,HiDrop 实际形成了一个 聚焦的视觉处理窗口,将视觉 Token 的计算集中在中间层。消融实验表明,该窗口识别策略能够实现良好的效率–性能 trade-off。

此外,HiDrop 还针对动态 Token 选择带来的实现挑战进行了优化,例如采用 持久化位置编码 保持位置一致性、保持与 FlashAttention 的兼容,并通过并行解耦视觉计算进一步缩短预填充时间。

实验结果:更高压缩率,更优性能,更佳效率



在多个多模态基准测试上,HiDrop 在更高压缩率下仍保持优异性能。实验结果表明,当压缩率为 88.9% 时,仍能保持 98.3% 的原始性能;即使压缩率进一步提升至 91.7% 时,其性能仍然超过 PDrop 在 88.9% 压缩率下的表现,展现出更优的压缩–性能 trade-off。



除了保持性能外,HiDrop 还显著提升了计算效率。该方法将平均视觉 Token 数量减少约 90%,大幅降低了推理 FLOPs,并在 LLaVA-1.5-7B 上实现约 1.7× 的训练加速和 2.2× 预填充加速

总结

本文从 MLLM 内部的信息处理动态出发,揭示了视觉信息在不同层中的功能差异,并据此提出 HiDrop 压缩框架。实验结果表明,HiDrop 在实现极高视觉 Token 压缩率的同时仍能保持接近原始模型的性能,并显著提升训练与推理效率。该研究表明,理解模型内部的信息流结构是设计高效多模态模型的重要方向。

作者介绍

第一作者吴浩,为宁波东方理工大学 / 宁波数字孪生(东方理工)研究院沈晓宇团队科研助理,研究方向为多模态大模型压缩和流式大模型。其在 ICLR、CVPR、ECCV 等顶级会议发表多篇研究成果,其中一篇入选 Best Paper Award Finalist。更多科研项目成果请参阅实验室主页:https://idt.eitech.edu.cn/nlp/#/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
林诗栋抢王楚钦风头!险被逆转却跳球桌狂欢,把自己演成关键英雄

林诗栋抢王楚钦风头!险被逆转却跳球桌狂欢,把自己演成关键英雄

三十年莱斯特城球迷
2026-05-11 01:58:15
“你管这面相叫聪慧明理?”宝妈写小作文偏袒小儿子,被网友群嘲

“你管这面相叫聪慧明理?”宝妈写小作文偏袒小儿子,被网友群嘲

妍妍教育日记
2026-05-09 14:41:48
陈若仪晒和Kimi合照庆母亲节,公开13年前龅牙照坦言不敢公开社群

陈若仪晒和Kimi合照庆母亲节,公开13年前龅牙照坦言不敢公开社群

小椰的奶奶
2026-05-11 03:51:11
给患癌病亡父亲写信的保研清华小伙拍高考应援视频:高中时为10万元奖金考清华北大没成功,和偶像庞众望见面时哭了

给患癌病亡父亲写信的保研清华小伙拍高考应援视频:高中时为10万元奖金考清华北大没成功,和偶像庞众望见面时哭了

极目新闻
2026-05-10 08:40:50
弗里克:下个目标是拿到100分,下赛季会为欧冠冠军努力

弗里克:下个目标是拿到100分,下赛季会为欧冠冠军努力

懂球帝
2026-05-11 07:43:39
炸裂!熊孩子刮花6张PS5光盘 家长仅200元打发了事

炸裂!熊孩子刮花6张PS5光盘 家长仅200元打发了事

游民星空
2026-05-10 17:44:13
汉坦病毒mRNA疫苗全球研发缓慢,中国相关灭活疫苗已上市20年

汉坦病毒mRNA疫苗全球研发缓慢,中国相关灭活疫苗已上市20年

红星新闻
2026-05-09 17:39:29
王浩案重现?老人猝死公交车上,家属索要巨额赔偿,法院这样判!

王浩案重现?老人猝死公交车上,家属索要巨额赔偿,法院这样判!

阿凫爱吐槽
2026-05-09 23:27:53
他套现百亿,留下27万股民和一张ST废纸,闻泰科技给投资者上了一课

他套现百亿,留下27万股民和一张ST废纸,闻泰科技给投资者上了一课

A活着
2026-05-09 20:47:26
孔特跪服马宁!武磊送点,国安10年主场不胜海港,1人成关键罪人

孔特跪服马宁!武磊送点,国安10年主场不胜海港,1人成关键罪人

话体坛
2026-05-10 22:36:55
2:3!日本女团惜败国乒,张本美和赛后采访满是心有不甘与心碎!

2:3!日本女团惜败国乒,张本美和赛后采访满是心有不甘与心碎!

田先生篮球
2026-05-10 23:07:16
弊端显现!7岁小天赐74岁妈妈患病,剃光头发暴瘦,疑似接受化疗

弊端显现!7岁小天赐74岁妈妈患病,剃光头发暴瘦,疑似接受化疗

裕丰娱间说
2026-05-10 20:35:50
随着韩国4-1,印度0-3,也门3-2,亚洲杯最新积分榜出炉

随着韩国4-1,印度0-3,也门3-2,亚洲杯最新积分榜出炉

侧身凌空斩
2026-05-11 03:15:16
5月11日精选热点:电子布再度涨价  这些低位股要爆发

5月11日精选热点:电子布再度涨价 这些低位股要爆发

元芳说投资
2026-05-10 21:26:42
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
为了冲10%增长,越南赌场KTV全面松绑

为了冲10%增长,越南赌场KTV全面松绑

凤眼论
2026-05-10 22:14:23
小流氓遇见大流氓,美国正式封锁霍尔木兹海峡

小流氓遇见大流氓,美国正式封锁霍尔木兹海峡

海子侃生活
2026-04-14 10:10:15
遗憾官宣!陈赫直播透露:李晨加盟五哈彻底受阻,多次协调无果

遗憾官宣!陈赫直播透露:李晨加盟五哈彻底受阻,多次协调无果

一盅情怀
2026-05-10 17:29:06
《亢奋》第三季争议镜头曝光,剧组内部曾激烈反对

《亢奋》第三季争议镜头曝光,剧组内部曾激烈反对

影视情报室
2026-05-11 00:33:52
Redis创始人开源ds4:几千行C代码让DeepSeek V4跑在MacBook上

Redis创始人开源ds4:几千行C代码让DeepSeek V4跑在MacBook上

小星球探索
2026-05-10 17:11:04
2026-05-11 07:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12957文章数 142646关注度
往期回顾 全部

科技要闻

OPPO们永远学不会的年轻化

头条要闻

特朗普:伊朗的回应“完全不可接受”

头条要闻

特朗普:伊朗的回应“完全不可接受”

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

亲子
家居
房产
公开课
军事航空

亲子要闻

这对劲吗咋还说话了

家居要闻

菁英人居 全能豪宅

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版