网易首页 > 网易号 > 正文 申请入驻

关于多模态大模型Token压缩技术进展,看这一篇就够了

0
分享至



近年来多模态大模型在视觉感知,长视频问答等方面涌现出了强劲的性能,但是这种跨模态融合也带来了巨大的计算成本。高分辨率图像和长视频会产生成千上万个视觉 token ,带来极高的显存占用和延迟,限制了模型的可扩展性和本地部署。

正是这种紧迫的需求催生了MLLMToken Compression,迅速成为研究爆点,两年内在该垂直领域产出了约 200 篇论文。但是随着研究工作的快速涌现,领域内的方法也变得极其庞杂难以归类,进一步具体到落地场景里面,往往因为方法多样而难以选择。

针对这一背景,来自北京大学、中国科学技术大学等机构的研究人员,首先基于压缩位置对方法进行了系统归类,然后讨论了对于特定的部署场景应该选择何种压缩机制,最后探讨了目前的挑战和具有前景的方向。



  • Github 链接: https://github.com/yaolinli/MLLM-Token-Compression
  • 论文链接: https://www.techrxiv.org/doi/full/10.36227/techrxiv.176823010.07236701/v1



图 1. MLLMs 中 Token 压缩代表性工作时间线

基于压缩位置视角的系统分类(where to compress)



图 2. MLLM Token 压缩方法的系统分类

研究人员根据Token 压缩方法在 MLLM 架构中应用的位置,对现有方法进行了系统性的分类。在从视觉输入到文本输出的整个处理过程中,Token 压缩策略可以逐步部署在三个架构模块中:

  • Vision Encoder:在此阶段进行压缩可以降低视觉感知阶段的计算开销;
  • Projector:在从视觉表示空间向语言表示空间转换的过程中整合 Token 削减技术;
  • Large Language Model:在此阶段进行压缩可实现整体的跨模态效率优化。

(1)Vision Encoder 中的压缩



图 3. MLLMs 中视觉编码器模块所采用的 Token 压缩策略示意图

在 MLLMs 中,视觉数据本质上比文本具有更高的冗余性,而由于视觉编码器是编码视觉输入的第一个模块,在这一初始阶段减少视觉 Token 可以为整个 MLLM 系统带来显著的效率提升。研究人员首先回顾并将在视觉编码器模块中应用的视觉侧 Token 压缩方法分为两大类:视觉编码器内部压缩(Inside-VE)和视觉编码器外部压缩(Outside-VE)。由于视觉编码器不同的层会捕捉不同尺度的视觉信息,从低层纹理到高层概念,因此 Inside-VE 往往通过开发多尺度压缩方案来协调各层之间的压缩。Outside-VE 的设计具有即插即用的特点,对原始架构的改动极小,并且可以根据是否引入文本信号进行灵活的设计。

(2)Projector 中的压缩



图 4. MLLMs 中 projector 模块所采用的 Token 压缩策略示意图

Projector module 作为一个接口,将原始的视觉嵌入转换为与语言兼容的表示形式,从而确保 vision encoder 提取的信息能被大语言模型有效利用。虽然像 Q-Former 这样的早期 projector 架构通过将大量的视觉嵌入提炼为一组紧凑的查询 Token,实现了高效 Token 压缩,但后续的大量研究为 projector 引入了额外的设计增强,以实现更细粒度和任务自适应的压缩。研究人员将这些方法大致分为三大类并进行了详细的讨论:基于变换的方法,基于查询的方法和重要性驱动的方法。

(3)LLM 中的压缩



图 5. MLLMs 中 projector 模块所采用的 Token 压缩策略示意图

由于 LLM 的参数量通常远超视觉编码器和投影器,会成为性能瓶颈的关键组件,在这一阶段进行高效压缩会产生直接收益。MLLM 早期发展阶段非常关注短文本视觉问答(VQA),因此这一时期的压缩策略专注于预填充阶段,会在输入序列第一次在 LLM 中 forward 时就对视觉 token 进行压缩。但是随着思维链技术的飞速发展,研究重心已转向长视觉问答场景,这些技术通常在 decoding 阶段选择性地剪枝或合并 KV Cache 来降低内存和计算成本。

(4)多模块压缩

除了在单个组件内应用 Token 压缩外,近期已有越来越多的方法开始探索跨多个模块的压缩策略,以实现更高的压缩效率和更优的表征质量。这类方法主要关注如何协调不同组件之间的压缩,并将其组织为一个多阶段过程,从而最大限度地提高整体效率和表征质量。对于这种混合压缩策略,研究人员详细介绍并分析了两种新兴的设计范式:多模块协同压缩以及多阶段渐进式压缩。



表 1. 代表性 MLLMs token 压缩策略总结

不同使用场景下如何选择合适的压缩策略(how to select)

由于 Token 压缩设计方法的激增,有必要制定相关指南,以帮助从业者针对特定的部署场景选择最佳策略,研究人员对关键的选择因素进行了全面对比。

(1)针对视频输入的时空增强压缩

虽然现有的空间压缩策略可以直接应用于单帧,但它们通常无法利用帧间的冗余。为了填补这一空白,最近的研究提出了时空增强的 Token 压缩方法,这些方法明确考虑了时间结构,以实现高效的长序列建模。研究人员进一步详细介绍了应该使用哪些策略解决时空联合压缩,时序结构保留以及超长序列等实际挑战。

(2)纯视觉压缩 vs. 文本引导压缩

现有方法根据其是否利用了文本信息(用户指令)可分为纯视觉压缩和文本引导压缩,这两种策略是互补的,一种实用的设计是:首先通过纯视觉压缩导出紧凑的视觉表示,然后在语言模块中应用文本引导的选择机制,以精炼出与给定文本查询相关的 Token。

(3)Token Merging vs. Token Dropping

Token Merging 提供了平滑的聚合,适用于密集或在时间上冗余的视觉输入;而当高层语义已足够稀疏时,Token Dropping 的效率则更具优势。未来的框架可能会受益于自适应的混合设计,根据模态特征和冗余类型,在 “软聚合” 和 “硬剪枝” 之间进行动态切换。

(4)即插即用方法 vs. 重训练方法

即插即用方法非常适合在训练资源有限或任务需求相对温和的情况下,进行快速部署和推理加速。然而,它们的性能上限相对有限,最近的研究进一步通过实验证明免训练 Token 压缩方法在需要高分辨率视觉理解任务中,会出现显著的性能下降。相比之下,重训练方法在细粒度多模态理解方面表现优异,能够提供更高的性能上限,但代价是大量的额外训练开销。

(5)加速训练 vs. 加速推理

由于任务的相似性,原则上所有可用于 LLM 预填充的加速推理策略也都可以用于加速训练,但是大多数 sota MLLM 仍然使用最简单的 Token 压缩机制,如 pooling,pixel unshuffle 等。为什么这些多样化的方法没有被主流 LVLM 广泛采用?研究人员分析了三个主要原因:Flash Attention 兼容性问题,训练验证成本高昂导致的策略保守,归纳偏置导致的泛化性下降(Inductive bias)。由于目前的 MLLM 旨在用于通用目的,任何特定能力的退化都是不可接受的。

结语

尽管 MLLMs 的 Token 压缩技术取得了快速进展,但仍有若干开放性挑战值得进一步研究,比如缺乏理论辅助,缺乏任务与内容感知的自适应性,实际细粒度感知的任务性能下降,这些都是值得进一步探索的重要问题。

本文的 survey 后续会保持更新,将在 v2 版本中整理 Token 压缩研究中常用的图像和视频理解基准测试,并据此构建一个全面的评估框架。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
离除夕夜不到一个月,央视春晚再传噩耗,继岳云鹏后孙涛官宣告别

离除夕夜不到一个月,央视春晚再传噩耗,继岳云鹏后孙涛官宣告别

小椰的奶奶
2026-01-27 00:18:59
英特尔重挫6%,美股半导体普跌,白银飙升8%,特朗普政府入股,美国稀土公司大涨62%

英特尔重挫6%,美股半导体普跌,白银飙升8%,特朗普政府入股,美国稀土公司大涨62%

21世纪经济报道
2026-01-26 23:51:46
王健已任辽宁省政协党组副书记,此前任省委常委、常务副省长

王健已任辽宁省政协党组副书记,此前任省委常委、常务副省长

澎湃新闻
2026-01-26 20:03:15
本赛季首次遭遇伤病!快船后场大闸的状态会因此受到影响吗?

本赛季首次遭遇伤病!快船后场大闸的状态会因此受到影响吗?

稻谷与小麦
2026-01-27 00:34:27
苹果突然发布新品:1月27日,全面开售!

苹果突然发布新品:1月27日,全面开售!

搞机小帝
2026-01-27 00:26:56
致死率最高达75%!印度尼帕病毒疫情多名医护中招:可通过飞沫传播,感染源或是患者

致死率最高达75%!印度尼帕病毒疫情多名医护中招:可通过飞沫传播,感染源或是患者

红星新闻
2026-01-26 11:29:16
贾浅浅《进城》再引骂战!短诗藏底层痛感,性暗示纯属过度脑补?

贾浅浅《进城》再引骂战!短诗藏底层痛感,性暗示纯属过度脑补?

匹夫来搞笑
2026-01-26 07:19:09
被拉入黑名单的5个生活用品,它们正在偷走你的健康!你还在用吗

被拉入黑名单的5个生活用品,它们正在偷走你的健康!你还在用吗

美家指南
2025-11-28 17:10:53
莫斯科邀请川普访俄,特朗普愉快应允,背后暗藏怎样玄机?

莫斯科邀请川普访俄,特朗普愉快应允,背后暗藏怎样玄机?

史政先锋
2026-01-26 16:28:08
贝克汉姆坚持儿子离婚,16亿婚前协议导致和解困难

贝克汉姆坚持儿子离婚,16亿婚前协议导致和解困难

君笙的拂兮
2026-01-26 15:51:34
以一己之力负债2.4万亿,许家印靠山是谁?说出来你可能不信

以一己之力负债2.4万亿,许家印靠山是谁?说出来你可能不信

历史伟人录
2025-11-28 13:58:56
2-0大爆冷!国足掀翻亚洲第5克,全场压着踢,邵佳一战胜卡纳瓦罗

2-0大爆冷!国足掀翻亚洲第5克,全场压着踢,邵佳一战胜卡纳瓦罗

大秦壁虎白话体育
2026-01-26 22:38:02
湖人迎补强良机!曝3届全明星或被买断,湖人成头号下家

湖人迎补强良机!曝3届全明星或被买断,湖人成头号下家

夜白侃球
2026-01-26 20:32:08
三个省级党委组织部部长调整

三个省级党委组织部部长调整

上观新闻
2026-01-26 13:11:03
为何欧盟接受了乌克兰的所有要求?

为何欧盟接受了乌克兰的所有要求?

高博新视野
2026-01-26 18:43:00
27家医药企业赚翻了:国药一致、药明康德、甘李药业...

27家医药企业赚翻了:国药一致、药明康德、甘李药业...

赛柏蓝
2026-01-26 20:32:10
李湘终于回应了!辟谣因洗钱被禁言,律师维权声明曝光!

李湘终于回应了!辟谣因洗钱被禁言,律师维权声明曝光!

古希腊掌管月桂的神
2026-01-26 15:58:43
外资撤不走,中国拦不住,如今的中国广东,制造早已不是代工

外资撤不走,中国拦不住,如今的中国广东,制造早已不是代工

甜柠聊史
2026-01-23 14:01:57
一语惊醒梦中人!欧洲高官直言:搞垮中国,就是给美国送霸权!

一语惊醒梦中人!欧洲高官直言:搞垮中国,就是给美国送霸权!

达文西看世界
2026-01-24 11:29:41
国内首家!光伏关键材料“卡脖子”难题获突破

国内首家!光伏关键材料“卡脖子”难题获突破

中国日报网
2026-01-26 12:01:02
2026-01-27 04:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12193文章数 142549关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

印度尼帕病毒现跨区域传播 世卫:或引起全球大流行

头条要闻

印度尼帕病毒现跨区域传播 世卫:或引起全球大流行

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

旅游
艺术
时尚
亲子
公开课

旅游要闻

本市将打造中国入境旅游首选地

艺术要闻

沙特急刹车,NEOM规模大缩水,线性摩天楼留小段

甜了10年,超多暧昧细节,全网求他俩原地结婚

亲子要闻

“生孩子老了就这下场”,母亲用按摩机被女儿网暴,网友看不下去

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版