网易首页 > 网易号 > 正文 申请入驻

CVPR 2026 | 追踪视觉Token的演化轨迹,实现无损压缩与60%推理加速

0
分享至

近年来,以LLaVA、Qwen系列为代表的大视觉语言模型(LVLM)推动了多模态智能的发展,在视觉理解与推理任务中展现不错的表现。然而,其伴随着高昂的推理成本。面对高分辨率图像或者视频时,模型往往需要处理大量视觉Token,而这些Token会在整个推理过程中持续参与计算,成为制约模型效率的重要瓶颈。因此,如何识别并保留真正重要的视觉Token,在尽可能不影响性能的前提下降低计算开销,已成为当前多模态大模型研究的重要课题。

来自山东大学,MBZUAI的研究团队提出了TransPrune:从演化的视角衡量视觉Token的重要性,在保持整体性能无损的同时,将推理成本降低60%。


论文题目: TransPrune: Token Transition Pruning for Efficient Large Vision-Language Model 论文链接: https://arxiv.org/abs/2507.20630 代码链接: https://github.com/liaolea/TransPrune

一、研究背景

现有Token Pruning方法大多依赖Attention Score或Token Similarity来衡量视觉Token的重要性,但这些方法在实际使用中都存在一定局限性。

基于Attention的方法通常假设“被关注得多的Token就更重要”,然而Attention本身存在位置偏差 (Attention Sink),使得一些与语义无关的Token也可能获得较高的注意力权重,从而影响重要性判断的准确性。

基于Token Similarity的方法则主要从冗余性角度出发,通过衡量Token之间的相似程度来进行融合,但这类方法往往忽略了具体任务指令的影响,难以针对不同问题动态调整Token的重要性分配。


论文发现,除了依赖某一层的Attention分数来判断Token的重要性,还可以观察Token在整个前向传播过程中的“变化轨迹”。当一个视觉Token承载更重要的语义信息时,它的多层传播中往往会经历更显著的表征变化。重要Token并不是静态存在的,而是在模型内部持续发生“演化”

基于这一观察,论文将这种变化定义为Token Transition,并从两个维度对其进行量化:一方面是Magnitude Change,即Token向量L2范数的变化,重要语义Token通常会表现出更明显的幅值变化;另一方面是Direction Change,即Token表示方向的偏移,通过输入与输出表示之间的余弦相似度进行衡量。实验结果表明,真正重要的Token往往同时具有更大的Magnitude变化和更显著的Direction变化,且这一现象在LLM的中间层尤为突出。

二、本文方法

TransPrune整体方法由两个互补模块构成:Token Transition Variation(TTV)与Instruction-Guided Attention(IGA),分别从“Token自身在网络中的演化轨迹”和“任务语义对Token的显式约束”两个角度衡量视觉Token的重要性。


TTV作为核心评分机制,在模型前向传播过程中持续跟踪每个视觉Token在不同层之间的表示变化,并将这种变化量化为统一的重要性得分,实现对Token“动态重要性”的估计。

单层的TTV往往具有较强噪声,容易受到局部波动或特定层结构的影响,导致重要性判断不稳定。相比之下,如果观察Token在多个层中的持续变化趋势,就可以更可靠地捕捉其“长期语义贡献”。因此,论文对TTV引入了跨层累积机制来获得更加稳定Token的重要性估计

然而,仅依靠TTV无法对齐具体问题指令的需求。为此,方法进一步引入IGA模块,通过利用文本指令与视觉Token之间的注意力关联,显式建模当前问题对不同视觉区域的关注程度,从而为Token筛选提供任务层面的约束与引导。

三、实验结果 3.1 对比现有within-LLM方法

论文对比了现有的within-LLM的方法,证明TransPrune在较低的TFLOPs的情况下仍然取得了性能的领先。


3.2 与projector-based的方法结合

论文还探索了TransPrune与projector-based压缩方法的组合效果。当将其与VisionZip等方法结合使用时,在额外减少约三分之一计算量的情况下,模型性能仅出现极小幅度下降,表明Token Transition所刻画的“动态重要性”与现有Projector-based压缩范式具有良好的互补性,不仅可以独立发挥作用,还能够作为插件式模块嵌入到其他高效推理框架中,从而进一步提升整体计算效率。


四、总结

通过发现并量化Token Transition这一现象,论文发现了一个全新的视觉Token重要性的衡量角度:不再仅仅取决于它在某一层中“被关注的程度”,还体现在它在整个网络传播过程中“持续演化的强度”。基于这一观察,论文提出了TransPrune剪枝框架,在多个主流视觉语言模型上实现了显著的推理加速,并保持了优异的性能表现。这项工作不仅能够为高效视觉语言模型研究提供新的解决方案,也能够启发研究者从动态表征演化的角度重新理解Transformer中的信息流动过程,为未来的多模态模型高效推理带来更多可能性。

Illustration From IconScout By IconScout Store

-The End-


扫码观看!

本周上新!


“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

添加工作人员微信(aceyiming投稿,沟通投稿详情



关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A·史密斯痛批湖人队由3白人组成的新三巨头:这又不是打高尔夫

A·史密斯痛批湖人队由3白人组成的新三巨头:这又不是打高尔夫

好火子
2026-07-02 05:47:02
永州文旅沦陷!两个女游客遭强制猥亵,丈夫还被打骨折,当地立案

永州文旅沦陷!两个女游客遭强制猥亵,丈夫还被打骨折,当地立案

小鋭有话说
2026-07-01 13:25:56
Shams:马刺与托拜厄斯-哈里斯签下2年3100万美元的合同

Shams:马刺与托拜厄斯-哈里斯签下2年3100万美元的合同

懂球帝
2026-07-02 05:13:11
当前中日关系面临什么情况?四个字!

当前中日关系面临什么情况?四个字!

新民周刊
2026-07-02 08:58:43
火爆欧洲的中国空调,曾被提醒“别贴Made in China”

火爆欧洲的中国空调,曾被提醒“别贴Made in China”

极目新闻
2026-07-02 08:46:13
悲情!塞内加尔全队痛哭:2-0被翻+吞点球绝杀 3个月前被剥夺冠军

悲情!塞内加尔全队痛哭:2-0被翻+吞点球绝杀 3个月前被剥夺冠军

风过乡
2026-07-02 07:13:03
“有你这样的妈,真丢人”,毕业典礼母亲出洋相,儿子一脸无奈

“有你这样的妈,真丢人”,毕业典礼母亲出洋相,儿子一脸无奈

熙熙说教
2026-07-01 19:29:52
大英唯一“皇阿玛”,凯恩赛后将队友聚集在一起举行“朝会”

大英唯一“皇阿玛”,凯恩赛后将队友聚集在一起举行“朝会”

懂球帝
2026-07-02 03:37:07
朱珠一家意大利被偶遇:最高级的老钱风,是活成了自己

朱珠一家意大利被偶遇:最高级的老钱风,是活成了自己

TVB的四小花
2026-07-02 09:13:51
“为冲动买单!”广东考生数学140,总分691无缘清北,后悔也晚了

“为冲动买单!”广东考生数学140,总分691无缘清北,后悔也晚了

呼呼历史论
2026-07-02 08:28:12
权威阿姨回应走个面儿:北京可没这句话,说娘们儿是在骂人

权威阿姨回应走个面儿:北京可没这句话,说娘们儿是在骂人

映射生活的身影
2026-07-01 22:20:00
Shams:米切尔-罗宾逊3年4740万美元签约凯尔特人

Shams:米切尔-罗宾逊3年4740万美元签约凯尔特人

懂球帝
2026-07-01 23:55:26
世界杯炸锅!18 岁亚马尔当众叫板法国:你们根本不如西班牙!

世界杯炸锅!18 岁亚马尔当众叫板法国:你们根本不如西班牙!

澜归序
2026-07-02 01:24:00
义乌9.42平方米商铺拍出1700万元,仅含使用权且只能经营饰品,商城:位置好人流量高

义乌9.42平方米商铺拍出1700万元,仅含使用权且只能经营饰品,商城:位置好人流量高

极目新闻
2026-07-01 18:30:15
有点尴尬!布朗两个月前吐槽恩比德假摔骗哨 如今两人竟成为队友

有点尴尬!布朗两个月前吐槽恩比德假摔骗哨 如今两人竟成为队友

罗说NBA
2026-07-02 07:06:29
第一批把性爱交给AI的人,出现了

第一批把性爱交给AI的人,出现了

大佬灼见
2026-07-01 15:45:38
日本太狠!要求30天离境,在日华商一夜破产,孩子被迫中断学业!

日本太狠!要求30天离境,在日华商一夜破产,孩子被迫中断学业!

共工之锚
2026-07-02 00:15:45
白嫖了30年!WinRAR官方:感谢大家的付费支持

白嫖了30年!WinRAR官方:感谢大家的付费支持

游民星空
2026-07-01 20:12:08
二手平台出售超高价玩具人偶,标有身高体重性格等,平台:不涉及儿童贩卖

二手平台出售超高价玩具人偶,标有身高体重性格等,平台:不涉及儿童贩卖

西游日记
2026-07-01 22:30:59
“穷尽其他送达方式后仍无法送达本通知”,清华大学一本科生被公告退学处理

“穷尽其他送达方式后仍无法送达本通知”,清华大学一本科生被公告退学处理

现代快报
2026-07-01 22:57:04
2026-07-02 10:39:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2421文章数 596关注度
往期回顾 全部

科技要闻

可灵AI上市前夜,快手想给它融30亿美元

头条要闻

"狗咖"倒闭数十只哈士奇疑遭弃 女店主自称有400只狗

头条要闻

"狗咖"倒闭数十只哈士奇疑遭弃 女店主自称有400只狗

体育要闻

世界杯硬核球迷,把自己变成了雕像

娱乐要闻

霍震霆回应霍启山娜然结婚传闻

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

1.5T混动/综合续航约2000KM 全新一代红旗H7来了

态度原创

手机
本地
时尚
房产
健康

手机要闻

三星在韩推出Galaxy Jump5智能手机,为运营商KT独占型号

本地新闻

强烈建议,全国高校都向这所大学看齐!

月入3万,时代红利砸向文科生

房产要闻

海南楼市新政:公积金最高可贷192万!

年糕汤圆别油炸,水煮清蒸更健康

无障碍浏览 进入关怀版