网易首页 > 网易号 > 正文 申请入驻

清华&腾讯混元X发现「视觉头」:仅5%注意力头负责多模态视觉理解

0
分享至

本文的主要作者来自清华大学智能视觉实验室(i-Vision Group)、腾讯混元 X 组。本文的共同第一作者为清华大学自动化系本科生王嘉辉和博士生刘祖炎,本文的通讯作者为清华大学自动化系鲁继文教授。

多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力,但经过多模态训练后,这些模型却能在各类视觉相关任务中展现出强大的表现。

这引发了我们的思考:在多模态训练过程中,LLM 基座的哪些内部结构,尤其是哪些多头注意力单元,真正承担了对视觉内容的理解?这些注意力头是否存在可识别、可量化的视觉偏好或专业化功能?如果能够识别出这些「视觉头」,不仅有助于揭示多模态大模型内部的「黑箱」机制,也为模型结构优化和资源分配提供了理论依据。

在本文中,我们聚焦于注意力头的视觉偏好,提出了一种基于 OCR 任务、无需额外训练的方法,系统量化每个注意力头对视觉内容的关注程度。我们发现,只有不到 5% 的注意力头(我们称之为视觉头,Visual Head)在视觉理解任务中起到主导作用,这些头能够有效聚焦并提取图片中的关键信息,而绝大多数注意力头则主要关注文本信息或其他辅助特征。这一「视觉头稀疏性」现象表明,模型的视觉理解能力高度依赖于极少数专门化的注意力头。

  • 论文标题:SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs
  • 论文:https://arxiv.org/abs/2506.05344
  • 代码:https://github.com/CR400AF-A/SparseMM
  • 项目地址:https://cr400af-a.github.io/SparseMM/

基于这一发现,我们进一步提出了 SparseMM:一种利用视觉头稀疏性进行 KV-Cache 优化的策略。考虑到多模态大模型输入的视觉 token 远多于文本 token,带来了巨大的显存压力,我们对 KV-Cache 资源进行差异化分配。

具体地,SparseMM 将总缓存预算划分为三部分:一部分保障所有头的基本局部缓存,一部分按固定比例均匀分配,其余则根据视觉头得分优先分配给视觉头,从而在效率与性能之间取得更优平衡。

通过在 DocVQA、OCRBench、TextVQA、ChartQA、MMBench、GQA 等主流多模态基准上的广泛评测,SparseMM 相较于 SnapKV、AdaKV 等方法取得了更好的性能和效率的平衡。效率评估测试中实现了最高 1.87× 的解码阶段加速并降低了 52% 的峰值内存。此外,在极端缓存预算下,性能下降幅度更小,充分验证了基于视觉头的 KV-Cache 分配策略在效率-性能权衡上的优越性。

介绍

多模态大模型通过引入视觉编码器模块,使得原本不具备视觉能力的 LLM 能够在图文问答、文档理解等多种场景下表现出色。但是模型内部究竟是如何实现这一跨模态迁移的,仍然是一个「黑箱」问题。我们认为,在多模态大模型训练的过程中,部分注意力头逐渐特化为了「视觉头」,专门负责视觉信息的理解与交互。

在本文中,我们提出了一种基于 OCR 任务量化并识别视觉头(Visual Head)的方法,并基于此提出了SparseMM——一种新颖的多模态模型推理加速方法。通过对视觉头的深入分析,我们发现视觉头在多模态大模型中占比很小。

也就是说,只有一小部分注意力头真正承担了对视觉内容进行深度理解并将其有效融入语言表征的核心任务,而大多数注意力头更多地关注语言信息,或仅局限于局部上下文建模,对图像内容的理解作用有限。

基于此,我们采用了一种注意力头级别的缓存分配机制,对更关注视觉内容的注意力头分配更多的缓存预算,以最大程度的保留视觉信息;对于不关注视觉内容的注意力头则分配较少的缓存预算,使它们关注最近邻的信息即可,从而实现了性能和速度的更优均衡。

图 1:SparseMM 整体概览

方法概览

我们的方法主要分为两部分:首先通过 OCR 任务定位视觉头,然后为不同的注意力头分配不同的缓存预算。

基于 OCR 的视觉头定位方法

图 2:SparseMM 基于 OCR 任务定位视觉头的方法示意图

为了深入探究多模态大模型在处理视觉内容时的注意力机制,我们提出了一种基于 OCR 任务的分析方法,并据此定义了「视觉得分」,用于量化模型在视觉内容上的注意力表现。基于视觉得分,本文能够有效定位并分析模型内部对视觉内容高度敏感的注意力头。

通过这一标注,可以将每个字符与其在图片中的具体区域一一对应。接下来,按照多模态大模型对输入图片的分块或 patch 划分方式,进一步确定每个字符对应的视觉区域所映射到的视觉 token,并精确定位这些视觉令牌在整个输入序列中的具体位置。

基于视觉头的 KV-Cache 压缩策略

在完成视觉头的定位之后,我们进一步提出了一种基于视觉头的 KV-Cache 分配与压缩策略。传统的 KV-Cache 机制为所有注意力头和所有位置的 token 分配等量的缓存空间,这种方式虽然简单,但在处理高分辨率图像时显得极为低效:大量不关注视觉内容的注意力头被迫缓存完整视觉 token,造成了显著的资源浪费。

为了解决这一问题,SparseMM 根据视觉得分设计了一个三部分的缓存分配机制:

  • Local Window Cache:为所有注意力头分配固定窗口大小的缓存,只保留最近的若干个 token,确保基本的局部上下文建模能力;
  • Uniform-Based Cache:在所有注意力头之间均匀分配一部分缓存预算,用于保底防止头部信息过度丢失;
  • Score-Preferred Cache:将剩余的大部分缓存资源按照视觉头在前一阶段中的视觉得分按比例分配,使得关键的视觉头能够尽可能保留更多的历史视觉 token,从而提升模型对图像语义的保持能力。

这种差异化的缓存压缩策略在不显著牺牲模型性能的情况下,显著减少了整体 KV-Cache 的内存使用。尤其在视觉 token 占比较高的输入场景中,SparseMM 能够更合理地分配资源,把计算和存储集中在真正重要的视觉内容上。

图 3:SparseMM 基于视觉头的缓存压缩方法

实验结果

在 OCR-rich 的多模态数据集上的结果

在 OCR-rich 的数据集上(如 DocVQA、OCRBench 和 TextVQA),SparseMM 展现出显著的性能优势,充分验证了其视觉头识别策略的有效性。例如在 DocVQA 中,当键值缓存预算仅为输入长度的 10% 左右时,LLaVA-NeXT-Vicuna-7B 与 Qwen2-VL-7B-Instruct 等模型仍能保持与全缓存配置几乎一致的性能,而现有方法则普遍出现明显精度下降,差距在低预算下进一步扩大,突出体现了视觉头选择的准确性和关键性。TextVQA 中的实验同样验证了 SparseMM 的优势,多个模型在低至 5% 至 10% 缓存预算的条件下依然保持优异性能,显著优于 AdaKV、SnapKV 等方法。这些结果表明,SparseMM 尤其适用于文字密集、图文关联紧密的视觉任务,在处理高分辨率输入与稀疏文本分布场景中具备显著的推理效率与性能保持能力。

通用多模态任务上的分析

尽管本文的视觉头识别方法基于 OCR 任务构建,但是为了进一步验证其在更广泛视觉场景中的适用性与泛化能力,我们在多个通用视觉任务基准(如 MMBench、GQA 和 VQAv2)上对该方法进行了系统性评估。

实验结果显示,本文方法在通用视觉任务中依然表现出极强的鲁棒性与泛化能力。即便在非常受限的缓存预算的条件下,Qwen2-VL-7B-Instruct 模型在 MMBench 上仍能维持与全缓存模型几乎一致的性能;在 GQA 和 VQAv2 等具备复杂视觉推理能力要求的任务上,性能下降幅度也始终控制在 1% 以内,显著优于现有压缩方法。这些结果表明,尽管视觉头的识别基于 OCR 场景完成,其关注的视觉区域和注意力机制却具有高度的通用性,能够在各类视觉理解任务中稳定发挥作用,为通用多模态模型的推理加速与缓存优化提供了一种高效、可靠且可推广的解决方案。

推理速度评估

本文在不同输入长度(2K 至 32K)场景下评估了 SparseMM 的计算效率,结果显示该方法在提升推理速度和降低显存占用方面均取得显著提升。在 32K 输入下,LLaVA-NeXT-Vicuna-7B 和 Qwen2-VL-7B-Instruct 的推理速度分别提升至 1.87× 和 1.60×,而峰值显存占用分别减少约 15GB 和 2GB,表现出良好的扩展性与适应性。这充分说明 SparseMM 在高分辨率图像或长上下文任务中,能够有效降低推理开销,提升多模态大模型的部署效率与实用性。

可视化视觉头

我们可视化了 LLaVA-NeXT-Vicuna-7B 中识别到的一些视觉头和非视觉头,可以看出视觉头能准确的定位到图中的物体或文字,而非视觉头往往不关注图像信息或者关注到错误的区域,这直观地体现了视觉头和非视觉头的差异性。

总结

我们提出了 SparseMM,这是一种基于视觉头的 KV-Cache 缓存压缩方法。我们通过在 OCR 任务中精确识别出对视觉信息最敏感的注意力头,并据此设计差异化的缓存分配策略,在保证模型性能的同时显著降低了推理阶段的计算和内存开销。

实验结果表明,SparseMM 在多个视觉语言任务中均展现出卓越的准确性保持能力、优异的计算效率以及强大的泛化性,特别是在高分辨率图像和长上下文输入场景下具有显著优势。SparseMM 为多模态大模型的高效推理与实际部署提供了新的解决思路,我们也希望这项工作能启发未来更多对多模态大模型推理加速的研究。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方警戒舰目前正处于霍尔木兹海峡附近?国防部:假消息

中方警戒舰目前正处于霍尔木兹海峡附近?国防部:假消息

环球网资讯
2026-03-26 16:20:07
章泽天看展带火春日穿搭叫“针织衫+弯刀裤”,配色清新很少女!

章泽天看展带火春日穿搭叫“针织衫+弯刀裤”,配色清新很少女!

明星私服穿搭daily
2026-03-26 09:44:53
中东局势升级!印尼狂砸31亿,抢购中国退役导弹艇,西方不解

中东局势升级!印尼狂砸31亿,抢购中国退役导弹艇,西方不解

胖福的小木屋
2026-03-26 23:27:43
日本公布中国游客免税店2月份消费数据,真的是打脸了!

日本公布中国游客免税店2月份消费数据,真的是打脸了!

消失的电波
2026-03-26 15:20:44
忠告天下子女:再孝顺,也不要为年过75岁的老父老母,做这三件事

忠告天下子女:再孝顺,也不要为年过75岁的老父老母,做这三件事

风起见你
2026-03-27 00:22:57
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
生死12分钟!广东一男子踢球时心脏骤停 一群医生冲上前接力心肺复苏救回一命

生死12分钟!广东一男子踢球时心脏骤停 一群医生冲上前接力心肺复苏救回一命

闪电新闻
2026-03-26 11:46:05
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
日均接诊1.5万人次、手术500台,广东这家华南医疗航母火遍全省

日均接诊1.5万人次、手术500台,广东这家华南医疗航母火遍全省

健身狂人
2026-03-27 00:11:10
局势恶化!英外长急致电北京,六国发表联合声明,特朗普越做越绝

局势恶化!英外长急致电北京,六国发表联合声明,特朗普越做越绝

报君知史
2026-03-27 02:43:59
美国记者挖坑提问:万一台湾不想被统一怎么办?被中方精准反杀

美国记者挖坑提问:万一台湾不想被统一怎么办?被中方精准反杀

雪中风车
2026-02-23 19:34:34
比亚迪官宣:《007》邦德扮演者丹尼尔·克雷格出任腾势汽车代言人

比亚迪官宣:《007》邦德扮演者丹尼尔·克雷格出任腾势汽车代言人

IT之家
2026-03-26 20:55:38
太意外!米兰宝格丽之夜合影:刘亦菲两度被挤,下意识动作引热议

太意外!米兰宝格丽之夜合影:刘亦菲两度被挤,下意识动作引热议

时间巡查
2026-03-25 04:28:00
张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

谈史论天地
2026-03-26 07:45:53
伊朗伊斯兰革命卫队称击落一架美军F-18战机

伊朗伊斯兰革命卫队称击落一架美军F-18战机

环球网资讯
2026-03-26 06:37:05
罗技:“我一降价,你还不是像狗一样跑过来”

罗技:“我一降价,你还不是像狗一样跑过来”

电脑吧评测室
2026-03-26 22:05:58
信息量极大!黄仁勋最新论断:AGI已实现,OpenClaw是AI界iPhone,未来将有10亿程序员

信息量极大!黄仁勋最新论断:AGI已实现,OpenClaw是AI界iPhone,未来将有10亿程序员

AI科技大本营
2026-03-26 19:52:36
沙特实战封神!中国“天盾”21发21中,美方2亿美元系统差距在哪

沙特实战封神!中国“天盾”21发21中,美方2亿美元系统差距在哪

闻香阁
2026-03-27 04:16:43
柳景武已任山东省委副秘书长、省机关事务管理局局长

柳景武已任山东省委副秘书长、省机关事务管理局局长

黄河新闻网吕梁
2026-03-26 10:03:54
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
2026-03-27 06:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
数码
手机
旅游
公开课

家居要闻

傍海而居 静观蝴蝶海

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版