网易首页 > 网易号 > 正文 申请入驻

ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B

0
分享至

该工作第一作者为中国人民大学高瓴人工智能学院硕士生程传奇,目前于蚂蚁技术研究院实习,其主要研究领域为多模态大模型,蚂蚁技术研究院副研究员关健为共同第一作者。

在视觉语言模型(Vision-Language Models,VLMs)取得突破性进展的当下,长视频理解的挑战显得愈发重要。以标准 24 帧率的标清视频为例,仅需数分钟即可产生逾百万的视觉 token,这已远超主流大语言模型 4K-128K 的上下文处理极限。当面对影视级的长视频内容时,传统解决方案的不足愈加凸显:粗放式的帧采样策略往往造成关键帧信息遗漏,而特征融合方法虽能降低数据维度,却不可避免地导致语义完整性受损。

近日,蚂蚁和人大的研究团队带来了一个创新性的解决方案。他们提出视觉语言大模型ViLAMP(Video-Language Model with Mixed Precision),实现了对超长视频的高效处理。这个方法的核心在于其独特的 “混合精度” 策略:对视频中的关键内容保持高精度分析,而对次要内容进行强力压缩,就像人类在观看视频时会重点关注关键场景,而对过渡时空信息只做快速扫描一样。

  • 论文标题:Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation
  • 论文地址:https://arxiv.org/abs/2504.02438
  • Github:https://github.com/steven-ccq/ViLAMP

实验结果令人振奋:ViLAMP 在 Video-MME 等五个主流视频理解基准上全面超越现有方案,特别是在处理长视频时展现出显著优势。更重要的是,它可以在单张 A100 GPU 上连续处理长达 1 万帧(按每秒 1 帧计算约 3 小时)的视频内容,同时保持稳定的理解准确率。这一突破不仅大大提升了视频处理效率,更为在线教育、视频监控、直播分析等实际应用场景带来了新的可能。相关论文已被 ICML 2025 接收。

横轴:处理的视频帧数(从 0 到 10,000 帧),纵轴: GPU 内存使用量(MB)。测试在单块 NVIDIA A100 GPU 上进行。

VideoNIAH(视频版本大海捞针任务)测试结果。横轴:视频总长度(2K-10K 帧);纵轴:表示目标视频在完整视频中的相对位置(0% 表示在开头,100% 表示在结尾)。

视频信息在时空维度均呈现稀疏性与冗余性

为解决长视频处理的效率问题,研究团队首先对主流视觉语言模型(包括 LLaVA-OneVision、LLaVA-Video、Qwen2-VL 和 LongVA)进行了系统性分析,发现了视频信息在时间和空间上均存在显著的稀疏性和冗余性:

  • 帧间注意力分析:在现有模型中,用户 Query 对相应视频的注意力高度集中 ——90% 的注意力仅分布在不到 5% 的视频帧上(称为关键帧)。更重要的是,这 5% 的关键帧之间往往存在很强的视觉相似度。
  • 帧内注意力分析:在每一帧的内部,模型的注意力也展现出相似的稀疏性质 ——50% 的 patch(帧划分的最小单位)就承载了 80% 的模型注意力,但这些受关注的 patch 与关键帧中的对应 patch 具有远超随机基线水平的相似度。

这一发现表明现有模型在处理视频时存在大量计算资源的浪费。实际上,处理长视频不需要对每一帧、每个 patch 都投入同样的计算量。基于此,研究团队提出 “差分蒸馏原则”(Differential Distill Principle):识别并保留重要的视频信息,同时压缩那些虽然相关但高度冗余的信息。其中,重要信息应该同时满足两个条件:(1)高查询相关性:与当前用户 Query 高度相关;(2)低信息冗余性:包含独特的视频信息。这一原则为后续设计高效的视频处理算法奠定了理论基础。

ViLAMP: 基于差分蒸馏的双层混合精度架构

前文的注意力分析揭示了一个关键问题:现有视觉语言模型对视频中所有帧和 patch 都采用相同的处理方式,导致大量计算资源的浪费。基于这一认识,研究团队提出了专门面向长视频处理的高效架构 ViLAMP,它能够根据信息的重要程度自适应地分配计算资源。

ViLAMP 模型结构图

ViLAMP 通过层次化的压缩框架实现这一策略:在帧级别,对重要的关键帧保留完整的视觉 token 表示,以捕获关键信息;而对于非关键帧,则采用强力压缩策略;在 patch 级别,通过差分机制增大重要 patch 的权重。

模型具体包含两个核心机制:

1. 差分关键帧选择(Differential Keyframe Selection,DKS)

为实现关键帧的高效识别,ViLAMP 采用了基于贪心策略的选择算法。该算法在最大化与用户 Query 的相关性的同时,通过差分机制降低帧间冗余,确保选中的关键帧既重要又多样化。

2. 差分特征合并(Differential Feature Merging,DFM)

针对非关键帧的处理,ViLAMP 创新性地通过差分加权池化,将每个非关键帧压缩为单个信息量最大化的 token。在压缩过程中,模型赋予那些与用户 Query 相关且具有独特性的 patch 较高的权重,同时降低与相邻的关键帧有显著重复的 patch 的权重,从而在大幅降低计算量的同时保留关键信息。

这种双层混合精度架构既确保了模型能够准确捕获视频中的关键信息,又显著降低了计算开销。

突破性性能:全面超越现有方案

在五个主流视频理解基准上的实验表明:

1.ViLAMP 以 7B 参数量达到或超越了部分 70B 量级模型的表现,特别是在 Video-MME 长视频子集上比现有最优模型提升 4.8%。

2. 针对当前视频理解基准中视频长度不足的问题,本文提出了面向视频理解场景的 “大海捞针” 任务 ——VideoNIAH。该任务将一段目标短视频(1 分钟以内)插入到小时级别的长视频中,要求模型在不依赖先验信息的情况下,从超长视频上下文中定位并理解该片段,进而回答相关问题。与传统基于文本的 NIAH 任务不同,VideoNIAH 中的答案无法直接从视频对应的文本描述中提取。因此,该任务本质上更具挑战性,难以达到语言模型在文本 NIAH 任务中所表现出的近乎完美的准确率(例如 99%)。VideoNIAH 任务的性能上限受限于模型对目标短视频原始 QA 的理解水平,进一步凸显了该任务对视频内容深层次理解能力的严格要求。在这一新提出的超长视频理解基准上,ViLAMP 在处理包含 10K 帧(约 3 小时)的视频时仍能保持 58.15% 的准确率(原始 QA 数据集准确率 78.9%),超越 VideoChat-Flash 基线模型 12.82%,展现出较强的长视频建模能力。

3. 计算效率显著提升:内存消耗相比 LLaMA-VID 基线降低约 50%,在 8,192 帧情况下计算量减少 80% 以上。

4. 深入的消融实验表明:与已有的关键帧选择方案相比,DKS 在长视频场景下表现出明显优势;与 Q-former 和平均池化等特征融合方案相比,DFM 在所有数据集上都展现出 3 个百分点以上的性能优势。

模型表现

Video-MME 排行榜

计算效率对比

结语

ViLAMP 通过创新的差分蒸馏框架成功突破了长视频处理的计算瓶颈,不仅在性能上实现了飞跃,更为视频理解领域提供了新的研究思路。该工作的原理性贡献和实用价值将推动视频理解技术在更多实际场景中的落地应用。期待未来看到更多基于此框架的创新发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张兰连夜飞回北京照顾孙子,说出了五一假期的行程安排是合格奶奶

张兰连夜飞回北京照顾孙子,说出了五一假期的行程安排是合格奶奶

小娱乐悠悠
2026-05-01 09:07:23
新一轮救市,开启了

新一轮救市,开启了

地产观点
2026-05-01 11:38:35
乌克兰正式卖武器,泽连斯基称产能过剩50%,市场已打开

乌克兰正式卖武器,泽连斯基称产能过剩50%,市场已打开

桂系007
2026-04-29 05:24:08
网红白冰偷税被追缴1891万,全网账号已禁言,妻子江梦瑶曝其现状

网红白冰偷税被追缴1891万,全网账号已禁言,妻子江梦瑶曝其现状

阿纂看事
2026-04-28 18:04:57
万万没想到!落马张军妻子来头不小,同是冠军,实力不容小觑

万万没想到!落马张军妻子来头不小,同是冠军,实力不容小觑

人间烟火记事本
2026-05-01 06:47:32
没时间了,中方通牒送进东京,日本别无选择,高市已准备乘机离国

没时间了,中方通牒送进东京,日本别无选择,高市已准备乘机离国

健身狂人
2026-05-01 08:13:03
抢七大战!76人主场再胜绿军 马克西30分独占鳌头

抢七大战!76人主场再胜绿军 马克西30分独占鳌头

仰卧撑FTUer
2026-05-01 11:26:14
苏提达惊艳瑞典国王的寿宴,罕见戴钻石王冠,拍“全家福”坐前排

苏提达惊艳瑞典国王的寿宴,罕见戴钻石王冠,拍“全家福”坐前排

译言
2026-05-01 07:53:45
回国后我才敢说:印尼是我去过的所有东南亚国家中,最被低估的

回国后我才敢说:印尼是我去过的所有东南亚国家中,最被低估的

千秋文化
2026-04-28 20:20:16
毛主席为什么比马克思、恩格斯、列宁、斯大林都要伟大?

毛主席为什么比马克思、恩格斯、列宁、斯大林都要伟大?

超人强动物俱乐部
2026-05-01 09:10:44
比赛还没开打,成都蓉城先收两个好消息,客场战胜上海申花有戏了

比赛还没开打,成都蓉城先收两个好消息,客场战胜上海申花有戏了

宝哥精彩赛事
2026-05-01 10:22:53
失眠原因找到了!北京大学研究:睡不好的人,身体缺这种营养物质

失眠原因找到了!北京大学研究:睡不好的人,身体缺这种营养物质

路医生健康科普
2026-04-30 13:05:07
“今天你生日,我全家20口来为你庆生,快去做饭”儿媳:我吃过了

“今天你生日,我全家20口来为你庆生,快去做饭”儿媳:我吃过了

清水家庭故事
2026-04-30 10:24:23
劳拉新形象太丑胸围被大砍!祖国人看了都没食欲

劳拉新形象太丑胸围被大砍!祖国人看了都没食欲

游民星空
2026-04-29 16:11:32
广东队VS广州!杜锋想要赢:需少用2人,重用3人

广东队VS广州!杜锋想要赢:需少用2人,重用3人

体育哲人
2026-05-01 10:56:09
浙江男子花2000多元订3晚民宿,商家要求涨到3000元/晚被拒后以“蛇很多”等理由劝退,官方通报:将依法进行立案调查

浙江男子花2000多元订3晚民宿,商家要求涨到3000元/晚被拒后以“蛇很多”等理由劝退,官方通报:将依法进行立案调查

大象新闻
2026-05-01 10:42:04
朱元璋的儿子中有那么一位,罕见的与人类的相似度多于畜类|文史宴

朱元璋的儿子中有那么一位,罕见的与人类的相似度多于畜类|文史宴

文史宴
2026-04-30 19:47:45
伊朗考虑通过铁路向中国运输原油,稳妥优化供油流通体系

伊朗考虑通过铁路向中国运输原油,稳妥优化供油流通体系

说故事的阿袭
2026-04-30 17:59:38
比孙杨更会宠,于家翊当年哄张豆豆的细节,至今看了都发甜

比孙杨更会宠,于家翊当年哄张豆豆的细节,至今看了都发甜

嘴角上翘的弧度
2026-05-01 01:30:36
天雷滚滚,59个龙头集体跌停,全都是踩了这3个雷,注意风险了

天雷滚滚,59个龙头集体跌停,全都是踩了这3个雷,注意风险了

鹏哥投研
2026-05-01 10:17:32
2026-05-01 12:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12898文章数 142639关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

辽宁舰遭日本侦察机侦察 解放军一句警告让其放弃企图

头条要闻

辽宁舰遭日本侦察机侦察 解放军一句警告让其放弃企图

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

邓超在景德镇被偶遇,穿黑外套逛茶园

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

健康
房产
数码
亲子
公开课

干细胞治烧烫伤面临这些“瓶颈”

房产要闻

熬了6年,涨了2亿,三亚核心区这块地再次上架

数码要闻

升级了个寂寞!酷睿Ultra 9 386H跑分曝光:性能战平上代285H

亲子要闻

科普|孩子为何白天不咳晚上咳

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版