网易首页 > 网易号 > 正文 申请入驻

ICLR 2026:关键帧提取助力长视频理解提升11.9%,仅需采样不足2%

0
分享至

本文第一作者朱子瑞为新加坡国立大学四年级博士生,本科毕业于清华大学,研究方向为多模态大模型和后训练优化。通讯作者为 TikTok 内容智能负责人 Kanchan Sarkar、Meta杨振恒博士(相关工作完成于其在 TikTok 任职期间)以及新加坡国立大学校长青年教授尤洋老师。

文章速览

长视频会使 MLLM 的视觉 token 规模快速增长,但推理阶段的计算与上下文预算有限,难以对全量帧进行处理。

现有关键帧方案通常还需先用 CLIP/BLIP 等视觉编码器全视频逐帧预扫描,即使最终只保留少量帧,前置计算成本依然很高。

本文提出 FOCUS:将关键帧选择建模为组合纯探索(CPE)多臂赌博机,以自适应的 “探索 — 利用” 策略在无需遍历全帧的前提下先锁定高价值时间段,再在段内精挑关键帧。

  • 无需训练、即插即用:可直接接入现有 MLLM(如 GPT-4o 或 Qwen)的推理流程,不依赖特定模型结构与训练方式。

  • 效果更强:在 >20 分钟 的长视频 VQA benchmark 设定下,FOCUS 选帧相较均匀抽帧可带来 11.9% 的性能提升。

  • 成本更低:不依赖降采样等预过滤手段,平均只需观察 <2% 的帧即可达到上述收益,显著降低推理计算开销。


  • 论文标题:FOCUS: Efficient Keyframe Selection for Long Video Understanding

  • 论文链接:https://arxiv.org/abs/2510.27280

  • 代码仓库:https://github.com/NUS-HPC-AI-Lab/FOCUS

背景:长视频理解为什么难?

长视频理解是多模态大模型(MLLM)中最为困难的问题之一。一段小时级、30fps 的标准视频往往包含十万量级以上的帧数。

对于主流 MLLM 而言,无论是先将视频帧编码为视觉 token、还是进一步进行跨模态交互建模,计算与上下文开销都会随帧数快速增长:“全量帧输入” 在绝大多数真实推理场景中并不现实。

因此,“挑选关键帧” 几乎是所有长视频系统的必经步骤。最常见的均匀抽帧(降采样)虽然能控成本,却容易错过集中在短片段中的决定性证据,导致模型在核心信息缺失的情况下 “盲答”。

现有关键帧方法大致分为两类:一类是 training-based,训练轻量选择器从全量帧中挑子集,但面临标注困难、组合爆炸带来的训练与工程成本,以及对下游模型结构 / 训练方式的依赖;另一类是 training-free 的检索式方案,用 CLIP、BLIP 等编码器计算 “帧 — 文本” 相关性再选帧。

后者虽免训练,却往往需要先对全视频逐帧预编码,面对小时级视频时单视频计算开销仍可能达到约FLOPs 量级,难以部署。

因此,我们需要一种更高效的选帧方式:在不牺牲准确性的前提下,避免对全视频逐帧预扫,降低推理代价,用尽可能少的观测帧数快速定位与 query 相关的高价值片段,真正满足现实系统的效率与可用性要求。

方法:FOCUS 的两阶段探索 - 利用

基于上述动机,本文提出 FOCUS,一个无需训练、可即插即用的关键帧选择算法。FOCUS 的核心思想是:将 “在预算内找到最有用的帧” 视为一个组合探索问题 —— 算法不必先看完整视频再做选择,而是可以通过少量试探性采样(探索)逐步缩小候选范围,再将预算集中到最有价值的区域(利用)。


具体而言,FOCUS 将关键帧选择建模为组合纯探索(CPE)的多臂赌博机问题,并采用两阶段的 coarse-to-fine 策略:

第一阶段:定位高价值时间段(粗粒度探索)。

我们把长视频切分为若干时间段,将每个时间段视作一个 “臂”。FOCUS 在有限预算下,对不同时间段进行自适应抽样:对 “可能与 query 更相关” 的时间段分配更多采样,对明显无关的时间段快速减少采样。通过维护每个时间段的估计收益与不确定性(置信界),算法可以在不遍历全视频的情况下,把注意力收敛到少量候选高价值时间段。

第二阶段:在段内精挑关键帧(细粒度利用)。

当候选时间段被锁定后,FOCUS 在这些时间段内部进一步选择帧:同样通过 “少量试探 + 置信驱动” 的方式,把帧预算集中到最相关的画面上,输出最终关键帧集合供下游 MLLM 推理。


FOCUS 的效率优势使其可以作为一个前置模块,直接插入现有 MLLM 推理 pipeline,在不同模型、不同任务上复用。

实验:即插即用的长视频理解利器

为了验证 FOCUS 的通用性与有效性,作者在四个公开视频问答(Video QA)基准上进行了评测,并选择了四种常用的 MLLM 作为下游推理模型,包括 GPT-4o、Qwen2-VL、LLaVA-OV、LLaVA-Video 等。



作者进一步地将 FOCUS 与目前最有代表性的关键帧选择方法进行了对比。


结果表明:在长视频场景(例如 >20 分钟 的设定)下,FOCUS 相比均匀抽帧带来最高 11.9% 的性能提升。同时,FOCUS 在不依赖降采样等预过滤手段的情况下,平均仅需观察 <2% 的帧即可达到上述收益,显著降低了关键帧选择与推理阶段的总体计算开销。

分析:高效定位视频关键信息

1. 可视化:FOCUS 能更精准地找到与 query 相关的证据片段

作者对若干典型样例进行可视化分析:在长视频中,FOCUS 通过两阶段探索快速将注意力收敛到少量高价值片段,再在片段内部挑出证据帧,使得输入给 MLLM 的帧更 “信息密集”,从而提升回答质量。


2. 效率提升:相比全帧预扫的选帧范式,FOCUS 的端到端开销更可控

FOCUS 的效率优势在于:它的选择过程本身就是省帧的,能够在探索阶段动态跳过大量无关区域,避免将计算预算花在 “无用的全量预扫” 上,相对于基线方法大大降低推理开销。


同时 FOCUS 提供了清晰的预算控制接口:当系统更关注性能时,可以适当增加探索预算;当系统更关注吞吐 / 延迟时,可以通过调整超参数收紧预算。


总结

长视频理解的核心难点在于:视觉 token 随帧数快速膨胀,均匀抽帧又容易漏掉关键证据;而现有关键帧方法存在着训练代价高、依赖模型结构的问题,或者虽免训练仍需全帧预编码,难以满足真实系统的效率要求。

FOCUS 将选帧建模为组合纯探索,通过两阶段 “探索 — 利用” 在不遍历全帧的情况下定位与 query 相关的高价值片段;平均仅观察 <2% 帧即可在长视频设定下带来最高 +11.9% 的准确率提升。它可作为即插即用的推理组件,为 MLLM 长视频应用提供更可控的成本与表现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男子因银行系统错误“欠款1000万亿元”,征信黑了3年125万贷款逾期,当事人:被光大银行和云闪付踢来踢去

男子因银行系统错误“欠款1000万亿元”,征信黑了3年125万贷款逾期,当事人:被光大银行和云闪付踢来踢去

观威海
2026-02-28 09:20:46
又一卫健委主任被抓!

又一卫健委主任被抓!

梅斯医学
2026-02-28 07:53:41
火力全开!遭两轮袭击后,伊导弹霸气回击,以色列摊牌或要打到底

火力全开!遭两轮袭击后,伊导弹霸气回击,以色列摊牌或要打到底

策略述
2026-02-28 18:17:00
卷走53亿!又一大佬带全家跑路,欠中国银行20亿,投资者血本无归

卷走53亿!又一大佬带全家跑路,欠中国银行20亿,投资者血本无归

以茶带书
2025-12-09 23:33:58
广西高速发生重大事故 导致道路长时间拥堵

广西高速发生重大事故 导致道路长时间拥堵

七彩云南简南俊
2026-02-28 15:48:17
巴媒:安切洛蒂敲定世界杯名单18人,不含内马尔、恩德里克

巴媒:安切洛蒂敲定世界杯名单18人,不含内马尔、恩德里克

懂球帝
2026-02-28 08:41:06
同胞们,请你们不要再说“收复台湾”了

同胞们,请你们不要再说“收复台湾”了

历史小胡
2026-02-10 17:11:22
冬奥会刚结束!2归化或离开国家队,谷爱凌年赚1.6亿+还获赠3台车

冬奥会刚结束!2归化或离开国家队,谷爱凌年赚1.6亿+还获赠3台车

法老不说教
2026-02-27 17:10:58
重磅!多地出台新政:这种情况下,女员工可申请居家办公

重磅!多地出台新政:这种情况下,女员工可申请居家办公

才朔HR
2026-02-28 14:12:40
女篮集训阵容迎来重要调整!3位主力强势回归,12人名单预测如下

女篮集训阵容迎来重要调整!3位主力强势回归,12人名单预测如下

郝小小看体育
2026-02-28 04:24:05
中戏的招生丑闻,彻底震惊了整个艺术圈!

中戏的招生丑闻,彻底震惊了整个艺术圈!

南权先生
2026-02-24 15:52:36
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
特朗普赢了,12架战机刚刚落地,伊朗先举了白旗:禁止发展核武器

特朗普赢了,12架战机刚刚落地,伊朗先举了白旗:禁止发展核武器

铁锤简科
2026-02-27 17:30:48
突发!DeepSeek又崩了,官方尚未回应

突发!DeepSeek又崩了,官方尚未回应

雷科技
2026-02-28 16:56:54
四部门宣布:放高利贷正式入罪

四部门宣布:放高利贷正式入罪

新浪财经
2026-02-27 17:10:34
太坏了!约基奇回应恶犯!MVP最新榜单公布

太坏了!约基奇回应恶犯!MVP最新榜单公布

篮球实战宝典
2026-02-28 17:24:43
继承权无需争抢了!2025年起,父母的房子,一律按照"新规定"处置

继承权无需争抢了!2025年起,父母的房子,一律按照"新规定"处置

猫叔东山再起
2026-02-28 12:00:03
美媒评26年自由市场TOP10前锋!火箭伊森第7 41岁詹姆斯仍排第一

美媒评26年自由市场TOP10前锋!火箭伊森第7 41岁詹姆斯仍排第一

锅子篮球
2026-02-28 18:44:54
伊朗正准备毁灭性报复行动

伊朗正准备毁灭性报复行动

逍遥论经
2026-02-28 17:57:30
巴厘岛海滩发现被肢解人体残骸,疑是此前失踪乌克兰公民,或与绑架撕票有关

巴厘岛海滩发现被肢解人体残骸,疑是此前失踪乌克兰公民,或与绑架撕票有关

大风新闻
2026-02-28 16:37:02
2026-02-28 19:20:49
我不叫阿哏
我不叫阿哏
分享有趣、有用的故事!
327文章数 6459关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

以色列先发制人 8个月后伊美以再次引燃中东

头条要闻

以色列先发制人 8个月后伊美以再次引燃中东

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

疑似王一博被爆私密聊天记录

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

数码
家居
健康
教育
军事航空

数码要闻

“冠军严选”:Pulsar派世预告第二代《CS》选手ZywOo联名鼠标

家居要闻

素色肌理 品意式格调

转头就晕的耳石症,能开车上班吗?

教育要闻

为什么说“听话的孩子是好孩子”这句话问题很大?

军事要闻

美国以色列联合袭击伊朗 实时战况

无障碍浏览 进入关怀版