网易首页 > 网易号 > 正文 申请入驻

FOCUS 关键帧提取:长视频理解能力提升11.9%,只需采样<2% 帧

0
分享至



本文第一作者朱子瑞为新加坡国立大学四年级博士生,本科毕业于清华大学,研究方向为多模态大模型和后训练优化。通讯作者为 TikTok 内容智能负责人 Kanchan Sarkar、Meta杨振恒博士(相关工作完成于其在 TikTok 任职期间)以及新加坡国立大学校长青年教授尤洋老师。

文章速览

长视频会使 MLLM 的视觉 token 规模快速增长,但推理阶段的计算与上下文预算有限,难以对全量帧进行处理。

现有关键帧方案通常还需先用 CLIP/BLIP 等视觉编码器全视频逐帧预扫描,即使最终只保留少量帧,前置计算成本依然很高。

本文提出FOCUS:将关键帧选择建模为组合纯探索(CPE)多臂赌博机,以自适应的 “探索 — 利用” 策略在无需遍历全帧的前提下先锁定高价值时间段,再在段内精挑关键帧。

  • 无需训练、即插即用:可直接接入现有 MLLM(如 GPT-4o 或 Qwen)的推理流程,不依赖特定模型结构与训练方式。

  • 效果更强:在>20 分钟的长视频 VQA benchmark 设定下,FOCUS 选帧相较均匀抽帧可带来11.9%的性能提升。

  • 成本更低:不依赖降采样等预过滤手段,平均只需观察 <2% 的帧即可达到上述收益,显著降低推理计算开销。



  • 论文标题:FOCUS: Efficient Keyframe Selection for Long Video Understanding
  • 论文链接:https://arxiv.org/abs/2510.27280
  • 代码仓库:https://github.com/NUS-HPC-AI-Lab/FOCUS

背景:长视频理解为什么难?

长视频理解是多模态大模型(MLLM)中最为困难的问题之一。一段小时级、30fps 的标准视频往往包含十万量级以上的帧数。

对于主流 MLLM 而言,无论是先将视频帧编码为视觉 token、还是进一步进行跨模态交互建模,计算与上下文开销都会随帧数快速增长:“全量帧输入” 在绝大多数真实推理场景中并不现实。

因此,“挑选关键帧” 几乎是所有长视频系统的必经步骤。最常见的均匀抽帧(降采样)虽然能控成本,却容易错过集中在短片段中的决定性证据,导致模型在核心信息缺失的情况下 “盲答”。

现有关键帧方法大致分为两类:一类是training-based,训练轻量选择器从全量帧中挑子集,但面临标注困难、组合爆炸带来的训练与工程成本,以及对下游模型结构 / 训练方式的依赖;另一类是training-free的检索式方案,用 CLIP、BLIP 等编码器计算 “帧 — 文本” 相关性再选帧。

后者虽免训练,却往往需要先对全视频逐帧预编码,面对小时级视频时单视频计算开销仍可能达到约FLOPs 量级,难以部署。

因此,我们需要一种更高效的选帧方式:在不牺牲准确性的前提下,避免对全视频逐帧预扫,降低推理代价,用尽可能少的观测帧数快速定位与 query 相关的高价值片段,真正满足现实系统的效率与可用性要求。

方法:FOCUS 的两阶段探索 - 利用

基于上述动机,本文提出FOCUS,一个无需训练、可即插即用的关键帧选择算法。FOCUS 的核心思想是:将 “在预算内找到最有用的帧” 视为一个组合探索问题 ——算法不必先看完整视频再做选择,而是可以通过少量试探性采样(探索)逐步缩小候选范围,再将预算集中到最有价值的区域(利用)。



具体而言,FOCUS 将关键帧选择建模为组合纯探索(CPE)的多臂赌博机问题,并采用两阶段的 coarse-to-fine 策略:

第一阶段:定位高价值时间段(粗粒度探索)。

我们把长视频切分为若干时间段,将每个时间段视作一个 “臂”。FOCUS 在有限预算下,对不同时间段进行自适应抽样:对 “可能与 query 更相关” 的时间段分配更多采样,对明显无关的时间段快速减少采样。通过维护每个时间段的估计收益与不确定性(置信界),算法可以在不遍历全视频的情况下,把注意力收敛到少量候选高价值时间段。

第二阶段:在段内精挑关键帧(细粒度利用)。

当候选时间段被锁定后,FOCUS 在这些时间段内部进一步选择帧:同样通过 “少量试探 + 置信驱动” 的方式,把帧预算集中到最相关的画面上,输出最终关键帧集合供下游 MLLM 推理。



FOCUS 的效率优势使其可以作为一个前置模块,直接插入现有 MLLM 推理 pipeline,在不同模型、不同任务上复用。

实验:即插即用的长视频理解利器

为了验证 FOCUS 的通用性与有效性,作者在四个公开视频问答(Video QA)基准上进行了评测,并选择了四种常用的 MLLM 作为下游推理模型,包括GPT-4o、Qwen2-VL、LLaVA-OV、LLaVA-Video等。





作者进一步地将 FOCUS 与目前最有代表性的关键帧选择方法进行了对比。



结果表明:在长视频场景(例如>20 分钟的设定)下,FOCUS 相比均匀抽帧带来最高 11.9%的性能提升。同时,FOCUS 在不依赖降采样等预过滤手段的情况下,平均仅需观察<2%的帧即可达到上述收益,显著降低了关键帧选择与推理阶段的总体计算开销。

分析:高效定位视频关键信息

1. 可视化:FOCUS 能更精准地找到与 query 相关的证据片段

作者对若干典型样例进行可视化分析:在长视频中,FOCUS 通过两阶段探索快速将注意力收敛到少量高价值片段,再在片段内部挑出证据帧,使得输入给 MLLM 的帧更 “信息密集”,从而提升回答质量。



2. 效率提升:相比全帧预扫的选帧范式,FOCUS 的端到端开销更可控

FOCUS 的效率优势在于:它的选择过程本身就是省帧的,能够在探索阶段动态跳过大量无关区域,避免将计算预算花在 “无用的全量预扫” 上,相对于基线方法大大降低推理开销。



同时 FOCUS 提供了清晰的预算控制接口:当系统更关注性能时,可以适当增加探索预算;当系统更关注吞吐 / 延迟时,可以通过调整超参数收紧预算。



总结

长视频理解的核心难点在于:视觉 token 随帧数快速膨胀,均匀抽帧又容易漏掉关键证据;而现有关键帧方法存在着训练代价高、依赖模型结构的问题,或者虽免训练仍需全帧预编码,难以满足真实系统的效率要求。

FOCUS 将选帧建模为组合纯探索,通过两阶段 “探索 — 利用” 在不遍历全帧的情况下定位与 query 相关的高价值片段;平均仅观察 <2% 帧即可在长视频设定下带来最高 +11.9% 的准确率提升。它可作为即插即用的推理组件,为 MLLM 长视频应用提供更可控的成本与表现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
46岁谢霆锋与陈坤亮相,一个脸垮一个臃肿,骨相和皮相差距很明显

46岁谢霆锋与陈坤亮相,一个脸垮一个臃肿,骨相和皮相差距很明显

查尔菲的笔记
2026-02-26 14:16:04
随着吴宜泽5-4逆转江俊,斯诺克4强出炉!大概率以下2人会师决赛

随着吴宜泽5-4逆转江俊,斯诺克4强出炉!大概率以下2人会师决赛

小火箭爱体育
2026-02-28 07:27:10
送走马蓉又迎来冯清,倒霉的王宝强,终究还是逃不过“女人坑”

送走马蓉又迎来冯清,倒霉的王宝强,终究还是逃不过“女人坑”

卷史
2026-02-15 06:08:47
新华社快讯:以色列特拉维夫一建筑冒起浓烟

新华社快讯:以色列特拉维夫一建筑冒起浓烟

极目新闻
2026-02-28 15:48:43
汪小菲开直播,回应玥儿和箖箖上学问题,吐槽汪宝儿心眼太多了

汪小菲开直播,回应玥儿和箖箖上学问题,吐槽汪宝儿心眼太多了

老羴学科普
2026-02-28 14:00:09
美官员:美国对伊朗的空袭正在进行中!伊朗防空系统毫无反应

美官员:美国对伊朗的空袭正在进行中!伊朗防空系统毫无反应

我心纵横天地间
2026-02-28 15:56:31
湖人内讧接连传出!斯玛特多次表达不满,防守懒散,还拿自己当腕

湖人内讧接连传出!斯玛特多次表达不满,防守懒散,还拿自己当腕

你的篮球频道
2026-02-28 10:11:44
伊方称伊朗军队全体指挥官均处于安全状态

伊方称伊朗军队全体指挥官均处于安全状态

环球网资讯
2026-02-28 19:26:38
名将惨遭5连鞭零封,世锦赛冠军2-5爆冷出局,丁俊晖种子资格红灯

名将惨遭5连鞭零封,世锦赛冠军2-5爆冷出局,丁俊晖种子资格红灯

篮球看比赛
2026-02-28 16:59:37
古人逛一次青楼要多少银子?换算成人民币后,只得感叹根本去不起

古人逛一次青楼要多少银子?换算成人民币后,只得感叹根本去不起

老谢谈史
2026-02-22 21:43:23
全身而退!北京一家5口完美套现24亿,临走前又坑了甘肃国资一把

全身而退!北京一家5口完美套现24亿,临走前又坑了甘肃国资一把

文史旺旺旺
2025-12-27 18:22:03
人民币持续升值后,央行出手了:从20%降到0!对普通人有何影响?

人民币持续升值后,央行出手了:从20%降到0!对普通人有何影响?

王爷说图表
2026-02-27 21:34:25
联合国爆发争端,凌晨中美大吵一架,美国犯下大错,局势已恶化

联合国爆发争端,凌晨中美大吵一架,美国犯下大错,局势已恶化

芊芊子吟
2026-02-26 11:26:11
证监会重磅!紧急召开座谈会,利好三大板块!下周A股将加速上涨

证监会重磅!紧急召开座谈会,利好三大板块!下周A股将加速上涨

虎哥闲聊
2026-02-28 08:39:33
日本主帅:中国男篮有两名球员对日本队威胁大,其中一个人最难防

日本主帅:中国男篮有两名球员对日本队威胁大,其中一个人最难防

现代小青青慕慕
2026-02-28 15:23:31
快讯:以色列北部响起爆炸声

快讯:以色列北部响起爆炸声

环球时报国际
2026-02-28 16:56:51
深圳湾公园晚上“黑灯瞎火”被吐槽,公园管理中心回应:为了让鸟儿睡好觉,主要出入口等地保留了基础照明

深圳湾公园晚上“黑灯瞎火”被吐槽,公园管理中心回应:为了让鸟儿睡好觉,主要出入口等地保留了基础照明

扬子晚报
2026-02-27 12:33:02
2月24号,据路透社报道的消息,伊朗已经接近与中方达成一项协议

2月24号,据路透社报道的消息,伊朗已经接近与中方达成一项协议

百态人间
2026-02-26 15:31:05
40岁存款要达到什么水平?

40岁存款要达到什么水平?

In风尚
2026-02-23 06:04:00
默茨在北京抱走百亿大单,转身德国就翻脸:中国不守规矩?

默茨在北京抱走百亿大单,转身德国就翻脸:中国不守规矩?

小鱼爱鱼乐
2026-02-27 22:03:08
2026-02-28 19:56:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12382文章数 142573关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

疑将燃料当白酒喝下两男子参加婚宴后中毒仍在ICU抢救

头条要闻

疑将燃料当白酒喝下两男子参加婚宴后中毒仍在ICU抢救

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

疑似王一博被爆私密聊天记录

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

家居
游戏
数码
旅游
公开课

家居要闻

素色肌理 品意式格调

粉丝出钱逼官方下场:我不信你们能打通最高难度!

数码要闻

“冠军严选”:Pulsar派世预告第二代《CS》选手ZywOo联名鼠标

旅游要闻

1.2万平方米!世纪公园宠物乐园今启用,“毛孩子”撒欢有了新去处

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版