网易首页 > 网易号 > 正文 申请入驻

FOCUS 关键帧提取:长视频理解能力提升11.9%,只需采样<2% 帧

0
分享至



本文第一作者朱子瑞为新加坡国立大学四年级博士生,本科毕业于清华大学,研究方向为多模态大模型和后训练优化。通讯作者为 TikTok 内容智能负责人 Kanchan Sarkar、Meta杨振恒博士(相关工作完成于其在 TikTok 任职期间)以及新加坡国立大学校长青年教授尤洋老师。

文章速览

长视频会使 MLLM 的视觉 token 规模快速增长,但推理阶段的计算与上下文预算有限,难以对全量帧进行处理。

现有关键帧方案通常还需先用 CLIP/BLIP 等视觉编码器全视频逐帧预扫描,即使最终只保留少量帧,前置计算成本依然很高。

本文提出FOCUS:将关键帧选择建模为组合纯探索(CPE)多臂赌博机,以自适应的 “探索 — 利用” 策略在无需遍历全帧的前提下先锁定高价值时间段,再在段内精挑关键帧。

  • 无需训练、即插即用:可直接接入现有 MLLM(如 GPT-4o 或 Qwen)的推理流程,不依赖特定模型结构与训练方式。

  • 效果更强:在>20 分钟的长视频 VQA benchmark 设定下,FOCUS 选帧相较均匀抽帧可带来11.9%的性能提升。

  • 成本更低:不依赖降采样等预过滤手段,平均只需观察 <2% 的帧即可达到上述收益,显著降低推理计算开销。



  • 论文标题:FOCUS: Efficient Keyframe Selection for Long Video Understanding
  • 论文链接:https://arxiv.org/abs/2510.27280
  • 代码仓库:https://github.com/NUS-HPC-AI-Lab/FOCUS

背景:长视频理解为什么难?

长视频理解是多模态大模型(MLLM)中最为困难的问题之一。一段小时级、30fps 的标准视频往往包含十万量级以上的帧数。

对于主流 MLLM 而言,无论是先将视频帧编码为视觉 token、还是进一步进行跨模态交互建模,计算与上下文开销都会随帧数快速增长:“全量帧输入” 在绝大多数真实推理场景中并不现实。

因此,“挑选关键帧” 几乎是所有长视频系统的必经步骤。最常见的均匀抽帧(降采样)虽然能控成本,却容易错过集中在短片段中的决定性证据,导致模型在核心信息缺失的情况下 “盲答”。

现有关键帧方法大致分为两类:一类是training-based,训练轻量选择器从全量帧中挑子集,但面临标注困难、组合爆炸带来的训练与工程成本,以及对下游模型结构 / 训练方式的依赖;另一类是training-free的检索式方案,用 CLIP、BLIP 等编码器计算 “帧 — 文本” 相关性再选帧。

后者虽免训练,却往往需要先对全视频逐帧预编码,面对小时级视频时单视频计算开销仍可能达到约FLOPs 量级,难以部署。

因此,我们需要一种更高效的选帧方式:在不牺牲准确性的前提下,避免对全视频逐帧预扫,降低推理代价,用尽可能少的观测帧数快速定位与 query 相关的高价值片段,真正满足现实系统的效率与可用性要求。

方法:FOCUS 的两阶段探索 - 利用

基于上述动机,本文提出FOCUS,一个无需训练、可即插即用的关键帧选择算法。FOCUS 的核心思想是:将 “在预算内找到最有用的帧” 视为一个组合探索问题 ——算法不必先看完整视频再做选择,而是可以通过少量试探性采样(探索)逐步缩小候选范围,再将预算集中到最有价值的区域(利用)。



具体而言,FOCUS 将关键帧选择建模为组合纯探索(CPE)的多臂赌博机问题,并采用两阶段的 coarse-to-fine 策略:

第一阶段:定位高价值时间段(粗粒度探索)。

我们把长视频切分为若干时间段,将每个时间段视作一个 “臂”。FOCUS 在有限预算下,对不同时间段进行自适应抽样:对 “可能与 query 更相关” 的时间段分配更多采样,对明显无关的时间段快速减少采样。通过维护每个时间段的估计收益与不确定性(置信界),算法可以在不遍历全视频的情况下,把注意力收敛到少量候选高价值时间段。

第二阶段:在段内精挑关键帧(细粒度利用)。

当候选时间段被锁定后,FOCUS 在这些时间段内部进一步选择帧:同样通过 “少量试探 + 置信驱动” 的方式,把帧预算集中到最相关的画面上,输出最终关键帧集合供下游 MLLM 推理。



FOCUS 的效率优势使其可以作为一个前置模块,直接插入现有 MLLM 推理 pipeline,在不同模型、不同任务上复用。

实验:即插即用的长视频理解利器

为了验证 FOCUS 的通用性与有效性,作者在四个公开视频问答(Video QA)基准上进行了评测,并选择了四种常用的 MLLM 作为下游推理模型,包括GPT-4o、Qwen2-VL、LLaVA-OV、LLaVA-Video等。





作者进一步地将 FOCUS 与目前最有代表性的关键帧选择方法进行了对比。



结果表明:在长视频场景(例如>20 分钟的设定)下,FOCUS 相比均匀抽帧带来最高 11.9%的性能提升。同时,FOCUS 在不依赖降采样等预过滤手段的情况下,平均仅需观察<2%的帧即可达到上述收益,显著降低了关键帧选择与推理阶段的总体计算开销。

分析:高效定位视频关键信息

1. 可视化:FOCUS 能更精准地找到与 query 相关的证据片段

作者对若干典型样例进行可视化分析:在长视频中,FOCUS 通过两阶段探索快速将注意力收敛到少量高价值片段,再在片段内部挑出证据帧,使得输入给 MLLM 的帧更 “信息密集”,从而提升回答质量。



2. 效率提升:相比全帧预扫的选帧范式,FOCUS 的端到端开销更可控

FOCUS 的效率优势在于:它的选择过程本身就是省帧的,能够在探索阶段动态跳过大量无关区域,避免将计算预算花在 “无用的全量预扫” 上,相对于基线方法大大降低推理开销。



同时 FOCUS 提供了清晰的预算控制接口:当系统更关注性能时,可以适当增加探索预算;当系统更关注吞吐 / 延迟时,可以通过调整超参数收紧预算。



总结

长视频理解的核心难点在于:视觉 token 随帧数快速膨胀,均匀抽帧又容易漏掉关键证据;而现有关键帧方法存在着训练代价高、依赖模型结构的问题,或者虽免训练仍需全帧预编码,难以满足真实系统的效率要求。

FOCUS 将选帧建模为组合纯探索,通过两阶段 “探索 — 利用” 在不遍历全帧的情况下定位与 query 相关的高价值片段;平均仅观察 <2% 帧即可在长视频设定下带来最高 +11.9% 的准确率提升。它可作为即插即用的推理组件,为 MLLM 长视频应用提供更可控的成本与表现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王子文和王朔未婚生子的瓜!

王子文和王朔未婚生子的瓜!

八卦疯叔
2026-04-23 11:10:22
中国移动山东公告:5月7日起,SIM卡补换卡将统一收费

中国移动山东公告:5月7日起,SIM卡补换卡将统一收费

粤语音乐喷泉
2026-04-23 00:27:38
以彼之道,还施彼身:当“封锁”遭遇“封锁”,伊朗更受不了

以彼之道,还施彼身:当“封锁”遭遇“封锁”,伊朗更受不了

高博新视野
2026-04-22 08:00:21
休战1个月!郑钦文红土首秀时间确定 再遇前澳网冠军+交手2战全胜

休战1个月!郑钦文红土首秀时间确定 再遇前澳网冠军+交手2战全胜

我爱英超
2026-04-23 07:19:46
日本自卫队坦克炸膛已致3人死亡,什么是坦克炸膛?原因是什么?

日本自卫队坦克炸膛已致3人死亡,什么是坦克炸膛?原因是什么?

之乎者也小鱼儿
2026-04-21 15:25:57
最差劲的美国总统是谁,不是特朗普、不是拜登,而是作恶多端的他

最差劲的美国总统是谁,不是特朗普、不是拜登,而是作恶多端的他

蜉蝣说
2026-04-21 11:27:49
大快人心!张敬轩复出泡汤,霍汶希被拖下水,英皇如坐针毡

大快人心!张敬轩复出泡汤,霍汶希被拖下水,英皇如坐针毡

一盅情怀
2026-04-21 19:20:32
小米SU7自动泊车时撞上悬空墙体;车主:以后不再用了;厂家:悬空障碍物会影响到泊车辅助功能

小米SU7自动泊车时撞上悬空墙体;车主:以后不再用了;厂家:悬空障碍物会影响到泊车辅助功能

中国能源网
2026-04-23 16:08:29
伊朗媒体首次发布画面:革命卫队海军扣押集装箱船

伊朗媒体首次发布画面:革命卫队海军扣押集装箱船

环球网资讯
2026-04-23 17:15:25
世锦赛战报:2-10!中国5人出局了,16强基本定14席火箭vs希金斯

世锦赛战报:2-10!中国5人出局了,16强基本定14席火箭vs希金斯

小火箭爱体育
2026-04-22 22:37:51
输球又输人!辽宁德比爆大争议,李金羽拒握手,对手主帅霸气表态

输球又输人!辽宁德比爆大争议,李金羽拒握手,对手主帅霸气表态

林子说事
2026-04-23 15:42:02
记者:申花传奇莫雷诺今早抵达上海,数百名球迷前来接机

记者:申花传奇莫雷诺今早抵达上海,数百名球迷前来接机

懂球帝
2026-04-23 10:10:09
生姜立大功?美国研究发现:生姜可在48小时内清除50%老化细胞?

生姜立大功?美国研究发现:生姜可在48小时内清除50%老化细胞?

芹姐说生活
2026-04-21 14:45:08
人老了,再憋的慌也不要去这几个地方:1、原来的单位;2、不远不近的亲戚;3、可有可无的聚会

人老了,再憋的慌也不要去这几个地方:1、原来的单位;2、不远不近的亲戚;3、可有可无的聚会

四行书
2026-03-30 12:35:12
足协认定漏判海牛点球 叶博亚禁区内倒地应判点

足协认定漏判海牛点球 叶博亚禁区内倒地应判点

体坛周报
2026-04-22 21:48:16
福建永安一女子被保安掌掴,记者核实:保安非事发地附近学校保安!保安工作单位回应:非公司直接聘请,是保安公司的

福建永安一女子被保安掌掴,记者核实:保安非事发地附近学校保安!保安工作单位回应:非公司直接聘请,是保安公司的

极目新闻
2026-04-23 11:40:57
中组部人社部规定:公职人员违纪后待遇一文讲清

中组部人社部规定:公职人员违纪后待遇一文讲清

笑熬浆糊111
2026-04-23 00:05:18
男子晒两任老婆做的菜,问这说明什么,网友:证明前妻能陪你吃苦

男子晒两任老婆做的菜,问这说明什么,网友:证明前妻能陪你吃苦

丫头舫
2026-04-22 21:55:06
真硬!手指90度折弯,淡定拿下37+5+9,MVP毫无悬念了

真硬!手指90度折弯,淡定拿下37+5+9,MVP毫无悬念了

体育新角度
2026-04-23 17:05:56
瘦骨嶙峋现身灵堂,二十年不见人影,他却没病也没穷

瘦骨嶙峋现身灵堂,二十年不见人影,他却没病也没穷

手工制作阿歼
2026-04-23 12:23:38
2026-04-23 18:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12837文章数 142634关注度
往期回顾 全部

科技要闻

马斯克喊出"史上最大产品",但量产难预测

头条要闻

五角大楼"斩"海军部长 知情人士:他没认清谁是老大

头条要闻

五角大楼"斩"海军部长 知情人士:他没认清谁是老大

体育要闻

莱斯特城降入英甲,一场亏麻了的豪赌

娱乐要闻

王大陆因涉黑讨债被判 女友也一同获刑

财经要闻

关于AI算力链"瓶颈" 这是高盛的最新看法

汽车要闻

令人惊艳的奇瑞车 风云A9可不只是样子货

态度原创

手机
房产
家居
亲子
军事航空

手机要闻

Find X9 Ultra新增大师配方水印 一键闪记拍同款

房产要闻

三亚安居房,突然官宣!

家居要闻

浪漫协奏 法式风格

亲子要闻

萌娃也来挑战机器人编程!深圳科技幼教集团开展童趣科技聚会

军事要闻

人民海军成立77周年 主力舰艇亮相上海

无障碍浏览 进入关怀版