网易首页 > 网易号 > 正文 申请入驻

NeurIPS 2025 | Video-RAG:革新长视频理解,开源视频理解模型也能媲美GPT-4o

0
分享至

面对时长从几分钟到数小时的长视频,现有多模态视频语言模型(Large Video-Language Models, LVLMs)却因上下文窗口有限、视觉-文本对齐不足等问题屡屡 “失灵”,要么需海量数据与 GPU 资源进行微调,要么依赖 GPT-4o 等闭源模型导致成本难以承担。为打破这一困境,厦门大学联合南京大学、罗切斯特大学提出Video-RAG,一种无需训练、低成本的长视频理解范式。它通过提取视频中与视觉对齐的辅助文本(如音频转录、文字识别、目标检测结果),结合检索增强生成(Retrieval-Augmented Generation, RAG)技术,为任意多模态视频语言模型注入长视频理解能力。


论文题目: Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension 论文链接: https://arxiv.org/abs/2411.13093 代码链接: https://github.com/Leon1207/Video-RAG-master 项目主页: https://video-rag.github.io/
一、研究背景

长视频(如纪录片、监控录像、在线课程)包含丰富的时空信息,是具身智能、视频分析等领域的关键数据来源。但现有多模态视频语言模型在处理长视频时,面临三大难以突破的瓶颈(图1所示):

1、上下文窗口受限:传统依赖采样视频帧提取视觉特征,但帧数量增多会导致信息冗余,甚至引发性能下降。例如 LongVA[1]模型在帧采样率从 128 提升至 384 时,Video-MME [2] 测试基准上得分反而从 52.6% 降至 51.8%。

2、微调成本高昂:为扩展 LVLM 的上下文长度,现有方法需在大规模文本上预训练,再迁移到视频任务,不仅需要TB级数据,还需数十张 A100 GPU 支持,普通研究者难以企及。

3、闭源模型依赖:GPT-4o、Gemini 1.5-Pro等闭源模型虽能处理长视频,但调用 API 成本极高(如VideoAgent [3]处理完整Video-MME数据集需消耗约2000美元API费用,耗时超 20 天),且灵活性受限。更关键的是,多数方法将视频转化为纯文本后再用 RAG 检索,丢失了关键视觉信息;而多轮交互式处理又进一步增加了计算开销,导致 “性能” 与 “效率” 难以兼得。


图1 不同主流长视频理解方案对比。

为了推动这一问题的解决,我们提出了Video-RAG算法,旨在通过引入视觉对齐的辅助文本输入,以无需训练的方式无缝集成到任何已有的LVLM中提升其处理长视频的能力。

二、Video-RAG 算法介绍

如图2所示,Video-RAG的核心思路是:用开源工具提取视频中的视觉对齐辅助文本,通过 RAG 筛选出与查询相关的信息,再输入任意 LVLM 生成答案。整个流程无需训练,可即插即用,具体分为三个阶段。


图2 Video-RAG 整体框架示意图。

图3 Video-RAG 示例。 2.1 第一步:查询解耦

如图3例子所示,用户输入关于长视频的查询(如 “当介绍“德国现代圣诞树最初会用苹果、蜡烛和浆果来装饰”时,数量最多的是哪一种装饰?”)后,Video-RAG 会先让 LVLM 生成结构化检索请求(JSON 格式),明确需要提取的信息类型:

  1. ASR 请求:需从音频中获取的信息(如 “null”);

  2. DET 请求:需检测的物理实体(如 “apples、candles、berries”);

  3. TYPE 请求:需补充的实体属性(如 “number”)。

这一步仅处理文本,无需访问视频帧,确保检索目标精准,避免后续信息冗余。

2.2 第二步:辅助文本生成与检索

基于检索请求,Video-RAG 调用开源工具从视频中提取三类核心辅助文本,并构建数据库进行高效检索:

  1. OCR 文本库:用 EasyOCR 提取每帧中的文字(如屏幕字幕、标识牌),再用 Contriever [4]编码为向量,存入 FAISS 索引库;

  2. ASR 文本库:用 Whisper 将视频音频转录为文字(如人物对话、旁白),同样编码后存入数据库;

  3. 目标检测(DET)库:先通过 CLIP 筛选与查询相关的关键帧(排除无关帧减少计算),再用 APE(开源开放词汇目标检测模型)识别实体类别与位置,从而形成结构化的场景图,最后用场景图将原始检测结果转化为 LVLM 易理解的文本(如 “物体 1 是苹果,位于坐标 [x,y],尺寸为长 × 宽;物体 2 是蜡烛,位于坐标 [a,b]”)。

随后,Video-RAG 继续使用Contriever编码用户查询与检索请求,通过 FAISS 计算向量相似度,筛选出相似度高于阈值(默认0.3)的辅助文本,用以确保仅保留与查询强相关的信息,避免上下文窗口溢出。

2.3 第三步:整合与生成

将筛选后的 OCR、ASR、DET 辅助文本按时间顺序合并,与原始查询、视频采样帧的视觉特征一起输入 LVLM,最终生成精准答案。例如上述查询中,Video-RAG 会提取到 ASR 文本和 DET 文本(“5个苹果,5个蜡烛和7个浆果”),辅助 LVLM 准确回答 “C:浆果”。

值得注意的是,检索过程是并行单轮执行的,无需多轮交互,计算开销极低;且所有工具均为开源(EasyOCR、Whisper、APE、FAISS 等),无需依赖任何闭源 API。

三、实验与分析
表1 主流LVLM接入Video-RAG在Video-MME上的性能表现。

研究团队在三大主流长视频基准(Video-MME、MLVU、LongVideoBench)上,对6个常见的开源 LVLM(从 7B 到 72B 参数)进行了全面测试,结果表明 Video-RAG 的性能与效率优势显著。

3.1 性能:72B 模型媲美 GPT-4o

如表1所示,在 Video-MME 数据集上,72B 参数的 LLaVA-Video [5] 结合 Video-RAG 后,整体得分达 77.4%,超过 GPT-4o 的 77.2%;在 LongVideoBench 数据集上,该组合得分 65.4%,超越 Gemini 1.5-Pro(64.0%),仅比 GPT-4o 低 1.3 个百分点,成为开源模型中的顶尖水平。

即使是 7B 小模型,Video-RAG 也能带来平均 3.2% 的性能提升。例如 LongVA-7B 在添加辅助文本后,长视频任务得分从 52.9% 升至 59.4%,且仅需额外 8GB GPU 显存、5 秒推理时间。

3.2 效率:资源消耗远低于现有方法

如图4所示,与长上下文微调模型(如 LongVA-128fs)相比,Video-RAG 在 16 帧采样下即可实现更高性能,且 GPU 显存消耗减少 150GB 以上;与 GPT-based Agent(如 VideoAgent)相比,处理相同数据集的成本从 2000 美元降至 “零 API 费用”,推理时间从 20 天缩短至小时级。


图4 不同方案资源消耗对比图。 3.3 鲁棒性:适配不同帧采样率与任务类型

消融实验显示,Video-RAG 在 8~256 帧采样率下均能稳定提升性能,尤其在低帧采样(8 帧)时增益更明显,适合资源受限场景;而拆分辅助文本组件后发现,ASR 对长视频推理帮助最大,DET能显著提升目标计数与空间关系判断精度,OCR 则优化文字相关任务,通过三者结合可实现最优长视频效果。

如图5所示,借助检索增强机制,Video-RAG能够精准筛选出与当前查询高度相关的信息片段,并将其注入到模型输入中。这些检索到的文本不仅引导LVLM更聚焦于与问题相关的关键帧,还起到了“桥梁”作用,强化了问题与视觉内容之间的语义对齐,从而提升模型在长视频理解任务中的准确性和鲁棒性。


图5 Video-RAG检索并注入相关文本,促使LVLM聚焦关键帧、强化文-视语义对齐。 四、总结

Video-RAG 的突破在于,它没有陷入 “增大模型上下文” 或 “依赖闭源 API” 的传统路径,而是通过 “视觉对齐辅助文本 + 检索增强生成” 的轻量设计,让任意开源 LVLM 都能高效处理长视频。其价值不仅体现在技术层面:

  1. 对研究者:提供无需训练、低成本的长视频理解工具,代码开源可复现;

  2. 对工业界:可快速集成到监控分析、视频内容检索、在线教育等场景,降低部署成本;

  3. 对领域发展:为 LVLM 的跨模态对齐提供新思路,后续可进一步优化辅助文本与视觉特征的融合方式。

目前,Video-RAG 的代码已开源,研究者可直接基于现有 LVLM(如LLaVA-Video、Qwen2-VL [6])进行拓展。未来团队计划探索自适应帧选择策略,进一步提升长视频理解的效率与精度,推动开源生态在多模态领域的发展。

主要引用文献

[1] Zhang, Peiyuan, et al. "Long context transfer from language to vision." arXiv preprint arXiv:2406.16852 (2024).

[2] Fu, Chaoyou, et al. "Video-mme: The first-ever comprehensive evaluation benchmark of multi-modal llms in video analysis." CVPR. 2025.

[3] Fan, Yue, et al. "Videoagent: A memory-augmented multimodal agent for video understanding." ECCV, 2024.

[4] Izacard, Gautier, et al. "Unsupervised dense information retrieval with contrastive learning." arXiv preprint arXiv:2112.09118 (2021).

[5] Yuanhan Zhang, et al. "Video instruction tuning with synthetic data." arXiv preprint arXiv:2410.02713 (2024).

[6] Wang, Peng, et al. "Qwen2-vl: Enhancing vision-language model's perception of the world at any resolution." arXiv preprint arXiv:2409.12191 (2024).

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
现货白银站上92美元/盎司

现货白银站上92美元/盎司

新京报
2026-02-05 12:50:08
委内瑞拉和伊朗这一手“反水”,直接给中国上一堂最昂贵的战略课

委内瑞拉和伊朗这一手“反水”,直接给中国上一堂最昂贵的战略课

南权先生
2026-01-16 16:22:00
南京Lily姐火了。
​38岁陪读妈妈,牵着70岁德国工程师的手

南京Lily姐火了。 ​38岁陪读妈妈,牵着70岁德国工程师的手

岁月有情1314
2026-02-05 11:13:16
太痛了!极端天气夺命,华人老人与10岁外孙不幸遇难

太痛了!极端天气夺命,华人老人与10岁外孙不幸遇难

华人生活网
2026-01-29 05:04:00
陪玩陪睡不够!集体开嫖、舔手指、目无王法,阴暗面彻底藏不住了

陪玩陪睡不够!集体开嫖、舔手指、目无王法,阴暗面彻底藏不住了

好贤观史记
2025-11-09 21:58:39
大S雕像仪式刚结束,葛斯齐深夜爆其猛料,许雅钧表现逆转口碑!

大S雕像仪式刚结束,葛斯齐深夜爆其猛料,许雅钧表现逆转口碑!

古希腊掌管月桂的神
2026-02-03 10:20:14
一夜八笔交易!豪赌还是摆烂,各家在想什么?

一夜八笔交易!豪赌还是摆烂,各家在想什么?

篮球盛世
2026-02-05 16:44:52
大S死因反转!具俊晔时隔一年改口,酒店发病是假的,三疑点戳穿谎言

大S死因反转!具俊晔时隔一年改口,酒店发病是假的,三疑点戳穿谎言

八星人
2026-02-04 20:32:35
萧美娘乳白写真合集(2)

萧美娘乳白写真合集(2)

情感大头说说
2026-01-24 15:26:40
很多人以为殉葬就是把活人关进地宫,门一关,他们只能哭喊着等死

很多人以为殉葬就是把活人关进地宫,门一关,他们只能哭喊着等死

忠于法纪
2026-01-18 17:42:24
“价格屠夫”:河北电商,正在“血洗”全国批发市场

“价格屠夫”:河北电商,正在“血洗”全国批发市场

苏格拉高
2026-01-31 07:50:47
非要抢港,第三国接手中资港口,李嘉诚不再沉默,中方撂下1句话

非要抢港,第三国接手中资港口,李嘉诚不再沉默,中方撂下1句话

落梅如雪乱飞
2026-02-06 01:41:43
十四世达赖在爱泼斯坦档案中被提及168次

十四世达赖在爱泼斯坦档案中被提及168次

观察者网
2026-02-05 21:58:04
乌克兰消灭“俄罗斯英雄”莫斯利莫夫!曾被俄防长亲自授勋

乌克兰消灭“俄罗斯英雄”莫斯利莫夫!曾被俄防长亲自授勋

项鹏飞
2026-02-03 17:26:49
赖清德一觉醒来天塌了,解放军不浪费一枪一弹,已将台岛围成铁桶

赖清德一觉醒来天塌了,解放军不浪费一枪一弹,已将台岛围成铁桶

林子说事
2026-02-04 16:40:06
彻底闹大了!湖北一精神病院变身“缅北园区”?真相触目惊心!

彻底闹大了!湖北一精神病院变身“缅北园区”?真相触目惊心!

好笑娱乐君每一天
2026-02-06 00:20:00
有多少水和多少泥。张兰中午发视频一语双关,暗示了S妈的结局!

有多少水和多少泥。张兰中午发视频一语双关,暗示了S妈的结局!

噶噶香的晚餐
2026-02-05 09:14:00
第三国下场后,长和发布公告,中方反制就绪,巴拿马将付出代价

第三国下场后,长和发布公告,中方反制就绪,巴拿马将付出代价

似水流年忘我
2026-02-05 21:47:30
普京免去伊万诺夫职务

普京免去伊万诺夫职务

占豪
2026-02-06 01:21:52
尴尬!大布去除贝克汉姆文身,断绝关系节奏更大!昔年妈宝男彻底不装了...

尴尬!大布去除贝克汉姆文身,断绝关系节奏更大!昔年妈宝男彻底不装了...

英国那些事儿
2026-02-05 23:23:06
2026-02-06 02:27:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

美团买下叮咚买菜,防御还是进击?

头条要闻

爱泼斯坦被指系俄罗斯间谍 克里姆林宫回应

头条要闻

爱泼斯坦被指系俄罗斯间谍 克里姆林宫回应

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

艺术
教育
数码
健康
公开课

艺术要闻

成都绿地468新动向,班组进场,打破再次停工谣言!

教育要闻

徐汇中学校长:取消中高考是早晚的事,网友:普通的孩子怎么办

数码要闻

航嘉 高能 S140 Pro氮化镓安全快充深度评测

耳石症分类型,症状大不同

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版