NeurIPS 2025 | Video-RAG：革新长视频理解，开源视频理解模型也能媲美GPT-4o|gpt-4|深度思考按钮

NeurIPS 2025 | Video-RAG：革新长视频理解，开源视频理解模型也能媲美GPT-4o

2025-10-21 08:25:26　来源: 将门创投

北京举报

分享至

面对时长从几分钟到数小时的长视频，现有多模态视频语言模型（Large Video-Language Models, LVLMs）却因上下文窗口有限、视觉-文本对齐不足等问题屡屡 “失灵”，要么需海量数据与 GPU 资源进行微调，要么依赖 GPT-4o 等闭源模型导致成本难以承担。为打破这一困境，厦门大学联合南京大学、罗切斯特大学提出Video-RAG，一种无需训练、低成本的长视频理解范式。它通过提取视频中与视觉对齐的辅助文本（如音频转录、文字识别、目标检测结果），结合检索增强生成（Retrieval-Augmented Generation, RAG）技术，为任意多模态视频语言模型注入长视频理解能力。

论文题目： Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension 论文链接： https://arxiv.org/abs/2411.13093 代码链接： https://github.com/Leon1207/Video-RAG-master 项目主页： https://video-rag.github.io/

一、研究背景

长视频（如纪录片、监控录像、在线课程）包含丰富的时空信息，是具身智能、视频分析等领域的关键数据来源。但现有多模态视频语言模型在处理长视频时，面临三大难以突破的瓶颈（图1所示）：

1、上下文窗口受限：传统依赖采样视频帧提取视觉特征，但帧数量增多会导致信息冗余，甚至引发性能下降。例如 LongVA[1]模型在帧采样率从 128 提升至 384 时，Video-MME [2] 测试基准上得分反而从 52.6% 降至 51.8%。

2、微调成本高昂：为扩展 LVLM 的上下文长度，现有方法需在大规模文本上预训练，再迁移到视频任务，不仅需要TB级数据，还需数十张 A100 GPU 支持，普通研究者难以企及。

3、闭源模型依赖：GPT-4o、Gemini 1.5-Pro等闭源模型虽能处理长视频，但调用 API 成本极高（如VideoAgent [3]处理完整Video-MME数据集需消耗约2000美元API费用，耗时超 20 天），且灵活性受限。更关键的是，多数方法将视频转化为纯文本后再用 RAG 检索，丢失了关键视觉信息；而多轮交互式处理又进一步增加了计算开销，导致 “性能” 与 “效率” 难以兼得。

图1 不同主流长视频理解方案对比。

为了推动这一问题的解决，我们提出了Video-RAG算法，旨在通过引入视觉对齐的辅助文本输入，以无需训练的方式无缝集成到任何已有的LVLM中提升其处理长视频的能力。

二、Video-RAG 算法介绍

如图2所示，Video-RAG的核心思路是：用开源工具提取视频中的视觉对齐辅助文本，通过 RAG 筛选出与查询相关的信息，再输入任意 LVLM 生成答案。整个流程无需训练，可即插即用，具体分为三个阶段。

图2 Video-RAG 整体框架示意图。

图3 Video-RAG 示例。 2.1 第一步：查询解耦

如图3例子所示，用户输入关于长视频的查询（如 “当介绍“德国现代圣诞树最初会用苹果、蜡烛和浆果来装饰”时，数量最多的是哪一种装饰？”）后，Video-RAG 会先让 LVLM 生成结构化检索请求（JSON 格式），明确需要提取的信息类型：

ASR 请求：需从音频中获取的信息（如 “null”）；
DET 请求：需检测的物理实体（如 “apples、candles、berries”）；
TYPE 请求：需补充的实体属性（如 “number”）。

这一步仅处理文本，无需访问视频帧，确保检索目标精准，避免后续信息冗余。

2.2 第二步：辅助文本生成与检索

基于检索请求，Video-RAG 调用开源工具从视频中提取三类核心辅助文本，并构建数据库进行高效检索：

OCR 文本库：用 EasyOCR 提取每帧中的文字（如屏幕字幕、标识牌），再用 Contriever [4]编码为向量，存入 FAISS 索引库；
ASR 文本库：用 Whisper 将视频音频转录为文字（如人物对话、旁白），同样编码后存入数据库；
目标检测（DET）库：先通过 CLIP 筛选与查询相关的关键帧（排除无关帧减少计算），再用 APE（开源开放词汇目标检测模型）识别实体类别与位置，从而形成结构化的场景图，最后用场景图将原始检测结果转化为 LVLM 易理解的文本（如 “物体 1 是苹果，位于坐标 [x,y]，尺寸为长 × 宽；物体 2 是蜡烛，位于坐标 [a,b]”）。

随后，Video-RAG 继续使用Contriever编码用户查询与检索请求，通过 FAISS 计算向量相似度，筛选出相似度高于阈值（默认0.3）的辅助文本，用以确保仅保留与查询强相关的信息，避免上下文窗口溢出。

2.3 第三步：整合与生成

将筛选后的 OCR、ASR、DET 辅助文本按时间顺序合并，与原始查询、视频采样帧的视觉特征一起输入 LVLM，最终生成精准答案。例如上述查询中，Video-RAG 会提取到 ASR 文本和 DET 文本（“5个苹果，5个蜡烛和7个浆果”），辅助 LVLM 准确回答 “C:浆果”。

值得注意的是，检索过程是并行单轮执行的，无需多轮交互，计算开销极低；且所有工具均为开源（EasyOCR、Whisper、APE、FAISS 等），无需依赖任何闭源 API。

三、实验与分析
表1 主流LVLM接入Video-RAG在Video-MME上的性能表现。

研究团队在三大主流长视频基准（Video-MME、MLVU、LongVideoBench）上，对6个常见的开源 LVLM（从 7B 到 72B 参数）进行了全面测试，结果表明 Video-RAG 的性能与效率优势显著。

3.1 性能：72B 模型媲美 GPT-4o

如表1所示，在 Video-MME 数据集上，72B 参数的 LLaVA-Video [5] 结合 Video-RAG 后，整体得分达 77.4%，超过 GPT-4o 的 77.2%；在 LongVideoBench 数据集上，该组合得分 65.4%，超越 Gemini 1.5-Pro（64.0%），仅比 GPT-4o 低 1.3 个百分点，成为开源模型中的顶尖水平。

即使是 7B 小模型，Video-RAG 也能带来平均 3.2% 的性能提升。例如 LongVA-7B 在添加辅助文本后，长视频任务得分从 52.9% 升至 59.4%，且仅需额外 8GB GPU 显存、5 秒推理时间。

3.2 效率：资源消耗远低于现有方法

如图4所示，与长上下文微调模型（如 LongVA-128fs）相比，Video-RAG 在 16 帧采样下即可实现更高性能，且 GPU 显存消耗减少 150GB 以上；与 GPT-based Agent（如 VideoAgent）相比，处理相同数据集的成本从 2000 美元降至 “零 API 费用”，推理时间从 20 天缩短至小时级。

图4 不同方案资源消耗对比图。 3.3 鲁棒性：适配不同帧采样率与任务类型

消融实验显示，Video-RAG 在 8~256 帧采样率下均能稳定提升性能，尤其在低帧采样（8 帧）时增益更明显，适合资源受限场景；而拆分辅助文本组件后发现，ASR 对长视频推理帮助最大，DET能显著提升目标计数与空间关系判断精度，OCR 则优化文字相关任务，通过三者结合可实现最优长视频效果。

如图5所示，借助检索增强机制，Video-RAG能够精准筛选出与当前查询高度相关的信息片段，并将其注入到模型输入中。这些检索到的文本不仅引导LVLM更聚焦于与问题相关的关键帧，还起到了“桥梁”作用，强化了问题与视觉内容之间的语义对齐，从而提升模型在长视频理解任务中的准确性和鲁棒性。

图5 Video-RAG检索并注入相关文本，促使LVLM聚焦关键帧、强化文-视语义对齐。四、总结

Video-RAG 的突破在于，它没有陷入 “增大模型上下文” 或 “依赖闭源 API” 的传统路径，而是通过 “视觉对齐辅助文本 + 检索增强生成” 的轻量设计，让任意开源 LVLM 都能高效处理长视频。其价值不仅体现在技术层面：

对研究者：提供无需训练、低成本的长视频理解工具，代码开源可复现；
对工业界：可快速集成到监控分析、视频内容检索、在线教育等场景，降低部署成本；
对领域发展：为 LVLM 的跨模态对齐提供新思路，后续可进一步优化辅助文本与视觉特征的融合方式。

目前，Video-RAG 的代码已开源，研究者可直接基于现有 LVLM（如LLaVA-Video、Qwen2-VL [6]）进行拓展。未来团队计划探索自适应帧选择策略，进一步提升长视频理解的效率与精度，推动开源生态在多模态领域的发展。

主要引用文献

[1] Zhang, Peiyuan, et al. "Long context transfer from language to vision." arXiv preprint arXiv:2406.16852 (2024).

[2] Fu, Chaoyou, et al. "Video-mme: The first-ever comprehensive evaluation benchmark of multi-modal llms in video analysis." CVPR. 2025.

[3] Fan, Yue, et al. "Videoagent: A memory-augmented multimodal agent for video understanding." ECCV, 2024.

[4] Izacard, Gautier, et al. "Unsupervised dense information retrieval with contrastive learning." arXiv preprint arXiv:2112.09118 (2021).

[5] Yuanhan Zhang, et al. "Video instruction tuning with synthetic data." arXiv preprint arXiv:2410.02713 (2024).

[6] Wang, Peng, et al. "Qwen2-vl: Enhancing vision-language model's perception of the world at any resolution." arXiv preprint arXiv:2409.12191 (2024).

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信（michelle333_）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.