面对时长从几分钟到数小时的长视频,现有多模态视频语言模型(Large Video-Language Models, LVLMs)却因上下文窗口有限、视觉-文本对齐不足等问题屡屡 “失灵”,要么需海量数据与 GPU 资源进行微调,要么依赖 GPT-4o 等闭源模型导致成本难以承担。为打破这一困境,厦门大学联合南京大学、罗切斯特大学提出Video-RAG,一种无需训练、低成本的长视频理解范式。它通过提取视频中与视觉对齐的辅助文本(如音频转录、文字识别、目标检测结果),结合检索增强生成(Retrieval-Augmented Generation, RAG)技术,为任意多模态视频语言模型注入长视频理解能力。
![]()
论文题目: Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension 论文链接: https://arxiv.org/abs/2411.13093 代码链接: https://github.com/Leon1207/Video-RAG-master 项目主页: https://video-rag.github.io/一、研究背景
长视频(如纪录片、监控录像、在线课程)包含丰富的时空信息,是具身智能、视频分析等领域的关键数据来源。但现有多模态视频语言模型在处理长视频时,面临三大难以突破的瓶颈(图1所示):
1、上下文窗口受限:传统依赖采样视频帧提取视觉特征,但帧数量增多会导致信息冗余,甚至引发性能下降。例如 LongVA[1]模型在帧采样率从 128 提升至 384 时,Video-MME [2] 测试基准上得分反而从 52.6% 降至 51.8%。
2、微调成本高昂:为扩展 LVLM 的上下文长度,现有方法需在大规模文本上预训练,再迁移到视频任务,不仅需要TB级数据,还需数十张 A100 GPU 支持,普通研究者难以企及。
3、闭源模型依赖:GPT-4o、Gemini 1.5-Pro等闭源模型虽能处理长视频,但调用 API 成本极高(如VideoAgent [3]处理完整Video-MME数据集需消耗约2000美元API费用,耗时超 20 天),且灵活性受限。更关键的是,多数方法将视频转化为纯文本后再用 RAG 检索,丢失了关键视觉信息;而多轮交互式处理又进一步增加了计算开销,导致 “性能” 与 “效率” 难以兼得。
![]()
图1 不同主流长视频理解方案对比。
为了推动这一问题的解决,我们提出了Video-RAG算法,旨在通过引入视觉对齐的辅助文本输入,以无需训练的方式无缝集成到任何已有的LVLM中提升其处理长视频的能力。
二、Video-RAG 算法介绍
如图2所示,Video-RAG的核心思路是:用开源工具提取视频中的视觉对齐辅助文本,通过 RAG 筛选出与查询相关的信息,再输入任意 LVLM 生成答案。整个流程无需训练,可即插即用,具体分为三个阶段。
![]()
图2 Video-RAG 整体框架示意图。![]()
图3 Video-RAG 示例。 2.1 第一步:查询解耦
如图3例子所示,用户输入关于长视频的查询(如 “当介绍“德国现代圣诞树最初会用苹果、蜡烛和浆果来装饰”时,数量最多的是哪一种装饰?”)后,Video-RAG 会先让 LVLM 生成结构化检索请求(JSON 格式),明确需要提取的信息类型:
ASR 请求:需从音频中获取的信息(如 “null”);
DET 请求:需检测的物理实体(如 “apples、candles、berries”);
TYPE 请求:需补充的实体属性(如 “number”)。
这一步仅处理文本,无需访问视频帧,确保检索目标精准,避免后续信息冗余。
2.2 第二步:辅助文本生成与检索
基于检索请求,Video-RAG 调用开源工具从视频中提取三类核心辅助文本,并构建数据库进行高效检索:
OCR 文本库:用 EasyOCR 提取每帧中的文字(如屏幕字幕、标识牌),再用 Contriever [4]编码为向量,存入 FAISS 索引库;
ASR 文本库:用 Whisper 将视频音频转录为文字(如人物对话、旁白),同样编码后存入数据库;
目标检测(DET)库:先通过 CLIP 筛选与查询相关的关键帧(排除无关帧减少计算),再用 APE(开源开放词汇目标检测模型)识别实体类别与位置,从而形成结构化的场景图,最后用场景图将原始检测结果转化为 LVLM 易理解的文本(如 “物体 1 是苹果,位于坐标 [x,y],尺寸为长 × 宽;物体 2 是蜡烛,位于坐标 [a,b]”)。
随后,Video-RAG 继续使用Contriever编码用户查询与检索请求,通过 FAISS 计算向量相似度,筛选出相似度高于阈值(默认0.3)的辅助文本,用以确保仅保留与查询强相关的信息,避免上下文窗口溢出。
2.3 第三步:整合与生成
将筛选后的 OCR、ASR、DET 辅助文本按时间顺序合并,与原始查询、视频采样帧的视觉特征一起输入 LVLM,最终生成精准答案。例如上述查询中,Video-RAG 会提取到 ASR 文本和 DET 文本(“5个苹果,5个蜡烛和7个浆果”),辅助 LVLM 准确回答 “C:浆果”。
值得注意的是,检索过程是并行单轮执行的,无需多轮交互,计算开销极低;且所有工具均为开源(EasyOCR、Whisper、APE、FAISS 等),无需依赖任何闭源 API。
三、实验与分析![]()
表1 主流LVLM接入Video-RAG在Video-MME上的性能表现。
研究团队在三大主流长视频基准(Video-MME、MLVU、LongVideoBench)上,对6个常见的开源 LVLM(从 7B 到 72B 参数)进行了全面测试,结果表明 Video-RAG 的性能与效率优势显著。
3.1 性能:72B 模型媲美 GPT-4o
如表1所示,在 Video-MME 数据集上,72B 参数的 LLaVA-Video [5] 结合 Video-RAG 后,整体得分达 77.4%,超过 GPT-4o 的 77.2%;在 LongVideoBench 数据集上,该组合得分 65.4%,超越 Gemini 1.5-Pro(64.0%),仅比 GPT-4o 低 1.3 个百分点,成为开源模型中的顶尖水平。
即使是 7B 小模型,Video-RAG 也能带来平均 3.2% 的性能提升。例如 LongVA-7B 在添加辅助文本后,长视频任务得分从 52.9% 升至 59.4%,且仅需额外 8GB GPU 显存、5 秒推理时间。
3.2 效率:资源消耗远低于现有方法
如图4所示,与长上下文微调模型(如 LongVA-128fs)相比,Video-RAG 在 16 帧采样下即可实现更高性能,且 GPU 显存消耗减少 150GB 以上;与 GPT-based Agent(如 VideoAgent)相比,处理相同数据集的成本从 2000 美元降至 “零 API 费用”,推理时间从 20 天缩短至小时级。
![]()
图4 不同方案资源消耗对比图。 3.3 鲁棒性:适配不同帧采样率与任务类型
消融实验显示,Video-RAG 在 8~256 帧采样率下均能稳定提升性能,尤其在低帧采样(8 帧)时增益更明显,适合资源受限场景;而拆分辅助文本组件后发现,ASR 对长视频推理帮助最大,DET能显著提升目标计数与空间关系判断精度,OCR 则优化文字相关任务,通过三者结合可实现最优长视频效果。
如图5所示,借助检索增强机制,Video-RAG能够精准筛选出与当前查询高度相关的信息片段,并将其注入到模型输入中。这些检索到的文本不仅引导LVLM更聚焦于与问题相关的关键帧,还起到了“桥梁”作用,强化了问题与视觉内容之间的语义对齐,从而提升模型在长视频理解任务中的准确性和鲁棒性。
![]()
图5 Video-RAG检索并注入相关文本,促使LVLM聚焦关键帧、强化文-视语义对齐。 四、总结
Video-RAG 的突破在于,它没有陷入 “增大模型上下文” 或 “依赖闭源 API” 的传统路径,而是通过 “视觉对齐辅助文本 + 检索增强生成” 的轻量设计,让任意开源 LVLM 都能高效处理长视频。其价值不仅体现在技术层面:
对研究者:提供无需训练、低成本的长视频理解工具,代码开源可复现;
对工业界:可快速集成到监控分析、视频内容检索、在线教育等场景,降低部署成本;
对领域发展:为 LVLM 的跨模态对齐提供新思路,后续可进一步优化辅助文本与视觉特征的融合方式。
目前,Video-RAG 的代码已开源,研究者可直接基于现有 LVLM(如LLaVA-Video、Qwen2-VL [6])进行拓展。未来团队计划探索自适应帧选择策略,进一步提升长视频理解的效率与精度,推动开源生态在多模态领域的发展。
主要引用文献
[1] Zhang, Peiyuan, et al. "Long context transfer from language to vision." arXiv preprint arXiv:2406.16852 (2024).
[2] Fu, Chaoyou, et al. "Video-mme: The first-ever comprehensive evaluation benchmark of multi-modal llms in video analysis." CVPR. 2025.
[3] Fan, Yue, et al. "Videoagent: A memory-augmented multimodal agent for video understanding." ECCV, 2024.
[4] Izacard, Gautier, et al. "Unsupervised dense information retrieval with contrastive learning." arXiv preprint arXiv:2112.09118 (2021).
[5] Yuanhan Zhang, et al. "Video instruction tuning with synthetic data." arXiv preprint arXiv:2410.02713 (2024).
[6] Wang, Peng, et al. "Qwen2-vl: Enhancing vision-language model's perception of the world at any resolution." arXiv preprint arXiv:2409.12191 (2024).
llustration From IconScout By IconScout Store
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
michellechang@thejiangmen.com
或添加工作人员微信(michelle333_)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com

点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.