网易首页 > 网易号 > 正文 申请入驻

NeurIPS 2025 | Video-RAG:革新长视频理解,开源视频理解模型也能媲美GPT-4o

0
分享至

面对时长从几分钟到数小时的长视频,现有多模态视频语言模型(Large Video-Language Models, LVLMs)却因上下文窗口有限、视觉-文本对齐不足等问题屡屡 “失灵”,要么需海量数据与 GPU 资源进行微调,要么依赖 GPT-4o 等闭源模型导致成本难以承担。为打破这一困境,厦门大学联合南京大学、罗切斯特大学提出Video-RAG,一种无需训练、低成本的长视频理解范式。它通过提取视频中与视觉对齐的辅助文本(如音频转录、文字识别、目标检测结果),结合检索增强生成(Retrieval-Augmented Generation, RAG)技术,为任意多模态视频语言模型注入长视频理解能力。


论文题目: Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension 论文链接: https://arxiv.org/abs/2411.13093 代码链接: https://github.com/Leon1207/Video-RAG-master 项目主页: https://video-rag.github.io/
一、研究背景

长视频(如纪录片、监控录像、在线课程)包含丰富的时空信息,是具身智能、视频分析等领域的关键数据来源。但现有多模态视频语言模型在处理长视频时,面临三大难以突破的瓶颈(图1所示):

1、上下文窗口受限:传统依赖采样视频帧提取视觉特征,但帧数量增多会导致信息冗余,甚至引发性能下降。例如 LongVA[1]模型在帧采样率从 128 提升至 384 时,Video-MME [2] 测试基准上得分反而从 52.6% 降至 51.8%。

2、微调成本高昂:为扩展 LVLM 的上下文长度,现有方法需在大规模文本上预训练,再迁移到视频任务,不仅需要TB级数据,还需数十张 A100 GPU 支持,普通研究者难以企及。

3、闭源模型依赖:GPT-4o、Gemini 1.5-Pro等闭源模型虽能处理长视频,但调用 API 成本极高(如VideoAgent [3]处理完整Video-MME数据集需消耗约2000美元API费用,耗时超 20 天),且灵活性受限。更关键的是,多数方法将视频转化为纯文本后再用 RAG 检索,丢失了关键视觉信息;而多轮交互式处理又进一步增加了计算开销,导致 “性能” 与 “效率” 难以兼得。


图1 不同主流长视频理解方案对比。

为了推动这一问题的解决,我们提出了Video-RAG算法,旨在通过引入视觉对齐的辅助文本输入,以无需训练的方式无缝集成到任何已有的LVLM中提升其处理长视频的能力。

二、Video-RAG 算法介绍

如图2所示,Video-RAG的核心思路是:用开源工具提取视频中的视觉对齐辅助文本,通过 RAG 筛选出与查询相关的信息,再输入任意 LVLM 生成答案。整个流程无需训练,可即插即用,具体分为三个阶段。


图2 Video-RAG 整体框架示意图。

图3 Video-RAG 示例。 2.1 第一步:查询解耦

如图3例子所示,用户输入关于长视频的查询(如 “当介绍“德国现代圣诞树最初会用苹果、蜡烛和浆果来装饰”时,数量最多的是哪一种装饰?”)后,Video-RAG 会先让 LVLM 生成结构化检索请求(JSON 格式),明确需要提取的信息类型:

  1. ASR 请求:需从音频中获取的信息(如 “null”);

  2. DET 请求:需检测的物理实体(如 “apples、candles、berries”);

  3. TYPE 请求:需补充的实体属性(如 “number”)。

这一步仅处理文本,无需访问视频帧,确保检索目标精准,避免后续信息冗余。

2.2 第二步:辅助文本生成与检索

基于检索请求,Video-RAG 调用开源工具从视频中提取三类核心辅助文本,并构建数据库进行高效检索:

  1. OCR 文本库:用 EasyOCR 提取每帧中的文字(如屏幕字幕、标识牌),再用 Contriever [4]编码为向量,存入 FAISS 索引库;

  2. ASR 文本库:用 Whisper 将视频音频转录为文字(如人物对话、旁白),同样编码后存入数据库;

  3. 目标检测(DET)库:先通过 CLIP 筛选与查询相关的关键帧(排除无关帧减少计算),再用 APE(开源开放词汇目标检测模型)识别实体类别与位置,从而形成结构化的场景图,最后用场景图将原始检测结果转化为 LVLM 易理解的文本(如 “物体 1 是苹果,位于坐标 [x,y],尺寸为长 × 宽;物体 2 是蜡烛,位于坐标 [a,b]”)。

随后,Video-RAG 继续使用Contriever编码用户查询与检索请求,通过 FAISS 计算向量相似度,筛选出相似度高于阈值(默认0.3)的辅助文本,用以确保仅保留与查询强相关的信息,避免上下文窗口溢出。

2.3 第三步:整合与生成

将筛选后的 OCR、ASR、DET 辅助文本按时间顺序合并,与原始查询、视频采样帧的视觉特征一起输入 LVLM,最终生成精准答案。例如上述查询中,Video-RAG 会提取到 ASR 文本和 DET 文本(“5个苹果,5个蜡烛和7个浆果”),辅助 LVLM 准确回答 “C:浆果”。

值得注意的是,检索过程是并行单轮执行的,无需多轮交互,计算开销极低;且所有工具均为开源(EasyOCR、Whisper、APE、FAISS 等),无需依赖任何闭源 API。

三、实验与分析
表1 主流LVLM接入Video-RAG在Video-MME上的性能表现。

研究团队在三大主流长视频基准(Video-MME、MLVU、LongVideoBench)上,对6个常见的开源 LVLM(从 7B 到 72B 参数)进行了全面测试,结果表明 Video-RAG 的性能与效率优势显著。

3.1 性能:72B 模型媲美 GPT-4o

如表1所示,在 Video-MME 数据集上,72B 参数的 LLaVA-Video [5] 结合 Video-RAG 后,整体得分达 77.4%,超过 GPT-4o 的 77.2%;在 LongVideoBench 数据集上,该组合得分 65.4%,超越 Gemini 1.5-Pro(64.0%),仅比 GPT-4o 低 1.3 个百分点,成为开源模型中的顶尖水平。

即使是 7B 小模型,Video-RAG 也能带来平均 3.2% 的性能提升。例如 LongVA-7B 在添加辅助文本后,长视频任务得分从 52.9% 升至 59.4%,且仅需额外 8GB GPU 显存、5 秒推理时间。

3.2 效率:资源消耗远低于现有方法

如图4所示,与长上下文微调模型(如 LongVA-128fs)相比,Video-RAG 在 16 帧采样下即可实现更高性能,且 GPU 显存消耗减少 150GB 以上;与 GPT-based Agent(如 VideoAgent)相比,处理相同数据集的成本从 2000 美元降至 “零 API 费用”,推理时间从 20 天缩短至小时级。


图4 不同方案资源消耗对比图。 3.3 鲁棒性:适配不同帧采样率与任务类型

消融实验显示,Video-RAG 在 8~256 帧采样率下均能稳定提升性能,尤其在低帧采样(8 帧)时增益更明显,适合资源受限场景;而拆分辅助文本组件后发现,ASR 对长视频推理帮助最大,DET能显著提升目标计数与空间关系判断精度,OCR 则优化文字相关任务,通过三者结合可实现最优长视频效果。

如图5所示,借助检索增强机制,Video-RAG能够精准筛选出与当前查询高度相关的信息片段,并将其注入到模型输入中。这些检索到的文本不仅引导LVLM更聚焦于与问题相关的关键帧,还起到了“桥梁”作用,强化了问题与视觉内容之间的语义对齐,从而提升模型在长视频理解任务中的准确性和鲁棒性。


图5 Video-RAG检索并注入相关文本,促使LVLM聚焦关键帧、强化文-视语义对齐。 四、总结

Video-RAG 的突破在于,它没有陷入 “增大模型上下文” 或 “依赖闭源 API” 的传统路径,而是通过 “视觉对齐辅助文本 + 检索增强生成” 的轻量设计,让任意开源 LVLM 都能高效处理长视频。其价值不仅体现在技术层面:

  1. 对研究者:提供无需训练、低成本的长视频理解工具,代码开源可复现;

  2. 对工业界:可快速集成到监控分析、视频内容检索、在线教育等场景,降低部署成本;

  3. 对领域发展:为 LVLM 的跨模态对齐提供新思路,后续可进一步优化辅助文本与视觉特征的融合方式。

目前,Video-RAG 的代码已开源,研究者可直接基于现有 LVLM(如LLaVA-Video、Qwen2-VL [6])进行拓展。未来团队计划探索自适应帧选择策略,进一步提升长视频理解的效率与精度,推动开源生态在多模态领域的发展。

主要引用文献

[1] Zhang, Peiyuan, et al. "Long context transfer from language to vision." arXiv preprint arXiv:2406.16852 (2024).

[2] Fu, Chaoyou, et al. "Video-mme: The first-ever comprehensive evaluation benchmark of multi-modal llms in video analysis." CVPR. 2025.

[3] Fan, Yue, et al. "Videoagent: A memory-augmented multimodal agent for video understanding." ECCV, 2024.

[4] Izacard, Gautier, et al. "Unsupervised dense information retrieval with contrastive learning." arXiv preprint arXiv:2112.09118 (2021).

[5] Yuanhan Zhang, et al. "Video instruction tuning with synthetic data." arXiv preprint arXiv:2410.02713 (2024).

[6] Wang, Peng, et al. "Qwen2-vl: Enhancing vision-language model's perception of the world at any resolution." arXiv preprint arXiv:2409.12191 (2024).

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
荷兰正式宣布!荷兰管制范围扩大,敏感领域的新合作都一刀切禁止

荷兰正式宣布!荷兰管制范围扩大,敏感领域的新合作都一刀切禁止

百态人间
2025-11-04 16:00:18
还会跳下去吗?全红婵愣了好一会:再说吧,应该吧,现在还不知道

还会跳下去吗?全红婵愣了好一会:再说吧,应该吧,现在还不知道

风过乡
2025-11-06 22:09:03
11月再穷也能富,逆袭翻身,这 3 大生肖,转运致富

11月再穷也能富,逆袭翻身,这 3 大生肖,转运致富

人閒情事
2025-11-06 16:28:25
近4场独造8球!巴萨超新星强势崛起 奥尔莫沦为铁板凳

近4场独造8球!巴萨超新星强势崛起 奥尔莫沦为铁板凳

球事百科吖
2025-11-06 18:11:12
张玉宁半场闪击!轰亚2处子球,反超巴坎布,独居队史射手榜次席

张玉宁半场闪击!轰亚2处子球,反超巴坎布,独居队史射手榜次席

奥拜尔
2025-11-06 21:23:36
克宫呼吁北约倾听普京发言以理解俄方立场

克宫呼吁北约倾听普京发言以理解俄方立场

国际在线
2025-11-06 23:25:07
李云迪再陷桃色风波,女主照片被扒疑似有两人视频流出

李云迪再陷桃色风波,女主照片被扒疑似有两人视频流出

挪威森林
2025-11-02 12:56:16
江苏电力回应张凌赫曾想求职:公子可愿至吾处体验一日

江苏电力回应张凌赫曾想求职:公子可愿至吾处体验一日

趣味萌宠的日常
2025-11-06 10:42:04
戴口罩的美女清纯靓丽,白色V领T恤搭粉色瑜伽裤,时尚清新有朝气

戴口罩的美女清纯靓丽,白色V领T恤搭粉色瑜伽裤,时尚清新有朝气

小乔古装汉服
2025-11-05 14:31:17
老婆出轨后,对方的妻子找到我,你老婆跟我老公好上了

老婆出轨后,对方的妻子找到我,你老婆跟我老公好上了

诡谲怪谈
2025-11-04 21:09:44
立冬不补阳,一年白忙,今日立冬,别忘吃这4样,清补护阳增免疫

立冬不补阳,一年白忙,今日立冬,别忘吃这4样,清补护阳增免疫

小茉莉美食记
2025-11-07 01:40:03
离开的何止是郑智化

离开的何止是郑智化

老唐有话说
2025-11-04 18:37:23
浙大才子周一超被执行注射死刑,被按执行床时,他却突然号啕大哭

浙大才子周一超被执行注射死刑,被按执行床时,他却突然号啕大哭

红豆讲堂
2024-10-21 09:30:24
势危!愈万军队被包围,俄罗斯拿下战略重镇红军城会怎样?

势危!愈万军队被包围,俄罗斯拿下战略重镇红军城会怎样?

文雅笔墨
2025-11-07 00:24:00
内陆首个国家级新区升格为行政区,两江新区坐拥36家上市公司,位居重庆第一

内陆首个国家级新区升格为行政区,两江新区坐拥36家上市公司,位居重庆第一

时代周报
2025-11-06 22:20:06
不识时务!郑丽文终于露出了狐狸尾巴!统一能寄望国民党吗?

不识时务!郑丽文终于露出了狐狸尾巴!统一能寄望国民党吗?

阿柒的讯
2025-11-05 22:05:25
女子在诊所拍下感人一幕,妻子输液时,像个孩子一样靠在丈夫怀里!

女子在诊所拍下感人一幕,妻子输液时,像个孩子一样靠在丈夫怀里!

张晓磊
2025-11-03 09:51:21
世界突然醒悟,中国打越南时的军事实力就是世界的顶流了!

世界突然醒悟,中国打越南时的军事实力就是世界的顶流了!

百态人间
2025-11-03 16:34:06
网友反映杭州一学校门口管理问题,教育部门:第一时间开展调查,要求立即整改

网友反映杭州一学校门口管理问题,教育部门:第一时间开展调查,要求立即整改

FM93浙江交通之声
2025-11-06 22:53:28
纽约剧变!34岁穆斯林市长崛起,中产与华人票仓集体失声

纽约剧变!34岁穆斯林市长崛起,中产与华人票仓集体失声

华人生活网
2025-11-06 03:16:42
2025-11-07 04:16:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2251文章数 596关注度
往期回顾 全部

科技要闻

小鹏机器人里藏真人?何小鹏发一镜到底视频

头条要闻

美参议员提议:政府不“开门”国会议员就停薪

头条要闻

美参议员提议:政府不“开门”国会议员就停薪

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

“黑料缠身”的白百何 谁给她的勇气?

财经要闻

南银法巴加速发展背后:资金饥渴症待解

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

游戏
家居
房产
旅游
亲子

珍惜PS4会免!明年将大幅减少数量 只偶尔提供给PS+

家居要闻

别样府院 畅享诗意生活

房产要闻

锚定居住新趋势!广佛新世界重构湾区“理想生活投资学”

旅游要闻

11月6日最佳情报|济南郎茂山日出美如画,三媳妇山奇峰峻美!

亲子要闻

宝宝爱用大合集丨愿将一切美好献上

无障碍浏览 进入关怀版