网易首页 > 网易号 > 正文 申请入驻

轻量高效,即插即用:Video-RAG为长视频理解带来新范式

0
分享至



尽管视觉语言模型(LVLMs)在图像与短视频理解中已取得显著进展,但在处理长时序、复杂语义的视频内容时仍面临巨大挑战 —— 上下文长度限制、跨模态对齐困难、计算成本高昂等问题制约着其实际应用。针对这一难题,厦门大学、罗切斯特大学与南京大学联合提出了一种轻量高效、无需微调的创新框架 ——Video-RAG。该研究已被机器学习顶级会议 NeurIPS 2025 接收,为长视频理解任务提供了全新的解决思路。



  • 项目主页:https://video-rag.github.io/
  • 论文链接:https://arxiv.org/abs/2411.13093
  • 开源代码:https://github.com/Leon1207/Video-RAG-master

挑战:现有方法为何难以胜任?

当前主流方案主要分为两类:

  • 扩展上下文法(如 LongVA):依赖大规模长视频 - 文本配对数据进行微调,训练成本高且数据稀缺;
  • 智能体驱动法(如 VideoAgent):通过任务分解与外部代理决策增强推理,但频繁调用 GPT-4o 等商业 API 导致开销巨大。

更重要的是,两种方法在长时间跨度下的视觉 - 语义对齐上表现有限,往往牺牲效率换取精度,难以兼顾实用性与可扩展性。



创新:用 “检索” 打通视觉与语言的桥梁

Video-RAG 提出一种低资源消耗、高语义对齐的新路径 —— 多模态辅助文本检索增强生成(Retrieval-Augmented Generation, RAG),不依赖模型微调,也不需昂贵的商业大模型支持。其核心思想是:从视频中提取与视觉内容强对齐的文本线索,按需检索并注入现有 LVLM 输入流中,实现精准引导与语义增强。

具体流程如下:

1. 查询解耦(Query Decoupling)

将用户问题自动拆解为多个检索请求(JSON 格式),指导系统从不同模态数据库中查找相关信息,LVLM 此阶段仅处理文本,不接触视频帧,大幅降低初期计算负担。

2. 多模态辅助文本构建与检索

利用开源工具构建三大语义对齐数据库:

  • OCR 文本库:使用 EasyOCR 提取帧内文字,结合 Contriever 编码 + FAISS 向量索引,支持快速检索;
  • 语音转录库(ASR):通过 Whisper 模型提取音频内容并嵌入存储;
  • 对象语义库(DET):采用 APE 模型检测关键帧中的物体及其空间关系,经场景图预处理生成结构化描述文本。

这些文本不仅与画面同步,还具备明确语义标签,有效缓解传统采样帧缺乏上下文关联的问题。

3. 信息融合与响应生成

将检索到的相关文本片段、原始问题与少量关键视频帧共同输入现有的 LVLM(如 LLaMA-VID、Qwen-VL 等),由模型完成最终推理输出。整个过程无需微调、即插即用,显著降低部署门槛与计算开销。



可以发现,在经过检索之后,LVLM 可以将更多的注意力集中到对应的关键视觉信息上,减少模态鸿沟:



优势:轻量、高效、性能卓越

  • 即插即用:兼容任意开源 LVLM,无需修改模型架构或重新训练。
  • 资源友好:在 Video-MME 基准测试中,平均每问仅增加约 2000 token,远低于主流 Agent 方法的通信与计算开销。
  • 性能领先:当与一个 72B 参数规模的开源 LVLM 结合时,Video-RAG 在多个长视频理解基准上超越 GPT-4o 和 Gemini 1.5 等商业闭源模型,展现出惊人的竞争力。





成果与意义

Video-RAG 的成功验证了一个重要方向:通过高质量、视觉对齐的辅助文本引入外部知识,可以在不改变模型的前提下,突破上下文窗口瓶颈,显著提升跨模态理解能力。它不仅解决了长视频理解中的 “幻觉” 与 “注意力分散” 问题,更构建了一套低成本、高可扩展的技术范式,适用于教育、安防、医疗影像分析等多种现实场景。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴基斯坦怒了:巴基斯坦不是卡塔尔,动我们的人,打到你服!

巴基斯坦怒了:巴基斯坦不是卡塔尔,动我们的人,打到你服!

人生录
2026-04-08 00:37:17
郑丽文想要的大陆给了,民进党急得跳脚,统一出现重大信号

郑丽文想要的大陆给了,民进党急得跳脚,统一出现重大信号

公子故事会
2026-04-10 17:41:13
张雪夸同行豪爵踏板,豪爵老板回应:当时我就震惊了!

张雪夸同行豪爵踏板,豪爵老板回应:当时我就震惊了!

童叔不飙车
2026-04-09 20:43:06
锁定第七!噩梦来袭!核心伤退!附加赛没有了?

锁定第七!噩梦来袭!核心伤退!附加赛没有了?

篮球盛世
2026-04-10 15:27:08
她和撒贝宁同居多年,却转身投入富家怀抱,没想到如今竟沦落至此

她和撒贝宁同居多年,却转身投入富家怀抱,没想到如今竟沦落至此

枫尘余往逝
2026-04-09 19:26:14
万科前高管出任顺丰房地产总裁

万科前高管出任顺丰房地产总裁

地产微资讯
2026-04-10 16:44:30
一次偶然的邂逅,让我知道了原来还可以这样穿衣服

一次偶然的邂逅,让我知道了原来还可以这样穿衣服

牛弹琴123456
2026-04-09 15:55:53
连续惨败痛失好局!翁泓阳1-2不敌世界第一,石宇奇独挑男单大梁

连续惨败痛失好局!翁泓阳1-2不敌世界第一,石宇奇独挑男单大梁

钉钉陌上花开
2026-04-10 16:49:49
塌房?周杰伦多首歌曲被曝涉嫌抄袭,网友:敢不敢扒谱实锤?

塌房?周杰伦多首歌曲被曝涉嫌抄袭,网友:敢不敢扒谱实锤?

老张聊设计
2026-04-09 09:12:20
续约已经泡汤,下课声第三次响起,科斯塔别再让穆里尼奥独自前行

续约已经泡汤,下课声第三次响起,科斯塔别再让穆里尼奥独自前行

穆里尼奥主义者
2026-04-10 08:52:11
150亿打水漂?广东韶关富人岛,当年别墅扎堆,如今只剩一片荒地

150亿打水漂?广东韶关富人岛,当年别墅扎堆,如今只剩一片荒地

GA环球建筑
2026-04-10 17:36:53
贾平凹女儿贾浅浅论文涉嫌抄袭,西北大学发布情况通报

贾平凹女儿贾浅浅论文涉嫌抄袭,西北大学发布情况通报

天涯社区
2026-04-09 17:17:35
最新战报!国羽2胜1负,NO.1过关,混双被逆转,王祉怡KO手下败将

最新战报!国羽2胜1负,NO.1过关,混双被逆转,王祉怡KO手下败将

刘姚尧的文字城堡
2026-04-10 16:06:34
郑丽文访陆第四天,赖清德急了向大陆摊牌

郑丽文访陆第四天,赖清德急了向大陆摊牌

靓仔情感
2026-04-10 15:10:57
作家王朔回应“被八旬作家杨本芬抄袭”:只言片语算不上抄袭,老太太挺好的,道歉必须原谅

作家王朔回应“被八旬作家杨本芬抄袭”:只言片语算不上抄袭,老太太挺好的,道歉必须原谅

极目新闻
2026-04-09 15:35:29
三大邻国“倒向”中国!一个修路、一个拆墙、一个砸钱,啥信号?

三大邻国“倒向”中国!一个修路、一个拆墙、一个砸钱,啥信号?

傲傲讲历史
2026-04-04 14:56:39
20亿美元悬在头顶,巴拿马总统终于改口,无意冲突盼中方高抬贵手

20亿美元悬在头顶,巴拿马总统终于改口,无意冲突盼中方高抬贵手

林子说事
2026-04-10 17:59:57
1换9!东部地震!字母哥与雄鹿决裂,凯尔特人豪赌组建超级三巨头

1换9!东部地震!字母哥与雄鹿决裂,凯尔特人豪赌组建超级三巨头

钱说体育
2026-04-10 09:10:58
朝鲜最高领导人金正恩会见王毅

朝鲜最高领导人金正恩会见王毅

界面新闻
2026-04-10 18:40:29
香蕉被点名!医生提醒:高血糖患者常吃香蕉,很快或迎来这些后果

香蕉被点名!医生提醒:高血糖患者常吃香蕉,很快或迎来这些后果

白话电影院
2026-04-07 20:07:56
2026-04-10 19:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12728文章数 142621关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

王毅访问朝鲜会否同金正恩会面 外交部回应

头条要闻

王毅访问朝鲜会否同金正恩会面 外交部回应

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

创业板改革制度落地 增设第4套上市标准

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

旅游
本地
时尚
公开课
军事航空

旅游要闻

永丰街道丨明后两天,花朝有约!仓城汉服游园会,等你赴约

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

穿粉色,就是初夏最美的样子

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:对美国与伊朗达成和平协议“非常乐观”

无障碍浏览 进入关怀版