网易首页 > 网易号 > 正文 申请入驻

轻量高效,即插即用:Video-RAG为长视频理解带来新范式

0
分享至



尽管视觉语言模型(LVLMs)在图像与短视频理解中已取得显著进展,但在处理长时序、复杂语义的视频内容时仍面临巨大挑战 —— 上下文长度限制、跨模态对齐困难、计算成本高昂等问题制约着其实际应用。针对这一难题,厦门大学、罗切斯特大学与南京大学联合提出了一种轻量高效、无需微调的创新框架 ——Video-RAG。该研究已被机器学习顶级会议 NeurIPS 2025 接收,为长视频理解任务提供了全新的解决思路。



  • 项目主页:https://video-rag.github.io/
  • 论文链接:https://arxiv.org/abs/2411.13093
  • 开源代码:https://github.com/Leon1207/Video-RAG-master

挑战:现有方法为何难以胜任?

当前主流方案主要分为两类:

  • 扩展上下文法(如 LongVA):依赖大规模长视频 - 文本配对数据进行微调,训练成本高且数据稀缺;
  • 智能体驱动法(如 VideoAgent):通过任务分解与外部代理决策增强推理,但频繁调用 GPT-4o 等商业 API 导致开销巨大。

更重要的是,两种方法在长时间跨度下的视觉 - 语义对齐上表现有限,往往牺牲效率换取精度,难以兼顾实用性与可扩展性。



创新:用 “检索” 打通视觉与语言的桥梁

Video-RAG 提出一种低资源消耗、高语义对齐的新路径 —— 多模态辅助文本检索增强生成(Retrieval-Augmented Generation, RAG),不依赖模型微调,也不需昂贵的商业大模型支持。其核心思想是:从视频中提取与视觉内容强对齐的文本线索,按需检索并注入现有 LVLM 输入流中,实现精准引导与语义增强。

具体流程如下:

1. 查询解耦(Query Decoupling)

将用户问题自动拆解为多个检索请求(JSON 格式),指导系统从不同模态数据库中查找相关信息,LVLM 此阶段仅处理文本,不接触视频帧,大幅降低初期计算负担。

2. 多模态辅助文本构建与检索

利用开源工具构建三大语义对齐数据库:

  • OCR 文本库:使用 EasyOCR 提取帧内文字,结合 Contriever 编码 + FAISS 向量索引,支持快速检索;
  • 语音转录库(ASR):通过 Whisper 模型提取音频内容并嵌入存储;
  • 对象语义库(DET):采用 APE 模型检测关键帧中的物体及其空间关系,经场景图预处理生成结构化描述文本。

这些文本不仅与画面同步,还具备明确语义标签,有效缓解传统采样帧缺乏上下文关联的问题。

3. 信息融合与响应生成

将检索到的相关文本片段、原始问题与少量关键视频帧共同输入现有的 LVLM(如 LLaMA-VID、Qwen-VL 等),由模型完成最终推理输出。整个过程无需微调、即插即用,显著降低部署门槛与计算开销。



可以发现,在经过检索之后,LVLM 可以将更多的注意力集中到对应的关键视觉信息上,减少模态鸿沟:



优势:轻量、高效、性能卓越

  • 即插即用:兼容任意开源 LVLM,无需修改模型架构或重新训练。
  • 资源友好:在 Video-MME 基准测试中,平均每问仅增加约 2000 token,远低于主流 Agent 方法的通信与计算开销。
  • 性能领先:当与一个 72B 参数规模的开源 LVLM 结合时,Video-RAG 在多个长视频理解基准上超越 GPT-4o 和 Gemini 1.5 等商业闭源模型,展现出惊人的竞争力。





成果与意义

Video-RAG 的成功验证了一个重要方向:通过高质量、视觉对齐的辅助文本引入外部知识,可以在不改变模型的前提下,突破上下文窗口瓶颈,显著提升跨模态理解能力。它不仅解决了长视频理解中的 “幻觉” 与 “注意力分散” 问题,更构建了一套低成本、高可扩展的技术范式,适用于教育、安防、医疗影像分析等多种现实场景。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
野村:中国经济两大支柱的极端分化

野村:中国经济两大支柱的极端分化

紫京讲谈
2025-12-21 22:53:13
对话景德镇一家三口被撞身亡案家属:和老伴常常吃不下睡不着

对话景德镇一家三口被撞身亡案家属:和老伴常常吃不下睡不着

南方都市报
2026-01-08 20:35:04
刘涛带儿女吃烤肉喝红酒!18岁紫嫣胖到140斤,17岁儿子又高又帅

刘涛带儿女吃烤肉喝红酒!18岁紫嫣胖到140斤,17岁儿子又高又帅

阿雹娱乐
2026-01-08 11:34:01
俄已经有三支主要的反俄武装了  最大的一支还有4万人

俄已经有三支主要的反俄武装了 最大的一支还有4万人

维美丽心甜
2025-11-25 07:20:03
国乒再输张本智和,中国球迷竟霸屏庆祝:赢得好!真有实力!

国乒再输张本智和,中国球迷竟霸屏庆祝:赢得好!真有实力!

十点街球体育
2026-01-10 00:00:03
阿富汗突发恶性袭击事件:中方矿业公司遇袭致5死多人被绑

阿富汗突发恶性袭击事件:中方矿业公司遇袭致5死多人被绑

老马拉车莫少装
2026-01-10 00:00:42
张鲁一张颂文谍战剧开播,漏洞百出!观众笑了:这间谍活不过1集

张鲁一张颂文谍战剧开播,漏洞百出!观众笑了:这间谍活不过1集

头号电影院
2026-01-08 21:56:31
日本知名女星上围丰满火辣,被曝下海拍AV,曾全裸出演《花与蛇》

日本知名女星上围丰满火辣,被曝下海拍AV,曾全裸出演《花与蛇》

翰飞观事
2025-12-29 21:19:30
美军加勒比海清晨扣船 查获涉嫌运制裁石油油轮

美军加勒比海清晨扣船 查获涉嫌运制裁石油油轮

老马拉车莫少装
2026-01-10 00:24:04
情况很严重!又有内鬼在祖国背后捅刀子,帮美国人解决卡脖子问题

情况很严重!又有内鬼在祖国背后捅刀子,帮美国人解决卡脖子问题

小lu侃侃而谈
2026-01-03 18:11:01
最大尺寸的蔚来ES9 彰显李斌的野心:通吃SUV和MPV?

最大尺寸的蔚来ES9 彰显李斌的野心:通吃SUV和MPV?

方得智驾
2026-01-09 12:22:12
你和同事最暧昧的经历是啥?网友:办公室恋情要不得,太污了辣眼

你和同事最暧昧的经历是啥?网友:办公室恋情要不得,太污了辣眼

解读热点事件
2025-10-05 00:15:03
降维打击?芬兰公司宣布固态电池进入量产,成本比普通锂电池还低

降维打击?芬兰公司宣布固态电池进入量产,成本比普通锂电池还低

小柱解说游戏
2026-01-07 02:12:43
湖南一女子家的宅基地被邻居强占,全家出动去挖地基:人善被人欺

湖南一女子家的宅基地被邻居强占,全家出动去挖地基:人善被人欺

唐小糖说情感
2026-01-08 11:36:40
黄继光堵枪眼是虚构的?八旬老人:荒唐!遗体是我亲自背回来的

黄继光堵枪眼是虚构的?八旬老人:荒唐!遗体是我亲自背回来的

浩渺青史
2025-12-28 21:03:08
为什么,很多子女到了五六十岁后,慢慢对家里老人变得不孝了?

为什么,很多子女到了五六十岁后,慢慢对家里老人变得不孝了?

诗词中国
2026-01-01 18:58:07
去年我国累计抓获诈骗集团幕后“金主”、头目和骨干等542名

去年我国累计抓获诈骗集团幕后“金主”、头目和骨干等542名

新京报
2026-01-08 19:00:25
特朗普称将与马查多会面 愿接受她的诺贝尔和平奖

特朗普称将与马查多会面 愿接受她的诺贝尔和平奖

新浪财经
2026-01-09 22:57:03
最佳新秀概率82%断崖第一!弗拉格又创6纪录 美媒侧证詹皇伟大

最佳新秀概率82%断崖第一!弗拉格又创6纪录 美媒侧证詹皇伟大

颜小白的篮球梦
2026-01-09 17:00:56
如果后场大将能够提升手感,森林狼的竞争力还会有进一步的提升?

如果后场大将能够提升手感,森林狼的竞争力还会有进一步的提升?

稻谷与小麦
2026-01-09 23:26:37
2026-01-10 02:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12088文章数 142533关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

佩特罗:“特朗普对我说已在策划军事行动”

头条要闻

佩特罗:“特朗普对我说已在策划军事行动”

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

关晓彤鹿晗风波后露面 不受影响状态佳

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

助跑三年的奇瑞 接下来是加速还是起跳?

态度原创

健康
艺术
游戏
数码
公开课

这些新疗法,让化疗不再那么痛苦

艺术要闻

扑面而来的激情:俄罗斯画家斯拉因斯基 大笔触绘画作品!

怎么会有游戏上来就说自己的新服活不过10天啊?"/> 主站 商城 论坛 自运营 登录 注册 怎么会有游戏上来就说自己的新服活不过10天啊? 廉颇 202...

数码要闻

智能厨电迈入大模型时代,中国厨电想从“学生”变“老师”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版