网易首页 > 网易号 > 正文 申请入驻

AI理解27分钟长视频超越GPT-4o,港理工新国立开源链式LoRA新框架

0
分享至

  • VideoMind团队 投稿
    量子位 | 公众号 QbitAI

AI能像人类一样理解长视频。

港理工、新加坡国立团队推出VideoMind框架,核心创新在于角色化推理(Role-based Reasoning)和链式LoRA(Chain-of-LoRA)策略。

相关论文已上传arXiv,代码和数据全部开源。

随着视频数据量的激增,如何理解和推理长视频中的复杂场景和事件成为了多模态人工智能研究的热点。不同于静态图像,视频不仅包含视觉信息,还包含时间维度上的动态变化,这要求模型在理解视频时不仅要识别画面中的物体和场景,还要理解这些物体和场景如何随时间变化和相互作用。

传统的基于文本和图像的推理模型(如OpenAI o1, DeepSeek R1等)往往无法应对这种复杂的时间维度推理任务。

VideoMind框架

区别于文本和图片,长视频理解难以用传统的单次感知 + 纯文字推理实现。

相比之下,人类在理解长视频(如教学视频、故事类视频)时往往会寻找相关片段并反复观看,以此获取更可靠的结论。

受该现象启发,作者根据视频理解所需要的4种核心能力(制定计划、搜索片段、验证片段、回答问题),为VideoMind定义了4个角色,并构建了一个角色化的工作流,有效地解决了长视频中的时序推理问题。

  • 规划者(Planner)
  • 根据问题动态制定计划,决定如何调用其他角色(如先定位,再验证,最后回答问题);
  • 定位器(Grounder)
  • 根据给定的问题或查询,精确定位与之相关的视频片段;
  • 验证器(Verifier)
  • 对定位得到的多个时间片段进行验证,确保其准确性;
  • 回答者(Answerer)
  • 基于选定的视频片段进行理解,生成最终答案。

图1:传统纯文字推理和VideoMind的角色化推理

为了高效整合以上角色,作者进一步提出了链式LoRA(Chain-of-LoRA)策略,在一个统一的Base模型(如Qwen2-VL)上同时加载多个轻量的LoRA Adapter,并在推理时根据需要进行动态切换,以实现不同角色间的转换。该策略仅需要在Base模型上添加少量可学习参数,即可实现多个角色/功能间的无缝切换,既获得了比单一模型显著更优的性能,也避免了多模型并行带来的计算开销,从而在确保性能的同时大幅提高了计算效率。

图2: VideoMind的整体架构和推理流程

VideoMind推理流程

如图2所示,模型接收一个视频和一个用户提出的问题作为输入,通过切换多个角色来推理出最终答案。其中,Planner首先对视频和问题进行分析,执行后续推理的计划,其结果以JSON list的形式呈现。推理计划主要可分为以下三种:

图3:VideoMind的三种推理模式

其中(i)主要针对长视频问答任务(Grounded VideoQA),需要使用Grounder + Verifier + Answerer三个角色进行作业;(ii)针对视频时序定位任务(Video Temporal Grounding),使用Grounder + Verifier来进行相关片段的精准查找;(iii)针对短视频问答,该场景下由于视频较短,无需对其进行裁剪,故直接使用Answerer进行推理。

图4:Timestamp Decoder模块

Grounder负责接收一个自然语言查询,并在视频中定位相关片段。针对这一复杂任务,研究团队提出了Timestamp Decoder模块,将离散的Token预测任务和连续的时间回归任务解耦开来,并使LLM通过Special Token进行调用,实现了强大的Zero-shot时序定位性能。

图5:Verifier的验证策略

为保证时间分辨率,Grounder往往工作在较低的空间分辨率下,因此获得的时间片段可能会不准确。针对此问题,作者设计了Verifier角色来对每个片段进行放大验证,并从多个候选片段中选取置信度最高的作为目标片段。试验证明该策略可以进一步显著提高Temporal Grounding任务的性能。

表1:VideoMind的训练数据集

为训练VideoMind,作者针对不同角色收集/制作了多个数据集,共计包含接近50万个样本。不同角色使用不同数据集进行训练,并在推理时合并加载,以确保每个角色的性能最大化。所有训练数据(包括前期探索使用的更多数据集)全部公开可用。

实验与评估

为了验证VideoMind的有效性,作者在14个公开基准测试集上进行了广泛的实验,涵盖了长视频定位 + 问答(Grounded VideoQA)、视频时序定位(Video Temporal Grounding)和普通视频问答(General VideoQA)等任务。

表2:用于VideoMind评测的基准测试集

(1)视频定位 + 问答(Grounded VideoQA)

在CG-Bench、ReXTime、NExT-GQA等长视频基准上,VideoMind在答案精确度和时序定位准确性方面表现出了领先优势。特别的,在平均视频长度约为27分钟的CG-Bench中,较小的VideoMind-2B模型在时序定位和问答任务上超越了GPT-4o、Gemini-1.5-Pro等最先进的模型

表3:CG-Bench数据集的测试结果

表4:NExT-GQA数据集的测试结果

(2)视频时序定位(Video Temporal Grounding)

VideoMind的Grounder通过创新的Timestamp Decoder和Temporal Feature Pyramid设计,显著提高了视频时序定位的准确性。Verifier的设计进一步提升了高精度定位的性能。VideoMind在Charades-STA、ActivityNet-Captions、QVHighlights等基准上都取得了最佳性能。此外,VideoMind也是首个支持多片段grounding的多模态大模型,因此可以在QVHighlights数据集上跟现有模型公平对比。

表5:Charades-STA数据集的测试结果

表6:ActivityNet Captions数据集的测试结果

表7:QVHighlights数据集的测试结果

(3)一般视频问答(General VideoQA)

对于通用的视频理解问题,VideoMind也表现出了强大的泛化能力。在Video-MME、MVBench、MLVU、LVBench、LongVideoBench等基准上,VideoMind得益于其Planner的设计,可以自适应地决定是否需要grounding,其性能超越了许多先进的视频问答模型,显示了其在不同视频长度下的优越表现。

表8:Video-MME、MLVU和LVBench数据集的测试结果

表9:LongVideoBench数据集的测试结果

以下例子展现了VideoMind在实际场景中的推理流程。给定一个视频和一个问题,该模型可以拆解问题、指定计划、搜索片段、验证结果,并根据获取的片段推理最终答案。该策略相比传统的纯文字推理(左下部分)更加符合人类行为,结果也更加可靠。

图6:VideoMind的推理流程可视化

总结

VideoMind的提出不仅在于视频理解性能的突破,更在于提出了一个模块化、可扩展、可解释的多模态推理框架。该框架首次实现了类似人类行为的“指定计划、搜索片段、验证结果、回答问题”流程,真正让AI能“像人类一样理解视频”,为未来的视频理解和多模态智能系统领域奠定了基础。

项目主页:https://videomind.github.io/
论文链接:https://arxiv.org/abs/2503.13444
开源代码:https://github.com/yeliudev/VideoMind
开源数据:https://huggingface.co/datasets/yeliudev/VideoMind-Dataset
在线Demo:https://huggingface.co/spaces/yeliudev/VideoMind-2B

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
华人团队解散,印度天才入职!马斯克承认xAI的技术路线走错了

华人团队解散,印度天才入职!马斯克承认xAI的技术路线走错了

离离言几许
2026-03-16 15:57:33
马斯克母亲揭儿子“SpaceX发射场附近的家”:小屋仅值5万美元“简陋得像仓库”

马斯克母亲揭儿子“SpaceX发射场附近的家”:小屋仅值5万美元“简陋得像仓库”

红星新闻
2026-03-16 16:18:36
十四届全国人大常委会原委员、全国人大农业与农村委员会原副主任委员蒋超良被提起公诉

十四届全国人大常委会原委员、全国人大农业与农村委员会原副主任委员蒋超良被提起公诉

新京报
2026-03-17 10:06:09
律师评长沙不雅事件:量刑是不会轻的

律师评长沙不雅事件:量刑是不会轻的

映射生活的身影
2026-03-17 08:48:35
深圳董事长疑因抑郁离世:悲剧的真相

深圳董事长疑因抑郁离世:悲剧的真相

精准心理学何日辉
2026-03-16 14:46:18
遭官方曝光的“毒洗发水”,很多家庭还在用,难怪头发越来越少

遭官方曝光的“毒洗发水”,很多家庭还在用,难怪头发越来越少

大鱼简科
2026-03-16 17:38:13
特朗普关于伊朗“AI造假”与腐败媒体的声明

特朗普关于伊朗“AI造假”与腐败媒体的声明

Nee看
2026-03-16 12:58:32
炸裂!姚晨被曝新欢是候雯元,逼男方跟钟楚曦分手,剧中吻戏超甜

炸裂!姚晨被曝新欢是候雯元,逼男方跟钟楚曦分手,剧中吻戏超甜

潮鹿逐梦
2026-03-17 00:09:16
「不作秀」的科沃斯机器人,如何实现具身智能未来?

「不作秀」的科沃斯机器人,如何实现具身智能未来?

爱范儿
2026-03-16 17:47:47
别再被带节奏!伊朗体育馆满地遗体根本不是平民,全是革命卫队

别再被带节奏!伊朗体育馆满地遗体根本不是平民,全是革命卫队

老马拉车莫少装
2026-03-16 23:29:29
2026年清明节放假安排 不调休 不补班 高速免费

2026年清明节放假安排 不调休 不补班 高速免费

闪电新闻
2026-03-16 16:37:33
针对以色列心脏地带,伊朗发动第57波打击!伊朗:将在“未来几个小时内”打击美在中东企业!特朗普:伊朗剩下的弹药已所剩无几

针对以色列心脏地带,伊朗发动第57波打击!伊朗:将在“未来几个小时内”打击美在中东企业!特朗普:伊朗剩下的弹药已所剩无几

每日经济新闻
2026-03-17 08:23:30
真辣眼!火锅店门口成男女私人闺房!女孩正面曝光更多细节被扒出

真辣眼!火锅店门口成男女私人闺房!女孩正面曝光更多细节被扒出

天天热点见闻
2026-03-17 08:06:02
炮火一响,义乌慌了!再次爆单全球

炮火一响,义乌慌了!再次爆单全球

贱议你读史
2026-03-17 01:24:37
裁判员错误判断运动员组别,阻挡正常跑进运动员冲线,重庆田协:停止其马拉松赛事裁判工作一年

裁判员错误判断运动员组别,阻挡正常跑进运动员冲线,重庆田协:停止其马拉松赛事裁判工作一年

环球网资讯
2026-03-17 10:06:06
痛心!湘雅医院美女研究生身亡后续:遗书曝光,同学曝更多内幕

痛心!湘雅医院美女研究生身亡后续:遗书曝光,同学曝更多内幕

谈史论天地
2026-03-17 06:18:31
巴西队大名单:维尼修斯领衔,内马尔无缘,恩德里克回归

巴西队大名单:维尼修斯领衔,内马尔无缘,恩德里克回归

懂球帝
2026-03-17 03:00:06
为啥说医学的尽头是玄学?网友:宁可信其有不可信其无!

为啥说医学的尽头是玄学?网友:宁可信其有不可信其无!

带你感受人间冷暖
2026-03-16 00:25:57
CBA再现暴力伤人!胡金秋惨遭卸胳膊,球迷:要毁了中国篮球吗?

CBA再现暴力伤人!胡金秋惨遭卸胳膊,球迷:要毁了中国篮球吗?

后仰大风车
2026-03-17 06:05:03
阿富汗称巴基斯坦空袭致一医院被毁 已有400人死亡

阿富汗称巴基斯坦空袭致一医院被毁 已有400人死亡

新京报
2026-03-17 08:41:08
2026-03-17 11:00:49
量子位 incentive-icons
量子位
追踪人工智能动态
12292文章数 176414关注度
往期回顾 全部

科技要闻

冲击万亿美元订单!黄仁勋定下宏大目标

头条要闻

外媒:美国已输掉了对伊朗的战争 一个动作令中国获益

头条要闻

外媒:美国已输掉了对伊朗的战争 一个动作令中国获益

体育要闻

那个男人34岁拒绝买断 他要给状元当导师

娱乐要闻

姚晨曹郁发离婚声明 凌潇肃评论区沦陷

财经要闻

我们都是被“训练”出来的大模型

汽车要闻

大众全球首款9系旗舰SUV 上汽大众ID.ERA 9X首秀

态度原创

旅游
本地
艺术
手机
时尚

旅游要闻

安徽铜陵铜官:鹞山春色惹人醉,踏青赏花正当时

本地新闻

坐标北京,过敏季反向迁徒

艺术要闻

捐赠文物3900余件,六莹堂主何许人也?

手机要闻

高端机型销量第一,荣耀Magic V6再传喜讯

除了阔腿裤,这条裤子今年最流行!

无障碍浏览 进入关怀版