网易首页 > 网易号 > 正文 申请入驻

智源联合多所高校推出首个多任务长视频评测基准 MLVU:GPT-4o 单选正确率不到 65%

0
分享至

作者 | 智源研究院 MLVU 团队

当前,研究社区亟需全面可靠的长视频理解评估基准,以解决现有视频理解评测基准在视频长度不足、类型和任务单一等方面的局限性。因此,智源联合北邮、北大和浙大等多所高校提出首个多任务长视频理解评测基准 MLVU(A Comprehensive Benchmark for Multi-Task Long Video Understanding)。

MLVU 拥有充足且灵活可变的的视频长度、包含多种长视频来源、涵盖多个不同维度的长视频理解任务。通过对 20 个最新的流行多模态大模型(MLLM)评测发现,排名第一的 GPT-4o 的单选正确率不足 65%,揭示了现有模型在长视频理解任务上仍然面临重大挑战。我们的实证研究还探讨了多个影响大模型长视频理解能力的关键因素,期待 MLVU 能够推动社区对长视频理解研究的发展。

论文标题:

MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding

论文链接:

https://arxiv.org/abs/2406.04264

项目链接:

https://github.com/JUNJIE99/MLVU

背景介绍

使用 MLLM 进行长视频理解具有极大的研究和应用前景。然而,当前研究社区仍然缺乏全面和有效的长视频评测基准,它们主要存在以下问题:

•视频时长不足:当前流行的 Video Benchmark[1,2,3] 主要针对短视频设计,大部分视频的长度都在 1 分钟以内。

•视频种类和任务类型不足:现有评测基准往往专注在特定领域的视频(例如电影 [4, 5],第一视角 [6])和特定的视频评测任务(例如 Captioning[2],Temporal Perception[7],Action Understanding[8])

•缺乏合理的长视频理解任务设计:现有部分长视频理解评测任务往往只和局部帧有关 [4];或者使用针对经典电影进行问答 [9],MLLMs 可以直接凭借 text prompt 正确回答问题而不需对视频进行分析。

MLVU 的构建过程

针对以上不足,我们提出了 MLVU:首个全面的多任务长视频理解 Benchmark。MLVU 具有以下特点:

  1. 充足且灵活的视频时长MLVU 的视频时长覆盖了 3 分钟到超过 2 小时,平均视频时长 12 分钟,极大扩展了当前流行的 Video Benchmark 的时长范围。另外,MLVU 的大部分任务标注过程中进行了片段 - 问题对应标注(例如,Video Summarization 任务分段标注了视频的前 3 分钟,前 6 分钟...)。MLLMs 可以灵活地在 MLVU 上选择测试不同时长情况下的长视频理解能力。

  2. 覆盖真实和虚拟环境的多种视频来源MLVU 收集了包括电影、电视剧、纪录片、卡通动画片、监控视频、第一视角视频和游戏视频等多个类型的长视频。覆盖了长视频理解的多个领域范围。

  3. 针对长视频理解设计的全面任务类别我们针对长视频理解设计了 9 类不同的任务,并进一步将他们任务分为三类:全面理解,单细节理解、多细节理解。

•全面理解任务:要求 MLLMs 理解和利用视频的全局信息来解决问题;

•单细节理解任务:要求 MLLMs 根据问题定位长视频中的某一细节,并利用该细节来解决问题;

•多细节理解任务:要去 MLLMs 定位和理解长视频中的多个相关片段来完成和解决问题。

此外,我们还包括了单项选择题形式和开放生成式问题,全面考察 MLLMs 在不同场景下的长视频理解能力。(文末提供了 MLVU 的 9 类任务示例图参考)

  1. 合理的问题设置与高质量答案标注

以情节问答(Plot Question Answering)任务为例。一部分 Benchmark[9, 10] 使用电影 / 电视的角色作为问题线索来对 MLLMs 进行提问,然而他们使用的视频多为经典电影 / 电视,MLLMs 可以直接使用自有知识回答问题而不需要对输入视频进行理解。另一部分 Benchmark[4] 试图避免这个问题,但由于长视频的复杂性,仅仅利用代词和描述性语句来指代情节细节非常困难,他们的问题非常宽泛或者需要在问题中额外指定具体的时间片段而不是让 MLLMs 自己根据题目寻找对应细节。

MLVU 通过精细的人工标注克服了这些问题,在所有的情节问答任务中,MLVU 均使用“具有详细细节的代词”来指代情节中的人物、事件或背景,避免了问题泄露带来的潜在影响,MLLMs 需要根据问题提供的线索识别和定位相关片段才能进一步解决问题。此外,MLVU 的 Plot QA 问题具备丰富的多样性,增强了评测的合理性和可靠性。

详细分析 MLLMs

在 MLVU 上的表现

我们在 MLVU 上对 20 个流行的 MLLM 进行了评测,包括开源模型和闭源模型。评测结果如下:

实验结果发现:

(1)长视频理解仍然是富有挑战的任务。尽管 GPT-4o[11] 在所有任务中均取得了第 1 名的成绩,然而,它的单选平均准确率只有 64.6%。所有的模型都在需要细粒度理解能力的任务上(单细节、多细节理解任务)表现糟糕。此外,大部分模型的性能都会随着视频时长增加显著下降。

(2)开源模型和闭源模型之间存在较大的差距。开源模型中单项选择题性能最强的 InternVL-1.5[12] 单选平均准确度仅有 50.4%;开放生成式题目最强的 LLaMA-Vid 得分仅有 4.22,均远远落后于 GPT-4o 的 64.6% 和 5.80。此外,现有长视频模型并没有在长视频理解任务上取得理想的成绩,说明当前的 MLLMs 在长视频理解任务上仍然存在较大的提升空间。

(3)上下文长度、图像理解能力、LLM Backbone 是 MLLMs 提升长视频理解能力的关键因素。实证研究发现,提升上下文窗口,提升 MLLM 的图像理解能力,以及使用更强大的 LLM Backbone 对长视频理解的性能具有显著的提升作用。这揭示了未来 MLLMs 在提升长视频理解能力的重要改进方向。

总结

我们提出 MLVU,首个专为长视频理解任务设计的全面多任务评测基准。MLVU 极大扩展了现有基准的视频长度、提供了丰富的视频类型,并针对长视频理解设计了多样化的评估任务,从而为 MLLMs 提供了一个可靠高质量的长视频理解评测平台。

通过评估当前流行的 20 个 MLLMs,我们发现,长视频理解仍然是一个富有挑战和具有巨大提升空间的研究领域。通过实证研究,我们揭示了多个影响长视频理解能力的因素,为未来 MLLMs 的长视频理解能力构建提供了洞见。此外,我们将不断扩展和更新 MLVU 覆盖的视频类型和评估任务,期待 MLVU 能够促进社区对长视频理解研究的发展。

附录:MLVU 的任务示例图

部分参考文献:

[1] Li K, Wang Y, He Y, et al. Mvbench: A comprehensive multi-modal video understanding benchmark[J]. arXiv preprint arXiv:2311.17005, 2023.

[2] Xu J, Mei T, Yao T, et al. Msr-vtt: A large video description dataset for bridging video and language[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 5288-5296.

[3] Li B, Wang R, Wang G, et al. Seed-bench: Benchmarking multimodal llms with generative comprehension[J]. arXiv preprint arXiv:2307.16125, 2023.

[4] Song E, Chai W, Wang G, et al. Moviechat: From dense token to sparse memory for long video understanding[J]. arXiv preprint arXiv:2307.16449, 2023.

[5] Wu C Y, Krahenbuhl P. Towards long-form video understanding[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 1884-1894.

[6] Mangalam K, Akshulakov R, Malik J. Egoschema: A diagnostic benchmark for very long-form video language understanding[J]. Advances in Neural Information Processing Systems, 2024, 36.

[7] Yu Z, Xu D, Yu J, et al. Activitynet-qa: A dataset for understanding complex web videos via question answering[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 9127-9134.

[8] Wang Z, Blume A, Li S, et al. Paxion: Patching action knowledge in video-language foundation models[J]. Advances in Neural Information Processing Systems, 2023, 36.

[9] Li Y, Wang C, Jia J. LLaMA-VID: An image is worth 2 tokens in large language models[J]. arXiv preprint arXiv:2311.17043, 2023.

[10] Lei J, Yu L, Bansal M, et al. Tvqa: Localized, compositional video question answering[J]. arXiv preprint arXiv:1809.01696, 2018.

[11] OpenAI. Gpt-4o. https://openai.com/index/hello-gpt-4o/, May 2024.

[12] Chen Z, Wang W, Tian H, et al. How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites[J]. arXiv preprint arXiv:2404.16821, 2024.

内容推荐

新应用时代,融合AI技术的应用开发变得更加复杂。在6月14日至15日的ArchSummit全球架构师峰会上,来自字节、百度和腾讯云等知名企业的资深架构师分享了他们如何运用AI模型及技术管理手段,解决实际问题。「AI前线」精选了大会上聚焦AI模型及其应用开发的系列PPT,关注「AI前线」,回复关键词「应用开发」免费获取。

InfoQ 将于 8 月 18 日至 19 日在上海举办 AICon 全球人工智能开发与应用大会,汇聚顶尖企业专家,深入端侧AI、大模型训练、安全实践、RAG应用、多模态创新等前沿话题。现在大会已开始正式报名,6 月 30 日前可以享受 8 折优惠,单张门票节省 960 元(原价 4800 元),详情可联系票务经理 13269078023 咨询。

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
出手了,许家印的保护伞被正式起诉,索赔金额高达570亿

出手了,许家印的保护伞被正式起诉,索赔金额高达570亿

雨诺翛翛
2026-05-28 19:28:22
张雪峰推荐:考不上本科的就盯着这5所专科院校去报毕业就能就业

张雪峰推荐:考不上本科的就盯着这5所专科院校去报毕业就能就业

户外阿毽
2026-07-02 13:43:59
詹姆斯离队内幕曝光:跟东契奇无关,跟珍妮·巴斯的那笔旧账有关

詹姆斯离队内幕曝光:跟东契奇无关,跟珍妮·巴斯的那笔旧账有关

冷桂零落
2026-07-03 12:31:39
3:0!中国女排提前晋级,狂赢对手43分,前国手女儿负效率

3:0!中国女排提前晋级,狂赢对手43分,前国手女儿负效率

跑者排球视角
2026-07-02 21:26:14
“时间旅行者”现身 !美国男子自称穿越到2118年,还带回了照片

“时间旅行者”现身 !美国男子自称穿越到2118年,还带回了照片

译言
2026-07-02 06:53:57
立陶宛新总理上台,推翻前任对华缓和政策

立陶宛新总理上台,推翻前任对华缓和政策

梦的微尘
2026-07-02 01:33:19
壕无人性!不止球技碾压,亚马尔一条蝙蝠侠项链顶普通人十年工资

壕无人性!不止球技碾压,亚马尔一条蝙蝠侠项链顶普通人十年工资

听我说球
2026-07-03 08:02:18
美财长亲口中国是例外:全球就中国不甩制裁令,伊朗石油照买不误

美财长亲口中国是例外:全球就中国不甩制裁令,伊朗石油照买不误

晰知
2026-07-03 08:27:25
近500万粉吃播宝宝米乐翻车!拿娃健康换流量太离谱

近500万粉吃播宝宝米乐翻车!拿娃健康换流量太离谱

一口娱乐
2026-06-30 09:15:46
绝杀无效!马塔诺维奇:感觉头发好像碰到了球,裁判说球里有芯片

绝杀无效!马塔诺维奇:感觉头发好像碰到了球,裁判说球里有芯片

砚底沉香
2026-07-03 10:53:03
存款从100万到300万,为什么这是普通人最难翻越的大山?

存款从100万到300万,为什么这是普通人最难翻越的大山?

猫叔东山再起
2026-07-03 09:25:10
赖清德称“面对中国在台海周边军事行动,台湾将持续提升自我防卫”,国台办:违逆大势的行径注定失败,任何分裂国家的图谋都必将破产

赖清德称“面对中国在台海周边军事行动,台湾将持续提升自我防卫”,国台办:违逆大势的行径注定失败,任何分裂国家的图谋都必将破产

政知新媒体
2026-07-02 13:23:31
王小海也没想到,离婚8年,前妻王小玮与自己的现状如此天差地别

王小海也没想到,离婚8年,前妻王小玮与自己的现状如此天差地别

麦芽是个小趴菜
2026-07-01 19:05:19
声援巴勒斯坦被禁止!土耳其一姐质疑温网双标:为何乌克兰可以?

声援巴勒斯坦被禁止!土耳其一姐质疑温网双标:为何乌克兰可以?

全景体育V
2026-07-03 06:14:06
厉害!从野球场打到国家队,CBA状元郎仅用一年,直接挤掉2大国手

厉害!从野球场打到国家队,CBA状元郎仅用一年,直接挤掉2大国手

萌兰聊个球
2026-07-03 08:18:21
足球看点:世界杯,阿根廷VS佛得角,卫冕冠军攻坚黑马新军

足球看点:世界杯,阿根廷VS佛得角,卫冕冠军攻坚黑马新军

Shoot体育
2026-07-03 07:15:05
北京地铁低峰优惠车站增至25座,工作日7点前刷卡进站打5折

北京地铁低峰优惠车站增至25座,工作日7点前刷卡进站打5折

新京报
2026-07-03 11:22:11
笑死!日本46岁女子遇印度男子爱情杀猪盘,得到永居权后却被分手

笑死!日本46岁女子遇印度男子爱情杀猪盘,得到永居权后却被分手

小徐讲八卦
2026-07-02 06:01:52
河南高考699分女孩爆火后,自媒体将镜头架在其家门口开直播,回应:不再接受探视采访,开学后打算勤工俭学,希望回归平静生活

河南高考699分女孩爆火后,自媒体将镜头架在其家门口开直播,回应:不再接受探视采访,开学后打算勤工俭学,希望回归平静生活

台州交通广播
2026-07-03 02:45:03
从废铁贩子到1695亿帝国,首富资产第二次清零

从废铁贩子到1695亿帝国,首富资产第二次清零

大猫财经Pro
2026-07-02 14:36:49
2026-07-03 13:16:49
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1591文章数 160关注度
往期回顾 全部

科技要闻

特斯拉交付超预期7.4万辆,股价却大跌7.5%

头条要闻

围绕霍尔木兹海峡等问题 美伊在安理会激烈交锋

头条要闻

围绕霍尔木兹海峡等问题 美伊在安理会激烈交锋

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

黄晓明深夜约会美女,分手原因曝光

财经要闻

AI“鬼故事”不断,市场开始重估?

汽车要闻

极氪9X五座版官宣,如图!

态度原创

艺术
家居
健康
亲子
军事航空

艺术要闻

当代画家 张奇人物油画作品选

家居要闻

传奇筑 日常诗

这4类消化病患者 吃粘食管住嘴

亲子要闻

家庭氛围好不好,直接决定孩子的性格底色

军事要闻

美军“航母杀手”首次公开 此前从未展示

无障碍浏览 进入关怀版