网易首页 > 网易号 > 正文 申请入驻

智源联合多所高校推出首个多任务长视频评测基准 MLVU:GPT-4o 单选正确率不到 65%

0
分享至

作者 | 智源研究院 MLVU 团队

当前,研究社区亟需全面可靠的长视频理解评估基准,以解决现有视频理解评测基准在视频长度不足、类型和任务单一等方面的局限性。因此,智源联合北邮、北大和浙大等多所高校提出首个多任务长视频理解评测基准 MLVU(A Comprehensive Benchmark for Multi-Task Long Video Understanding)。

MLVU 拥有充足且灵活可变的的视频长度、包含多种长视频来源、涵盖多个不同维度的长视频理解任务。通过对 20 个最新的流行多模态大模型(MLLM)评测发现,排名第一的 GPT-4o 的单选正确率不足 65%,揭示了现有模型在长视频理解任务上仍然面临重大挑战。我们的实证研究还探讨了多个影响大模型长视频理解能力的关键因素,期待 MLVU 能够推动社区对长视频理解研究的发展。

论文标题:

MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding

论文链接:

https://arxiv.org/abs/2406.04264

项目链接:

https://github.com/JUNJIE99/MLVU

背景介绍

使用 MLLM 进行长视频理解具有极大的研究和应用前景。然而,当前研究社区仍然缺乏全面和有效的长视频评测基准,它们主要存在以下问题:

•视频时长不足:当前流行的 Video Benchmark[1,2,3] 主要针对短视频设计,大部分视频的长度都在 1 分钟以内。

•视频种类和任务类型不足:现有评测基准往往专注在特定领域的视频(例如电影 [4, 5],第一视角 [6])和特定的视频评测任务(例如 Captioning[2],Temporal Perception[7],Action Understanding[8])

•缺乏合理的长视频理解任务设计:现有部分长视频理解评测任务往往只和局部帧有关 [4];或者使用针对经典电影进行问答 [9],MLLMs 可以直接凭借 text prompt 正确回答问题而不需对视频进行分析。

MLVU 的构建过程

针对以上不足,我们提出了 MLVU:首个全面的多任务长视频理解 Benchmark。MLVU 具有以下特点:

  1. 充足且灵活的视频时长MLVU 的视频时长覆盖了 3 分钟到超过 2 小时,平均视频时长 12 分钟,极大扩展了当前流行的 Video Benchmark 的时长范围。另外,MLVU 的大部分任务标注过程中进行了片段 - 问题对应标注(例如,Video Summarization 任务分段标注了视频的前 3 分钟,前 6 分钟...)。MLLMs 可以灵活地在 MLVU 上选择测试不同时长情况下的长视频理解能力。

  2. 覆盖真实和虚拟环境的多种视频来源MLVU 收集了包括电影、电视剧、纪录片、卡通动画片、监控视频、第一视角视频和游戏视频等多个类型的长视频。覆盖了长视频理解的多个领域范围。

  3. 针对长视频理解设计的全面任务类别我们针对长视频理解设计了 9 类不同的任务,并进一步将他们任务分为三类:全面理解,单细节理解、多细节理解。

•全面理解任务:要求 MLLMs 理解和利用视频的全局信息来解决问题;

•单细节理解任务:要求 MLLMs 根据问题定位长视频中的某一细节,并利用该细节来解决问题;

•多细节理解任务:要去 MLLMs 定位和理解长视频中的多个相关片段来完成和解决问题。

此外,我们还包括了单项选择题形式和开放生成式问题,全面考察 MLLMs 在不同场景下的长视频理解能力。(文末提供了 MLVU 的 9 类任务示例图参考)

  1. 合理的问题设置与高质量答案标注

以情节问答(Plot Question Answering)任务为例。一部分 Benchmark[9, 10] 使用电影 / 电视的角色作为问题线索来对 MLLMs 进行提问,然而他们使用的视频多为经典电影 / 电视,MLLMs 可以直接使用自有知识回答问题而不需要对输入视频进行理解。另一部分 Benchmark[4] 试图避免这个问题,但由于长视频的复杂性,仅仅利用代词和描述性语句来指代情节细节非常困难,他们的问题非常宽泛或者需要在问题中额外指定具体的时间片段而不是让 MLLMs 自己根据题目寻找对应细节。

MLVU 通过精细的人工标注克服了这些问题,在所有的情节问答任务中,MLVU 均使用“具有详细细节的代词”来指代情节中的人物、事件或背景,避免了问题泄露带来的潜在影响,MLLMs 需要根据问题提供的线索识别和定位相关片段才能进一步解决问题。此外,MLVU 的 Plot QA 问题具备丰富的多样性,增强了评测的合理性和可靠性。

详细分析 MLLMs

在 MLVU 上的表现

我们在 MLVU 上对 20 个流行的 MLLM 进行了评测,包括开源模型和闭源模型。评测结果如下:

实验结果发现:

(1)长视频理解仍然是富有挑战的任务。尽管 GPT-4o[11] 在所有任务中均取得了第 1 名的成绩,然而,它的单选平均准确率只有 64.6%。所有的模型都在需要细粒度理解能力的任务上(单细节、多细节理解任务)表现糟糕。此外,大部分模型的性能都会随着视频时长增加显著下降。

(2)开源模型和闭源模型之间存在较大的差距。开源模型中单项选择题性能最强的 InternVL-1.5[12] 单选平均准确度仅有 50.4%;开放生成式题目最强的 LLaMA-Vid 得分仅有 4.22,均远远落后于 GPT-4o 的 64.6% 和 5.80。此外,现有长视频模型并没有在长视频理解任务上取得理想的成绩,说明当前的 MLLMs 在长视频理解任务上仍然存在较大的提升空间。

(3)上下文长度、图像理解能力、LLM Backbone 是 MLLMs 提升长视频理解能力的关键因素。实证研究发现,提升上下文窗口,提升 MLLM 的图像理解能力,以及使用更强大的 LLM Backbone 对长视频理解的性能具有显著的提升作用。这揭示了未来 MLLMs 在提升长视频理解能力的重要改进方向。

总结

我们提出 MLVU,首个专为长视频理解任务设计的全面多任务评测基准。MLVU 极大扩展了现有基准的视频长度、提供了丰富的视频类型,并针对长视频理解设计了多样化的评估任务,从而为 MLLMs 提供了一个可靠高质量的长视频理解评测平台。

通过评估当前流行的 20 个 MLLMs,我们发现,长视频理解仍然是一个富有挑战和具有巨大提升空间的研究领域。通过实证研究,我们揭示了多个影响长视频理解能力的因素,为未来 MLLMs 的长视频理解能力构建提供了洞见。此外,我们将不断扩展和更新 MLVU 覆盖的视频类型和评估任务,期待 MLVU 能够促进社区对长视频理解研究的发展。

附录:MLVU 的任务示例图

部分参考文献:

[1] Li K, Wang Y, He Y, et al. Mvbench: A comprehensive multi-modal video understanding benchmark[J]. arXiv preprint arXiv:2311.17005, 2023.

[2] Xu J, Mei T, Yao T, et al. Msr-vtt: A large video description dataset for bridging video and language[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 5288-5296.

[3] Li B, Wang R, Wang G, et al. Seed-bench: Benchmarking multimodal llms with generative comprehension[J]. arXiv preprint arXiv:2307.16125, 2023.

[4] Song E, Chai W, Wang G, et al. Moviechat: From dense token to sparse memory for long video understanding[J]. arXiv preprint arXiv:2307.16449, 2023.

[5] Wu C Y, Krahenbuhl P. Towards long-form video understanding[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 1884-1894.

[6] Mangalam K, Akshulakov R, Malik J. Egoschema: A diagnostic benchmark for very long-form video language understanding[J]. Advances in Neural Information Processing Systems, 2024, 36.

[7] Yu Z, Xu D, Yu J, et al. Activitynet-qa: A dataset for understanding complex web videos via question answering[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 9127-9134.

[8] Wang Z, Blume A, Li S, et al. Paxion: Patching action knowledge in video-language foundation models[J]. Advances in Neural Information Processing Systems, 2023, 36.

[9] Li Y, Wang C, Jia J. LLaMA-VID: An image is worth 2 tokens in large language models[J]. arXiv preprint arXiv:2311.17043, 2023.

[10] Lei J, Yu L, Bansal M, et al. Tvqa: Localized, compositional video question answering[J]. arXiv preprint arXiv:1809.01696, 2018.

[11] OpenAI. Gpt-4o. https://openai.com/index/hello-gpt-4o/, May 2024.

[12] Chen Z, Wang W, Tian H, et al. How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites[J]. arXiv preprint arXiv:2404.16821, 2024.

内容推荐

新应用时代,融合AI技术的应用开发变得更加复杂。在6月14日至15日的ArchSummit全球架构师峰会上,来自字节、百度和腾讯云等知名企业的资深架构师分享了他们如何运用AI模型及技术管理手段,解决实际问题。「AI前线」精选了大会上聚焦AI模型及其应用开发的系列PPT,关注「AI前线」,回复关键词「应用开发」免费获取。

InfoQ 将于 8 月 18 日至 19 日在上海举办 AICon 全球人工智能开发与应用大会,汇聚顶尖企业专家,深入端侧AI、大模型训练、安全实践、RAG应用、多模态创新等前沿话题。现在大会已开始正式报名,6 月 30 日前可以享受 8 折优惠,单张门票节省 960 元(原价 4800 元),详情可联系票务经理 13269078023 咨询。

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美军集结地遭袭击伤亡惨重!美媒:美国军力遭受二战后最严重削弱

美军集结地遭袭击伤亡惨重!美媒:美国军力遭受二战后最严重削弱

影孖看世界
2026-03-28 22:40:15
95后“掏粪男孩”结婚 9辆吸粪车组车队迎亲 新娘:这是我们专属的浪漫

95后“掏粪男孩”结婚 9辆吸粪车组车队迎亲 新娘:这是我们专属的浪漫

红星新闻
2026-03-28 13:41:14
催人泪下!张雪峰常把家乡高校当避坑指南,当地送挽联以最高敬意

催人泪下!张雪峰常把家乡高校当避坑指南,当地送挽联以最高敬意

火山詩话
2026-03-28 06:26:33
炸掉干扰站,撕开伊朗信息铁幕:美以这一刀,捅在德黑兰的喉管上

炸掉干扰站,撕开伊朗信息铁幕:美以这一刀,捅在德黑兰的喉管上

老马拉车莫少装
2026-03-28 09:18:09
韩国歌手暴雨中湿透仍全开麦,这照片直接封神了!

韩国歌手暴雨中湿透仍全开麦,这照片直接封神了!

东方不败然多多
2026-03-29 01:08:36
特朗普:战争总会有意外,“有些本应打赢的战争却输了”,北约这次不帮美国,美国以后也不会帮北约!德国总理默茨:美以已“越陷越深”

特朗普:战争总会有意外,“有些本应打赢的战争却输了”,北约这次不帮美国,美国以后也不会帮北约!德国总理默茨:美以已“越陷越深”

每日经济新闻
2026-03-28 14:59:40
“特朗普被内塔尼亚胡坑了”,万斯把锅甩得这么响 | 京酿馆

“特朗普被内塔尼亚胡坑了”,万斯把锅甩得这么响 | 京酿馆

新京报评论
2026-03-28 19:40:57
女教师被碾压致死后续!5人联合作案,销毁铁证,凶手势力不简单

女教师被碾压致死后续!5人联合作案,销毁铁证,凶手势力不简单

青橘罐头
2026-03-28 07:13:38
被轰17-0崩盘!辽宁爆冷惨负广州 赵继伟7中1徐昕20+9统治内线

被轰17-0崩盘!辽宁爆冷惨负广州 赵继伟7中1徐昕20+9统治内线

醉卧浮生
2026-03-28 21:33:24
张雪峰为什么配享太庙

张雪峰为什么配享太庙

黔有虎
2026-03-28 17:25:42
伊朗武装部队发言人:伊朗正在制定战争结束条件

伊朗武装部队发言人:伊朗正在制定战争结束条件

财联社
2026-03-28 04:50:19
广东:坚决拥护党中央决定

广东:坚决拥护党中央决定

新京报政事儿
2026-03-27 22:17:04
A股:下周一定要管住手!周末双重磅消息!接下来大概率这样走了

A股:下周一定要管住手!周末双重磅消息!接下来大概率这样走了

夜深爱杂谈
2026-03-28 17:58:59
一个大清算的时代,要掀开序幕了

一个大清算的时代,要掀开序幕了

月满大江流
2026-03-28 09:58:46
李昌钰,制造冤狱的神探,戏演完了

李昌钰,制造冤狱的神探,戏演完了

不正确
2026-03-28 10:31:14
大反转!国足无缘踢澳大利亚队原因曝光,国际足联给出答案

大反转!国足无缘踢澳大利亚队原因曝光,国际足联给出答案

啊哒体育
2026-03-28 13:29:52
委内瑞拉,为什么从我们的视野里消失了

委内瑞拉,为什么从我们的视野里消失了

民间铁血柔情
2026-03-28 04:41:19
87分钟点球绝平!中国男足拿1分后,最新排名有变,主裁判罚争议

87分钟点球绝平!中国男足拿1分后,最新排名有变,主裁判罚争议

侃球熊弟
2026-03-28 20:07:16
张雪峰葬礼结束!亲友全哭了,几万人送别,学生捧录取通知书送别

张雪峰葬礼结束!亲友全哭了,几万人送别,学生捧录取通知书送别

180视角
2026-03-28 12:22:56
演员李尚宝去世终年45岁,曾患抑郁症街头狂奔精神异常,公司回应

演员李尚宝去世终年45岁,曾患抑郁症街头狂奔精神异常,公司回应

韩小娱
2026-03-28 13:31:17
2026-03-29 04:24:49
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1395文章数 142关注度
往期回顾 全部

科技要闻

华为盘古大模型负责人王云鹤确认离职

头条要闻

美媒:和欧盟"外长"发生激烈交锋 鲁比奥"显然很恼火"

头条要闻

美媒:和欧盟"外长"发生激烈交锋 鲁比奥"显然很恼火"

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

陈牧驰陈冰官宣得子 晒一家三口握拳照

财经要闻

卧底"科技与狠活"培训:化工调味剂泛滥

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

数码
教育
游戏
时尚
本地

数码要闻

苹果或重启与长江存储合作 国行机型拟采用国产NAND

教育要闻

严丝合缝的教材阅读法՞⩌⌯⩌՞

《异替》现已登陆Steam

和田曦薇一样嫩嘟嘟,这3个变美技巧你一定不能错过!

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

无障碍浏览 进入关怀版