网易首页 > 网易号 > 正文 申请入驻

突破短视频局限!MMBench 团队构建中长视频开放问答评测基准

0
分享至

新宇 投稿 凹非寺
量子位 | 公众号 QbitAI
GPT-4o 四月发布会掀起了视频理解的热潮,而开源领军者Qwen2也对视频毫不手软,在各个视频评测基准上狠狠秀了一把肌肉。

但当前的大部分评测基准仍然具有以下几个缺陷:

  • 多注重于短视频,视频长度或视频镜头数不足,难以考察到模型的长时序理解能力;
  • 对模型的考察局限在部分较为简单的任务,更多细粒度的能力未被大部分基准所涉及到
  • 现有的基准仍可以仅凭单帧图像以获取较高的分数,说明问题和画面的时序性关联不强
  • 对开放性问题的评估仍旧采用较旧的GPT-3.5,打分和人类偏好有较大的偏差且并不准确,容易高估模型性能。

针对这些问题,有没有对应的基准能够较好解决这些问题呢?

在最新的NeurIPS D&B 2024中由浙江大学联合上海人工智能实验室,上海交通大学和香港中文大学提出的MMBench-Video打造了一个全面的开放性视频理解评测基准,并针对当前主流MLLM构建了开源的视频理解能力评估榜单。

全能力链条覆盖高质量数据集

MMBench-Video这一视频理解评测基准采取全人工标注,历经一次标注和二次质量核验,视频种类丰富且质量高,问答涵盖模型能力全面,准确回答问题需要横跨时间维度对信息进行提取,更好的考察了模型的时序理解能力。

与其他数据集相比,MMBench-Video具有如下几个突出特点:

视频时长跨度较广,镜头数多变:采集的视频时长从30秒到6分钟不等,避免了过短视频语意信息简单,过长视频评测带来的资源消耗大等问题。同时视频涵盖的镜头数整体呈长尾分布,一个视频最多具有210个镜头,包含了丰富的场景与语境信息。

全方位能力大考,感知与推理的全面挑战:模型的视频理解能力主要包含感知推理两个部分,每个部分能力可以再额外进行细化。受MMBench启发并结合视频理解所涉及到的具体能力,研究者建立了一个包含26个细粒度能力的综合能力谱系,每个细粒度能力都用数十到数百个问答对进行评估,且并不为现有任务的集合。

视频种类丰富,问答语言多样性强:覆盖了人文、体育、科教、美食、金融等16个主要领域,每个领域视频均占到5%以上。同时问答对相比传统VideoQA数据集有了进一步的长度及语意丰富度提升,不局限于’what’’when’等简单问题类型。

时序独立性佳,标注质量高:在研究中发现,大部分VideoQA数据集能够仅通过视频内的1帧获得充足的信息,从而进行准确的回答。这可能是因为视频内前后画面变化较小,视频镜头少,也可能是因为问答对质量较低。研究者将这一情况称之为数据集的时序独立性较差。与他们相比,MMBench-Video由于在标注时给出了详细的规则限制,且问答对经过二次核验,具有显著较低的时序独立性,能够更好的考察模型的时序理解能力。

主流多模态大模型成绩单

为了更加全面评估多个模型的视频理解性能,MMBench-Video选取了11个代表性的视频语言模型,6个开源图文多模态大模型及GPT-4o等5个闭源模型进行全面的实验分析。

在所有模型当中,GPT-4o在视频理解方面表现突出,同时Gemini-Pro-v1.5也展现出了出众的模型性能。

令人讶异的是,现有的开源图文多模态大模型在MMBench-Video上表现整体优于经过视频-问答对微调的视频语言模型,最优的图文模型VILA1.5在整体性能上超出最优的视频模型LLaVA-NeXT-Video近40%。

经过进一步探究发现,图文模型之所以在视频理解上表现更优,可能归因于它们在处理静态视觉信息时的精细化处理能力更强,而视频语言模型在面向静态图像的感知及推理性能均有不足,进而面对更复杂的时序推理和动态场景时显得力不从心。

这种差异揭示了现有视频模型在空间和时间理解上的显著不足,尤其是在处理长视频内容时,其时序推理能力亟待提升。此外,图文模型通过多帧输入在推理上的性能提升表明,它们有潜力进一步拓展至视频理解领域,而视频模型则需要在更广泛的任务上加强学习,以弥补这一差距。

视频长度和镜头数量被认为是影响模型性能的关键因素

实验结果表明,随着视频长度的增加,GPT-4o在多帧输入下的表现有所下降,而开源模型如InternVL-Chat-v1.5和Video-LLaVA的表现相对稳定。相比视频长度,镜头数量对模型性能的影响更为显著

当视频镜头超过50个时,GPT-4o的性能下降至原始得分的75%。这表明,频繁的镜头切换使得模型更难以理解视频内容,导致其表现下降。

除此之外,MMBench-Video还借助接口获取到了视频的字幕信息,从而通过文字引入了音频模态。

在引入后,模型在视频理解上的表现得到了显著提升,当音频信号与视觉信号结合时,模型能够更加准确地回答复杂问题。这一实验结果表明,字幕信息的加入能极大丰富模型的上下文理解能力,尤其是在长视频任务中,语音模态的信息密度为模型提供了更多线索,帮助其生成更精确的回答。然而,需要注意的是,虽然语音信息可以提升模型性能,但同时也可能增加生成幻觉内容的风险。

在裁判模型选择方面,实验显示GPT-4具备更为公正和稳定的评分能力,其抗操纵性强,评分不偏向于自己的回答,能够更好地与人工评判对齐。

相比之下,GPT-3.5在评分时容易出现偏高的问题,导致最终结果的失真。与此同时,开源的大语言模型,如Qwen2-72B-Instruct,也展现了出色的评分潜力,其在与人工评判的对齐度上表现突出,证明其有望成为一种高效的评估模型工具。

使用VLMEvalKit一键评测

MMBench-Video目前支持在VLMEvalKit中一键评测。

VLMEvalKit是一个专为大型视觉语言模型评测设计的开源工具包。它支持在各种基准测试上对大型视觉语言模型进行一键评估,无需进行繁重的数据准备工作,使评估过程更加简便。VLMEvalKit适用于图文多模态模型及视频多模态模型的评测,支持单对图文输入、图文交错输入及视频-文本输入。它实现70多个基准测试,覆盖了多种任务,包括但不限于图像描述、视觉问答、图像字幕生成等。所支持的模型及评测基准正在不断更新中。

同时基于现有视频多模态模型的评测结果较为分散,难以复现等现实,团队还建立了OpenVLM Video Leaderboard这一针对模型的综合视频理解能力评测榜单。OpenCompass VLMEvalKit团队将持续更新最新多模态大模型及评测benchmark,打造主流,开放,便捷的多模态开源评测体系。

最后总结一下,MMBench-Video是一个针对视频理解任务设计的全新长视频、多镜头基准,涵盖了广泛的视频内容和细粒度能力评估。

基准测试包含从YouTube收集的600多个长视频,涵盖新闻、体育等16个主要类别,旨在评估MLLMs的时空推理能力。与传统的视频问答基准不同,MMBench-Video通过引入长视频和高质量的人工标注问答对,弥补了现有基准在时序理解和复杂任务处理方面的不足。

通过GPT-4评估模型的答案,该基准展现了更高的评估精度和一致性,为视频理解领域的模型改进提供了有力的工具。

MMBench-Video 的推出为研究人员和开发者提供了一个强大的评估工具,帮助开源社区深入理解和优化视频语言模型的能力。

论文链接:
https://arxiv.org/abs/2406.14515
Github链接:
https://github.com/open-compass/VLMEvalKit
HomePage:
https://mmbench-video.github.io/
MMBench-Video LeaderBoard:
https://huggingface.co/spaces/opencompass/openvlm_video_leaderboard

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
前英军情六处长:严重低估了俄军的“烂”,泽连斯基赢得世界尊重

前英军情六处长:严重低估了俄军的“烂”,泽连斯基赢得世界尊重

老马拉车莫少装
2026-02-06 05:07:38
随着25岁曼联旧将飙世界波+率队1-0,马竞连续2轮西甲不胜

随着25岁曼联旧将飙世界波+率队1-0,马竞连续2轮西甲不胜

侧身凌空斩
2026-02-09 03:31:52
唏嘘!5年1.93亿砸手里,交易价值为0啊,灰熊倒贴选秀权都没人要

唏嘘!5年1.93亿砸手里,交易价值为0啊,灰熊倒贴选秀权都没人要

球童无忌
2026-02-08 00:27:46
哈登代表骑士队首秀后,忠实粉丝说唱歌手突然出现在赛后采访现场

哈登代表骑士队首秀后,忠实粉丝说唱歌手突然出现在赛后采访现场

好火子
2026-02-09 01:15:55
绝对是细糠!普通女生无成本长脑子的方法,网友:我将慢慢学习

绝对是细糠!普通女生无成本长脑子的方法,网友:我将慢慢学习

夜深爱杂谈
2026-02-08 21:23:15
有高人预测:中国手握“两套房”的家庭,未来或出现3个结果

有高人预测:中国手握“两套房”的家庭,未来或出现3个结果

坠入二次元的海洋
2026-02-08 10:46:19
河南固始新娘刁难化妆师后道歉,男方同学曝猛料:娶她花了近百万

河南固始新娘刁难化妆师后道歉,男方同学曝猛料:娶她花了近百万

一盅情怀
2026-02-08 15:34:50
张靓颖,丝袜这么可爱呀

张靓颖,丝袜这么可爱呀

陈意小可爱
2026-02-04 12:51:16
你见过最无用的节俭行为是什么?看完网友分享:CPU都干烧了!

你见过最无用的节俭行为是什么?看完网友分享:CPU都干烧了!

夜深爱杂谈
2026-02-03 21:51:33
米切尔得知哈登加盟后对未婚妻:把总冠军带回来 然后再娶你

米切尔得知哈登加盟后对未婚妻:把总冠军带回来 然后再娶你

Emily说个球
2026-02-08 21:17:33
1-1!英超一夜生变:维拉掉队+曼联差前二3分,13轮全胜有望争冠

1-1!英超一夜生变:维拉掉队+曼联差前二3分,13轮全胜有望争冠

体育知多少
2026-02-08 09:36:10
拥有完美颜值,暗黑路走的却不好—宝生莉莉

拥有完美颜值,暗黑路走的却不好—宝生莉莉

碧波万览
2026-02-09 00:25:21
比算命还要准的天规,我整整读了七遍,看完大彻大悟

比算命还要准的天规,我整整读了七遍,看完大彻大悟

小鬼头体育
2026-02-08 16:31:48
1-0,意甲第16掀翻意甲第10,21岁阿根廷新星一剑封喉

1-0,意甲第16掀翻意甲第10,21岁阿根廷新星一剑封喉

俯身冲顶
2026-02-08 21:32:07
法国顶级模特福德莉奇,身高190大身板,实在是太美了

法国顶级模特福德莉奇,身高190大身板,实在是太美了

阿废冷眼观察所
2026-02-06 20:36:22
解放前,一女子带丈夫回娘家,进村后对亲朋悄声道:我骗他回来了

解放前,一女子带丈夫回娘家,进村后对亲朋悄声道:我骗他回来了

青史如烟
2026-02-08 19:40:44
注意:债务逾期,立刻协商是下策?80%的人第一步就错了

注意:债务逾期,立刻协商是下策?80%的人第一步就错了

爱看剧的阿峰
2026-02-09 03:44:21
暴跌20%!Stellantis宣告“电车大撤退”,计提220亿巨额亏损

暴跌20%!Stellantis宣告“电车大撤退”,计提220亿巨额亏损

华尔街见闻官方
2026-02-06 16:40:54
唯一在世的中共一代领导人,曾任中央政治局常委,如今109岁

唯一在世的中共一代领导人,曾任中央政治局常委,如今109岁

星辰故事屋
2026-01-23 12:14:47
90岁焦晃现状曝出:穿纸尿裤严重忘事,与小30岁妻子住无电梯顶层

90岁焦晃现状曝出:穿纸尿裤严重忘事,与小30岁妻子住无电梯顶层

小徐讲八卦
2026-02-06 16:10:03
2026-02-09 05:00:49
量子位 incentive-icons
量子位
追踪人工智能动态
12137文章数 176380关注度
往期回顾 全部

科技要闻

为实现雄心勃勃的计划,特斯拉开始招人

头条要闻

日本选举结果 可能让国家进入相当危险阶段

头条要闻

日本选举结果 可能让国家进入相当危险阶段

体育要闻

“我就是王楚钦” 王楚钦霸气指向球衣背后

娱乐要闻

金晨被罚1500后首露面,表情沉重心事重重

财经要闻

宽基ETF开年大赎回,什么信号?

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

旅游
家居
健康
教育
数码

旅游要闻

云南红河州石屏县宝藏小城,有100多座四合院民居:适合旅居养老

家居要闻

现代轻奢 温馨治愈系

转头就晕的耳石症,能开车上班吗?

教育要闻

今天,南京不少牛娃参加了这场考试!

数码要闻

平民本地AI神器!苹果M4 Mac mini面临缺货

无障碍浏览 进入关怀版