南京大学推出OmniVideoBench：AI视频理解能力的全新"考试"|翻译|语音识别|omnivideobench

分享至

这项由南京大学LINK团队主导的研究发表于2025年10月，论文编号为arXiv:2510.10689v1。研究团队汇集了来自东南大学、阿里巴巴集团、快手科技、伦敦玛丽女王大学等多个知名机构的研究人员，共同开发了名为OmniVideoBench的视频理解评测基准。

想象一下，如果我们要测试一个人是否真正理解了一部电影，仅仅问他看到了什么画面是远远不够的。我们还需要确认他是否听懂了对话，理解了背景音乐的情感暗示，甚至能够综合视觉和听觉信息来推理出角色的真实想法。这就是当前人工智能在视频理解方面面临的挑战。

近年来，多模态大语言模型在处理图像和文本方面表现出色，但当面对更复杂的视频内容时，特别是需要同时理解画面和声音的情况下，这些AI系统的表现往往不尽人意。就像一个人戴着耳机看无声电影，或者闭着眼睛只听声音一样，缺失了任何一个感官输入，对内容的理解都会大打折扣。

现有的视频理解测试存在明显的局限性。大多数测试要么只关注短视频片段，忽略了长时间序列中的复杂关系；要么偏重视觉内容，将音频信息视为可有可无的补充。这就好比用看图说话的方式来测试电影理解能力，显然无法全面评估AI的真实水平。更糟糕的是，许多现有测试还存在"作弊"的可能性，AI系统可能仅仅依靠单一模态信息就能猜出正确答案，而非真正进行跨模态推理。

为了解决这些问题，研究团队开发了OmniVideoBench，这是一个专门设计用来评估AI系统音视频协同理解能力的综合性测试平台。这个基准包含了1000个精心设计的问答题目，基于628个来自YouTube和哔哩哔哩的真实视频。这些视频涵盖了从几秒钟到30分钟的不同时长，包括新闻、纪录片、体育、动画、生活记录等8大类别和68个细分领域。

一、精心设计的"考题"：确保AI必须综合运用多种感官

OmniVideoBench的独特之处在于其严格的质量控制体系。研究团队像出卷老师一样，为每道题目都设置了多重检验机制，确保AI系统无法通过"投机取巧"的方式获得高分。

在视频素材的选择上，研究团队制定了严格的标准。首先，所有视频都必须发布于2024年6月之后，这样做是为了避免AI系统在训练过程中可能见过相关内容，从而产生"背答案"的情况。其次，视频必须包含丰富的动态视觉信息，那些大部分时间都是静态画面或者只有小范围运动的视频被排除在外。同时，音频信息必须与视觉内容密切相关，那些仅仅添加了无关背景音乐的视频也不符合要求。

为了防止AI系统通过文字信息"作弊"，研究团队还排除了所有包含字幕或大量文字覆盖的视频。这就像是在语言考试中禁止使用翻译软件一样，确保测试的是真正的理解能力而非文字识别能力。

在题目设计方面，研究团队采用了多选题的形式，每道题目都包含一个问题和四个选项。但这些选项的设计非常巧妙，所有错误选项都必须在视频中出现过并且与问题相关，这样AI系统就无法简单地通过排除明显错误选项来获得正确答案。更重要的是，每道题目都必须同时依赖音频和视频信息才能正确回答，任何仅凭单一模态信息就能解答的题目都会被剔除。

研究团队还为每道题目都标注了详细的推理步骤，明确指出每一步推理依赖的是视觉信息还是听觉信息。这些推理步骤平均包含5.68个步骤，其中54%基于视觉信息，46%基于听觉信息，显示出真正的多模态协同推理特征。

二、全面的能力考察：十三种不同的推理类型

OmniVideoBench包含了13种不同类型的推理任务，每种任务都像是对AI系统特定能力的专门测试。这些任务涵盖了从基础感知到高级推理的各个层面。

细粒度感知任务考察AI系统对视频中具体细节的识别能力。比如询问视频中某个人物的具体动作或物品的颜色特征。这就像是问一个人"刚才那个穿红衣服的女孩拿的是苹果还是橘子"，需要对画面细节有准确的观察。

空间推理任务则要求AI系统理解视频中不同对象之间的空间关系。例如询问某个海报相对于说话人的位置关系。这类任务需要AI系统建立起视频场景的空间认知地图，就像我们在描述房间布局时需要清楚各个物品的相对位置一样。

时间理解任务专门测试AI系统对视频中事件发生顺序的把握。这包括理解"之前"、"之后"、"同时"等时间概念，以及事件之间的因果关系。这就好比要求观众不仅要看懂电影的每个场景，还要理解整个故事的时间线。

背景音乐理解任务是OmniVideoBench中最具挑战性的任务类型之一。这类任务要求AI系统理解音乐的风格、节奏变化，甚至是音乐所传达的情感氛围。不同于人声对话的直接语义信息，音乐传达的往往是更加抽象的情感和氛围信息，这对AI系统来说是一个巨大的挑战。

因果推理任务则考察AI系统理解事件之间因果关系的能力。这不仅要求系统能够观察到发生了什么，还要理解为什么会发生。比如通过观察一个人的表情变化和周围环境的声音，推断出是什么原因导致了这种情绪反应。

关系推理任务重点测试AI系统对视频中人物关系的理解。这需要综合多种线索，包括对话内容、肢体语言、语调变化等，来判断人物之间的关系类型，如朋友、同事、亲属等。

三、令人意外的测试结果：顶级AI也难以及格

研究团队对多个当前最先进的多模态AI系统进行了测试，结果令人深思。即使是表现最好的Gemini-2.5-Pro，准确率也仅有58.90%，距离60%的及格线还有差距。这个结果就像是班里最聪明的学生在一场重要考试中也只能拿到不及格的分数，说明这个测试的确触及了当前AI系统的能力边界。

更令人惊讶的是开源模型与闭源模型之间的巨大差距。除了新推出的Qwen3-Omni之外，大多数开源模型的表现接近随机猜测水平，这就像是让一个人蒙着眼睛答题一样。这种差距反映了在多模态理解领域，顶级科技公司的产品与开源社区之间仍存在显著的技术代沟。

在不同音频类型的处理能力上，AI系统表现出了明显的偏好和局限。对于包含人声对话的视频，AI系统表现相对较好，Gemini-2.5-Pro能达到61.66%的准确率。这可以理解，因为人声对话包含明确的语义信息，相对容易处理。但面对包含背景音乐的视频时，同样的系统准确率就下降到38.46%，几乎接近随机猜测。这就像一个人在嘈杂的咖啡厅里能够理解对话，但却无法判断背景音乐的风格一样。

视频长度也是影响AI表现的重要因素。虽然一些领先模型如Gemini-2.5-Pro在处理长视频时表现相对稳定，但其他模型如Gemini-2.0-Flash和Qwen3-Omni-30B-A3B在面对长视频时就显得力不从心。这种现象类似于人的注意力在长时间集中后会出现疲劳，AI系统也面临着类似的"注意力衰减"问题。

四、深入分析：AI系统的具体短板在哪里

通过对13种不同任务类型的详细分析，研究团队发现了一些有趣的模式。关系推理和总结任务相对来说是AI系统表现较好的领域，准确率可以达到80%以上。这些任务更多依赖于语言理解能力和基本的视觉观察能力，而这正是当前AI系统的相对强项。

相比之下，背景音乐理解任务成为了AI系统的最大难题。即使是表现最好的Gemini-2.5-Pro，在这类任务上的准确率也低于50%。这反映了一个深层次的问题：当前的AI系统在处理高语义信息（如对话、文字）方面已经相当成熟，但在理解低语义的感官信息（如音乐风格、情感氛围）方面还有很大的提升空间。

研究团队还进行了一个有趣的对比实验，他们让AI系统分别在只有视频、只有自动语音识别文本、以及音视频完整输入三种条件下回答同样的问题。结果发现，对于开源模型来说，仅仅提供语音识别文本的表现竟然比提供完整音频信息的表现更好。这个现象就像是一个学生看文字稿比听录音更容易理解内容一样，说明这些AI系统在音频信息的处理和整合方面还存在明显的不足。

但这个实验也揭示了语音识别文本的局限性。当面对包含音乐或环境声音的视频时，仅依靠语音识别文本就完全无法应对了。这就像是试图通过看文字稿来理解一部音乐剧，会错过很多重要的情感和氛围信息。

五、技术细节：帧数多少才够用

研究团队还探索了一个技术层面的问题：AI系统需要多少视频帧才能有效理解视频内容。他们测试了32、64、128、256四种不同的帧数设置，发现随着帧数增加，AI系统的表现确实会有所提升。这种改善在长视频中更加明显，说明更密集的时间采样能够帮助AI系统捕捉到更多的动态信息和关键事件。

这个发现类似于摄影中的快门速度概念，更高的帧率能够捕捉到更多的运动细节。对于AI系统来说，更多的视频帧意味着对时间序列变化有更精细的感知，这对于理解复杂的视频内容至关重要。

六、开放式问答 VS 多选题：两种评估方式的对比

为了验证多选题格式是否会高估AI系统的能力，研究团队还设计了开放式问答实验。在这种设置下，AI系统需要自己生成答案，而不是从给定选项中选择。结果显示，所有模型的表现都出现了显著下降，Gemini-2.0-Flash的准确率从41.50%下降到27.06%，相对下降幅度超过14个百分点。

这个结果就像是从选择题考试转换到主观题考试，难度的提升是显而易见的。在多选题中，AI系统至少可以通过排除明显错误的选项来提高答对概率，但在开放式问答中，系统必须完全依靠自己的理解来生成答案。

七、与现有测试的对比：OmniVideoBench的独特价值

研究团队将OmniVideoBench与现有的几个视频理解测试进行了对比，结果显示OmniVideoBench确实更具挑战性。在其他测试中表现不错的Qwen2.5-VL系列模型，在OmniVideoBench上的表现接近随机水平。这种差异主要源于几个方面的区别。

首先是视频长度的差异。OmniVideoBench包含了大量长视频，最长可达30分钟，这远超过其他测试中通常只有几分钟的视频长度。其次是对音频信息依赖程度的差异。其他测试往往可以仅通过视觉信息就能回答大部分问题，而OmniVideoBench则要求必须综合音视频信息。

最重要的是任务设计的差异。OmniVideoBench的每个问题都经过严格筛选，确保无法通过单一模态信息获得答案。这就像是设计了一套只有全面掌握知识点才能解答的考试题目，而不是可以通过部分知识点就能蒙对的简单题目。

八、未来发展方向：AI需要在哪些方面改进

基于测试结果，研究团队指出了几个需要重点改进的方向。首先是长视频理解能力，当前大多数AI系统在处理超过几分钟的视频时就会出现性能下降。这需要改进模型的注意力机制和记忆能力，让AI系统能够在长时间序列中保持对关键信息的跟踪。

其次是对低语义音频信息的理解能力。当前AI系统在处理人声对话方面已经相当成熟，但对于音乐、环境声音等传达情感和氛围信息的音频内容还缺乏有效的处理能力。这需要开发新的音频编码和理解机制。

跨模态推理能力的提升也是一个重要方向。当前许多AI系统虽然能够处理多种模态的信息，但在整合这些信息进行复杂推理时还存在不足。这就像是一个人虽然眼睛和耳朵都很灵敏，但大脑在综合处理视听信息时出现了偏差。

最后是对复杂场景的适应能力。真实世界的视频往往包含复杂的背景、多个说话者、突然的场景切换等挑战性因素，AI系统需要具备更强的鲁棒性来应对这些情况。

研究团队已经将OmniVideoBench开源发布，希望能够推动整个研究社区在视频理解领域的发展。他们相信，通过更严格和全面的评估标准，能够促进AI系统向更接近人类水平的视频理解能力发展。

说到底，OmniVideoBench就像是为AI系统设计的一次"高考"，考查的不是死记硬背的知识，而是真正的理解和推理能力。当前的测试结果表明，即使是最先进的AI系统也还有很长的路要走。但正是这样的挑战，才能推动技术的不断进步。就像学生通过难题的挑战才能真正提高能力一样，AI系统也需要通过这样的严格测试才能发现自身的不足并获得改进的方向。

对于普通人来说，这项研究的意义在于让我们更清楚地认识到当前AI技术的真实水平。虽然AI在很多任务上已经表现出色，但在真正理解复杂的视频内容方面，特别是需要综合多种感官信息进行推理的情况下，仍然存在明显的局限性。这提醒我们在使用AI技术时要保持合理的期待，同时也为未来技术发展指明了方向。有兴趣深入了解这项研究的读者，可以通过论文编号arXiv:2510.10689v1查询完整的研究报告和数据集。

Q&A

Q1：OmniVideoBench与其他AI视频测试有什么不同？

A：OmniVideoBench要求AI必须同时使用视频和音频信息才能回答问题，而其他测试往往可以仅靠视觉信息就能答对。它还包含了最长30分钟的视频，远超其他测试通常几分钟的长度，并且所有题目都经过严格筛选，防止AI系统"投机取巧"。

Q2：为什么顶级AI在背景音乐理解方面表现这么差？

A：因为音乐传达的是抽象的情感和氛围信息，不像人声对话有明确的语义内容。当前AI系统在处理高语义信息方面已经很成熟，但理解音乐风格、情感氛围这些低语义信息还是一个巨大挑战，就像让AI理解一首歌的"感觉"比理解歌词要难得多。

Q3：普通人能从OmniVideoBench的测试结果中了解到什么？

A：这些测试结果让我们更清楚当前AI技术的真实水平。虽然AI在很多简单任务上表现出色，但在需要综合理解复杂视频内容时仍有明显局限。这提醒我们使用AI技术时要保持合理期待，同时也说明AI要达到真正类似人类的理解能力还需要时间。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.