复旦大学推出首个多轮视频对话评测基准，AI视频理解能力大起底|算法

分享至

这项由复旦大学、南京大学、快手科技等多所机构联合完成的研究发表于2025年10月，研究成果已投稿至计算机视觉顶级学术期刊。有兴趣深入了解的读者可以通过论文编号arXiv:2510.17722查询完整论文。这项研究的核心贡献是构建了全球首个专门评估AI模型在多轮视频对话中表现的综合测试平台——MT-Video-Bench。

当我们与AI助手聊天时，通常不会只问一个问题就结束对话。就像和朋友讨论一部电影一样，我们会先问剧情，接着询问演员表现，然后可能转到讨论拍摄技巧，甚至突然跳到其他话题。然而，目前的AI视频理解系统在这种自然的多轮对话中表现如何，一直缺乏严格的评估标准。

复旦大学的潘雅宁和南京大学的刘嘉恒等研究团队注意到了这个问题。他们发现，尽管现在的多模态大语言模型在单次视频问答中表现不错，但在真实的多轮对话场景中，这些AI系统面临着全新的挑战。就好比一个学生在单独做题时表现优秀，但在小组讨论中却不知所措——前者只需要理解问题本身，后者还要跟上讨论的节奏、记住之前说过的内容、应对话题转换。

研究团队构建的MT-Video-Bench测试平台包含了987个精心设计的多轮对话，覆盖135个不同类型的视频，总共包含5805个问答对。这些对话不是简单的一问一答，而是平均每个对话包含近6轮的深入交流，就像真实生活中人们观看视频时的自然讨论。

一、AI的两大核心能力：感知力与互动力

研究团队将AI在多轮视频对话中的能力分为两大类，就像人类理解视频的两个基本层面。第一类是"感知力"，指的是AI能否准确理解视频内容和对话历史。第二类是"互动力"，考察AI能否像真人一样自然地参与对话。

在感知力方面，研究团队设计了三项具体测试。首先是"对象引用"能力，这就像考察AI能否理解对话中的代词指代。当用户说"那个穿红衣服的人后来做了什么"时，AI需要准确识别"那个人"具体指的是视频中的哪个角色。其次是"记忆回忆"能力，测试AI能否记住并准确引用之前对话轮次中提到的具体信息。最后是"内容总结"能力，考察AI能否将整个多轮对话的要点进行合理归纳。

互动力的测试更加有趣，因为它模拟了真实对话中的各种情况。"拒绝回答"能力测试AI面对视频中不存在的内容时，能否诚实地说"我不知道"，而不是编造答案。"话题转换"能力考察当用户突然改变讨论方向时，AI能否顺畅地跟上并给出恰当回应。"主动互动"能力则测试AI能否像热情的朋友一样，主动提出新问题或观点来维持对话的活跃度。

二、跨场景推理：AI的终极挑战

MT-Video-Bench的一个重要创新是引入了"跨场景推理"测试。这就像考察一个人能否将不同时间、不同地点发生的事件联系起来理解。在传统的视频理解测试中，AI只需要关注单一场景，但现实生活中，我们经常需要将视频中的多个片段联系起来思考。

研究团队设计了一套巧妙的方法来生成这种跨场景对话。他们首先将长视频按场景自动分割，然后使用先进的目标检测技术识别每个场景中的物体和人物，建立一个"对象记忆库"。当同一个对象在不同场景中出现时，系统就能将这些场景关联起来，生成需要跨场景推理的对话。

这种设计的巧妙之处在于，它真实地反映了人类观看视频时的思维过程。当我们看一部电影时，经常会联想到"那个在开头出现的神秘人物，怎么又在结尾的婚礼上出现了"这样的问题。AI要想真正理解视频，也必须具备这种跨时空的联想能力。

三、测试结果揭示的真相

研究团队对20个当前最先进的AI模型进行了全面测试，结果令人深思。即使是表现最好的Google Gemini 2.5 Pro，在整体测试中也只达到了68.45%的准确率。这意味着，即使是最强的AI系统，在多轮视频对话中仍有近三分之一的回答存在问题。

更有趣的是，研究发现了AI能力的明显不平衡。在感知类任务中，AI的表现相对较好，比如对象引用任务的平均得分达到54.55分。但在互动类任务中，AI就显得力不从心了，主动互动任务的平均得分只有38.60分。这就像一个学生擅长回答问题，但不知道如何主动发起讨论或提出新的观点。

开源模型与闭源模型之间的差距也很明显。除了Qwen2.5-VL和InternVL3.5系列，大多数开源模型的准确率都在50%以下。这反映了顶级科技公司在AI技术方面的领先优势，但也为开源社区指明了努力方向。

另一个重要发现是，所有AI模型在跨场景任务中的表现都明显差于单场景任务。这说明让AI理解视频中不同片段之间的联系，仍然是一个尚未解决的技术难题。

四、技术实现的精巧设计

MT-Video-Bench的构建过程体现了研究团队的精心设计。他们采用了半自动化的数据生成流程，既保证了效率，又确保了质量。

整个流程就像制作一道复杂菜肴的精密配方。研究团队首先从YouTube等平台收集了135个不同类型的视频，涵盖电影、电视节目、体育、知识讲解和生活记录等多个领域。然后使用PySceneDetect工具将视频自动分割成场景片段，再通过AI模型生成每个片段的描述，最后将相关片段合并成完整的单场景视频。

对于跨场景对话的生成，团队开发了一套"对象记忆库"系统。他们使用YOLOv11目标检测模型识别视频中的物体，为每个物体生成详细描述，并建立唯一的ID标识。当系统发现不同场景中存在相同物体时，就会生成需要跨场景推理的问题。

为了确保测试题目的质量，研究团队还设计了两阶段的人工验证流程。第一阶段专门消除"信息泄露"问题，确保问题确实需要观看视频才能回答，而不是仅凭对话历史就能推断。第二阶段则由人工审核员验证每个问答对的事实准确性和能力匹配度。

五、评估方法的创新之处

MT-Video-Bench采用了一种创新的评估方法，摆脱了传统评测中主观性强、一致性差的问题。研究团队为每个问答对设计了平均3.29个具体的检查点，每个检查点都是一个明确的是非判断题。

这种设计的巧妙之处在于将复杂的主观评判转化为客观的事实核查。比如，对于一个关于视频人物行为的问题，检查点可能包括"模型是否正确识别了人物身份"、"模型是否准确描述了具体行为"、"模型是否正确理解了行为的时间顺序"等。这样的评估方式既保证了评判的一致性，又确保了结果的可重现性。

研究团队还采用了"黄金标准对话历史"的评估策略。在多轮对话测试中，他们不让AI使用自己之前生成的回答作为历史记录，而是提供研究团队精心准备的标准对话历史。这样做的目的是确保测试的公平性，避免因为前面回答的错误而影响后续问题的评估。

六、发现的有趣现象

研究过程中，团队发现了一些有趣的现象，这些发现为未来的AI发展提供了重要启示。

首先是"视频长度悖论"。研究发现，随着视频长度增加，所有AI模型的表现都会下降，但性能差的影响程度比较均匀，而不是呈现明显的阶梯式下降。这说明目前的AI模型在处理长时间序列信息时，面临的是普遍性挑战，而不是某个特定长度阈值的限制。

其次是"对话轮次的双面效应"。令人意外的是，随着对话轮次增加，AI的表现整体上呈现上升趋势。这可能是因为更多的上下文信息帮助AI更好地理解用户意图，但同时也增加了维持对话连贯性的负担。这种现象在大模型和小模型之间表现不同，大模型更善于利用增加的上下文，而小模型则更依赖多轮积累的信息。

第三个有趣发现是"帧数与分辨率的平衡艺术"。研究团队测试了不同帧数和分辨率对AI表现的影响，发现了一个有趣的平衡点。对于大多数任务，增加帧数能持续改善表现，但在"拒绝回答"任务中，更多的帧数反而会降低表现。这是因为更多的视觉信息可能让AI过度自信，即使面对不存在于视频中的内容也试图给出答案。

四是"思考模式的神奇效果"。在测试InternVL3.5系列模型时，研究团队发现启用"思考模式"可以显著提升性能，甚至让小模型达到与大模型相当的表现。这说明推理过程的显式化对于复杂任务的完成具有重要价值，为未来AI系统的设计提供了新思路。

七、对未来的启示

MT-Video-Bench的研究结果为AI视频理解技术的发展指明了几个重要方向。首先，单纯的模型规模扩大并不能解决所有问题。虽然大模型整体表现更好，但在某些特定任务上，小模型配合合适的推理策略也能取得出色成果。这提醒我们，技术进步不仅需要硬件资源的堆砌，更需要算法设计的智慧。

其次，跨场景理解能力是当前AI系统的薄弱环节。所有测试模型在跨场景任务中的表现都明显下降，这说明让AI真正理解视频的时空连贯性仍然是一个未解决的挑战。未来的研究需要在这个方向上投入更多努力。

第三，互动能力与感知能力的不平衡揭示了AI发展的不均衡性。当前的AI系统更像是"知识渊博但不善社交的书呆子"，能够准确回答问题，但缺乏主动交流和话题引导的能力。这种局限性在实际应用中可能严重影响用户体验。

最后，评估方法的标准化对于AI技术发展具有重要意义。MT-Video-Bench提供的不仅仅是一个测试平台，更是一个研究社区共同遵循的标准。这种标准化有助于不同研究团队的成果比较，推动整个领域的协同进步。

说到底，这项研究揭示了一个重要事实：让AI真正理解视频并进行自然对话，远比我们想象的复杂。当我们与AI助手讨论一部电影或分析一段新闻视频时，看似简单的交流背后隐藏着感知、记忆、推理、互动等多个层面的挑战。MT-Video-Bench为我们提供了一面镜子，让我们清楚地看到当前AI技术的真实水平和改进空间。

这项研究的价值不仅在于指出了问题，更在于为解决问题提供了工具和方向。随着更多研究团队使用这个评测平台，我们有理由相信，未来的AI系统将在视频理解和多轮对话方面取得突破性进展。到那时，与AI讨论视频内容将变得就像与朋友聊天一样自然流畅。对于想要深入了解这项研究技术细节的读者，可以通过搜索论文编号arXiv:2510.17722获取完整的研究报告。

Q&A

Q1：MT-Video-Bench测试平台主要评估AI的哪些能力？

A：MT-Video-Bench主要评估AI在多轮视频对话中的两大类六项能力。感知力包括对象引用（理解代词指代）、记忆回忆（准确引用之前对话内容）和内容总结（归纳对话要点）。互动力包括拒绝回答（面对不存在内容时诚实回应）、话题转换（适应讨论方向改变）和主动互动（主动提出问题维持对话）。

Q2：目前最好的AI模型在这个测试中表现如何？

A：表现最好的Google Gemini 2.5 Pro在整体测试中达到68.45%的准确率，意味着仍有近三分之一的回答存在问题。大多数开源模型准确率在50%以下，只有Qwen2.5-VL和InternVL3.5系列表现较好。AI在感知类任务表现相对较好，但在互动类任务中明显不足。

Q3：跨场景推理为什么对AI来说这么困难？

A：跨场景推理要求AI将视频中不同时间、不同地点的信息联系起来理解，就像人类看电影时能联想到开头和结尾情节的关联。这需要AI具备时空联想能力和长期记忆整合能力。测试结果显示，所有AI模型在跨场景任务中表现都明显差于单场景任务，说明这仍是未解决的技术难题。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.