清华大学和微软联手破解视频理解难题：让AI像人一样"看懂"长视频|知名企业|youtube

清华大学和微软联手破解视频理解难题：让AI像人一样"看懂"长视频

2025-12-05 22:59:21　来源: 科技行者

北京举报

分享至

长视频时代已经到来，从抖音快手到B站YouTube，我们每天都在观看着大量的视频内容。然而，当我们试图让人工智能也能像人类一样理解这些视频时，却遇到了一个棘手的问题。这就好比让一个人只能通过几张照片来理解一部两小时的电影情节一样困难。

这项由清华大学的李佳洛和微软亚洲研究院的李斌、李佳豪、陆燕等研究者共同完成的研究发表于2025年12月3日，论文编号为arXiv:2512.04000v1。研究团队提出了一个名为DIG（DIvide, then Ground）的创新框架，专门用于解决大型多模态模型在长视频理解方面的关键挑战。

要理解这个问题的复杂性，不妨回到我们日常生活中的一个场景。当你看一部电影时，有些问题需要你了解整部电影的剧情走向，比如"这部电影的主题是什么？"而有些问题只需要你关注某个特定片段，比如"主角用什么武器打败了反派？"人类在观看时能够自然地调整注意力焦点，但现有的AI系统却很难做到这一点。

当前的大型多模态模型在处理长视频时面临着两大核心挑战。首先是计算资源的限制，就像试图在一张小纸条上记录一本厚厚字典的所有内容一样，模型的上下文长度有限，无法处理过多的视频帧。其次是计算成本的问题，处理密集的视频令牌需要消耗大量计算资源，这就好比用显微镜逐个检查每一粒沙子来寻找钻石一样效率低下。

现有的解决方案主要采用查询感知的帧选择方法，即根据问题的内容来智能选择最相关的视频帧。虽然这种方法在理论上很有前景，但在实践中却带来了巨大的计算开销。研究团队发现，并非所有类型的问题都需要如此复杂的搜索机制。

研究团队通过大量实验发现了一个重要规律：随着输入帧数量的增加，模型的性能并不总是单调递增的。相反，性能会先上升然后下降，这个现象就像烹饪时调味料的使用一样——适量能提升口感，过量反而会破坏整体效果。更重要的是，这种性能变化模式在不同类型的问题上表现出明显差异。

基于这个发现，研究团队提出了一个关键的问题分类方法，将视频问题分为两大类：全局查询和局部查询。全局查询就像是问"这道菜的整体风味如何？"，需要对整个视频有全面的理解；而局部查询则像是问"厨师在第三分钟时加了什么调料？"，只需要关注特定的时间段或事件。

通过对多个数据集的深入分析，研究团队发现了一个令人惊讶的现象：对于全局查询，简单的均匀采样方法已经能够达到很好的效果，而复杂的查询感知选择方法并没有带来显著提升。这就好比在观赏一幅画作时，如果你想了解整体的艺术风格，只需要均匀地扫视各个部分就足够了，不需要用放大镜仔细检查每个细节。

相反，对于局部查询，随着输入帧数量的增加，模型性能会显著下降。这是因为大量无关的帧信息会像噪音一样干扰模型对特定内容的识别。这种情况下，查询感知的帧选择就变得至关重要，就像在嘈杂的音乐会现场，你需要专门的设备来捕捉特定乐器的声音一样。

基于这些深刻洞察，研究团队开发了DIG框架，这是一个能够根据问题类型自动调整策略的智能系统。DIG的工作流程可以比作一个经验丰富的图书管理员，首先判断读者的需求类型，然后采用最适合的检索策略。

DIG的第一步是问题类型识别，这个过程就像一个智能分诊系统。当用户输入一个关于视频的问题时，系统会使用大语言模型来分析问题的性质。这个分析过程采用了链式思维的方法，就像一个侦探逐步分析线索一样：首先理解问题的基本含义，然后推测视频的可能类型，接着识别问题中的具体指向性元素，最后综合判断这是一个全局问题还是局部问题。

对于全局问题，DIG采用标准的均匀采样策略，这就像用广角镜头拍摄风景照一样，确保画面的各个部分都能被覆盖到。这种方法不仅效率高，而且效果好，因为全局问题本身就需要对整个视频有全面的了解。

对于局部问题，DIG启动了一个专门设计的多阶段处理流程。这个流程的第一步是内容自适应帧选择，简称CAFS。传统的方法往往采用固定的采样策略，就像按照固定的时间间隔拍照一样，这种方法的问题是无法适应视频内容的变化。CAFS则更像一个聪明的摄影师，能够根据场景的重要性来决定何时按下快门。

CAFS的工作原理基于视频内容的语义相似性分析。系统首先使用DINOv2这一先进的视觉特征提取器来分析视频中每一帧的内容，这个过程就像给每一帧照片贴上内容标签一样。然后，系统计算相邻帧之间的相似度差异，当差异显著增大时，就意味着场景发生了重要变化，这些变化点就像是故事情节的转折点。

通过识别这些关键的变化点，CAFS能够将整个视频自然地分割成多个语义一致的片段，就像将一本小说按照章节来划分一样。在每个片段中，系统选择最具代表性的帧作为"代表帧"（r-frame），这些代表帧就像是每个章节的重点摘要。

接下来是奖励分配阶段，这个阶段的目的是评估每个代表帧与用户问题的相关性。与传统方法使用相对简单的相似度计算不同，DIG采用了大型多模态模型本身来进行这种评估。这就像请一位经验丰富的电影评论家来判断每个场景与特定主题的相关性一样，能够提供更加准确和深入的判断。

评估过程采用了双维度评分机制。系统不仅考虑当前帧对回答问题的直接用处，还会评估这一帧是否暗示相邻帧可能包含重要的补充信息。这种设计非常巧妙，因为许多复杂问题的答案往往需要多个相关场景的信息来共同构建，就像拼图一样，单独的一片可能看不出全貌，但它能提示我们其他相关拼图片的位置。

有了每个代表帧的相关性评分后，系统进入视频细化阶段。这个阶段采用了一种创新的迭代筛选算法，而不是传统的固定阈值Top-K选择方法。算法会反复计算当前候选帧集合的平均分，然后保留高于平均分的帧，这个过程会持续到候选集合稳定为止。这种方法就像是一个自适应的筛选器，能够根据具体情况自动调整筛选标准。

最后一步是片段组合，系统会将选中的代表帧及其周围的时间窗口合并成一个精炼的视频片段。这个过程考虑到了时间连续性的重要性，因为很多视频理解任务需要连续的动作或对话信息。就像制作电影预告片一样，系统会保留最精彩和最相关的连续片段，而不是零散的单独帧。

研究团队在三个权威的长视频理解基准测试上验证了DIG的效果，这些测试包括MLVU、LongVideoBench和VideoMME。实验结果显示，DIG在几乎所有设置下都显著优于现有的基准方法。特别值得注意的是，即使在极高的帧数设置下（比如256帧），DIG仍然能够保持稳定的性能提升，而其他方法的性能往往会开始下降。

在MLVU数据集上，使用32帧设置时，DIG在Qwen2.5-VL-7B模型上实现了7.68%的性能提升，在LongVideoBench上实现了4.51%的提升。这些提升在人工智能领域已经是相当显著的进步。更重要的是，DIG展现出了优秀的可扩展性，当输入帧数增加到256帧时，性能提升变得更加明显。

研究团队还进行了详细的消融实验来验证各个组件的作用。结果显示，CAFS方法在选择代表帧方面明显优于传统的均匀采样，特别是对于较长的视频，这种优势更加明显。这是因为长视频中的信息密度分布往往是不均匀的，简单的均匀采样可能会错过重要信息或包含太多冗余内容。

在奖励分配方面，使用大型多模态模型进行相关性评估比传统的CLIPScore方法表现更好。这个发现很有意义，因为它表明，更强大的模型不仅能够提供更好的最终推理能力，也能够提供更准确的中间判断。这就像请一位专家既当顾问又当执行者一样，能够确保整个过程的质量。

时间窗口长度的选择也经过了仔细的优化。实验显示，窗口长度为2时效果最佳，这个设置在保证信息完整性和避免噪音引入之间找到了最佳平衡点。太小的窗口可能会丢失重要的上下文信息，而太大的窗口则可能引入不相关的干扰信息。

从计算效率的角度来看，DIG虽然增加了一定的处理开销，但这种开销是合理的，特别是考虑到显著的性能提升。与其他查询感知方法相比，DIG的计算开销要小得多。更重要的是，通过问题类型识别，系统能够为全局问题选择高效的均匀采样策略，这样就避免了不必要的计算浪费。

这项研究的意义远超技术本身。随着视频内容的爆发式增长，自动视频理解技术变得越来越重要。无论是内容推荐、自动字幕生成、还是视频搜索，都需要AI系统能够准确理解视频内容。DIG提供的这种问题感知的处理策略，为构建更智能、更高效的视频理解系统奠定了重要基础。

研究团队的工作还揭示了一个更深层的洞察：不同类型的任务可能需要完全不同的处理策略，而一刀切的方法往往不是最优解。这个思路不仅适用于视频理解，也可能启发其他多模态理解任务的研究。

展望未来，这项技术可能会被广泛应用到各种实际场景中。比如，在教育领域，AI助手可以更好地理解教学视频的内容，为学生提供精准的知识点提取和问答服务。在娱乐领域，视频平台可以更准确地分析用户观看的内容，提供更个性化的推荐。在安防领域，监控系统可以更智能地识别和分析关键事件。

总的来说，这项由清华大学和微软联合完成的研究为长视频理解这一重要问题提供了一个既实用又高效的解决方案。通过巧妙地将问题分类和自适应处理相结合，DIG不仅提升了性能，还为未来的研究提供了新的思路。对于那些希望深入了解这项技术细节的读者，可以通过论文编号arXiv:2512.04000v1查阅完整的研究论文。

Q&A

Q1：什么是DIG框架？

A：DIG是清华大学和微软开发的长视频理解框架，它能根据问题类型自动选择最合适的处理策略。对于需要整体理解的问题，它使用简单高效的均匀采样；对于需要关注特定片段的问题，它会智能选择最相关的视频帧来处理。

Q2：DIG比现有方法好在哪里？

A：DIG的最大优势是能够区分不同类型的问题并采用相应策略。实验显示，在32帧设置下，DIG在主要测试数据集上的性能提升达到4-7%，而且即使在256帧的高密度输入下仍能保持稳定提升，这是其他方法难以做到的。

Q3：这项技术有什么实际应用价值？

A：DIG技术可以广泛应用于视频内容分析、自动字幕生成、视频搜索和推荐系统等领域。它能让AI更准确地理解长视频内容，为教育、娱乐、安防等行业提供更智能的视频处理能力，特别是在处理长时间视频内容时效果显著。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.