UC Berkeley 和 NVIDIA 团队共同破解视频理解效率难题|像素|编码器|nvidia

分享至

当你观看一部电影时，你的眼睛并不会平等地关注画面中的每一个像素。相反，你的视觉系统会自动聚焦在移动的人物、重要的细节上，而忽略那些静态的背景。然而，目前的AI系统在"观看"视频时却表现得像是一个毫无重点的新手，它们会逐像素地分析每一帧画面，即使是完全静态、毫无变化的背景区域。

这种笨拙的方式导致了一个严重的问题：当视频变得更长、分辨率更高时，AI系统的计算负担会急剧增加，就像让一个人同时记住一本百科全书的每一个字符一样不现实。这正是UC Berkeley和NVIDIA的研究团队在2025年发表于arXiv预印本服务器的这项研究要解决的核心问题。

这项名为"Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing"的研究，首次提出了一种名为AutoGaze的智能"注视"系统，它能让AI像人类一样有选择性地观看视频。研究团队发现，通过模仿人眼的选择性注意机制，他们可以将视频处理的效率提升4到100倍，同时让AI系统能够处理长达1000帧、分辨率达到4K的高清长视频。

想象一下，如果你要向朋友描述一部两小时的电影，你不会逐秒复述每一个画面细节，而是会挑选关键场景和重要情节。AutoGaze做的正是类似的事情——它学会了从视频中挑选最有信息价值的画面区块，忽略那些重复或无关紧要的内容。

这项技术的突破意义远不止于提高计算效率。在实际应用中，它让AI系统能够处理以前无法企及的视频内容，比如完整的监控录像分析、长篇教育视频的内容理解，或者高分辨率的医疗影像诊断。更重要的是，这种方法为AI视频理解开辟了一条全新的道路，证明了"少即是多"的智能处理哲学。

一、模仿人眼智慧：AutoGaze的核心理念

人类视觉系统的工作方式就像一个经验丰富的摄影师，总是知道什么时候该聚焦在哪里。当你看电视时，你的注意力会自然地追随移动的物体，关注人物的表情变化，而对静止不变的墙壁和家具视而不见。这种选择性注意不是偷懒，而是一种高度智能的策略，它让我们能够高效地处理复杂的视觉信息。

AutoGaze正是受到了这种生物学智慧的启发。研究团队设计了一个轻量级的AI模块，它的参数量仅有300万个——相比之下，这就像是在一个拥有数十亿神经元的大脑中，专门分配一小群细胞来负责"决定看哪里"的任务。这个小巧的模块会在视频播放的每一帧中，自主决定哪些区域值得关注，哪些可以忽略。

这种"自动注视"的过程就像一个智能的视频编辑师在工作。当画面中有人在跑步时，AutoGaze会紧盯着运动的人物；当场景切换到静态的风景时，它会选择几个代表性的区域来"记住"整个画面的基本信息。更巧妙的是，AutoGaze还具备多尺度观察的能力——对于需要精确细节的区域（比如一个人的面部表情），它会使用高分辨率来观察；而对于大片的天空或草地，它会选择较低的分辨率来节省计算资源。

这种工作方式的核心在于一个叫做"重建损失阈值"的概念。简单来说，就是AutoGaze需要确保它选择的画面区块能够较好地重建出原始视频的关键信息。这就像是在画素描时，你需要抓住物体的主要轮廓和关键特征，虽然不能画出每一个细节，但要保证别人能够认出你画的是什么。

AutoGaze的训练过程分为两个阶段，这个过程颇像培养一个新手摄影师。第一阶段是"基础学习"，研究团队为AutoGaze提供了大量的视频样本和对应的"正确答案"——即在每个场景中，哪些区域是最重要的。这些答案是通过一种贪婪搜索算法得出的，该算法会系统性地尝试不同的区域组合，找出能够最好重建原始画面的最小区域集合。

第二阶段是"强化学习优化"，这就像让新手摄影师在实际拍摄中不断改进技巧。在这个阶段，AutoGaze会尝试不同的注视策略，并根据重建效果的好坏来调整自己的行为。如果某种注视方式能够用更少的区域获得更好的重建效果，AutoGaze就会增强这种行为；反之，则会弱化不好的策略。

二、技术细节：让AI学会"挑三拣四"

AutoGaze的工作原理可以比作一个高明的美食评论家在品尝大餐。这位评论家不会把盘子里的每一粒米饭都仔细品味，而是会选择最能代表菜品特色的几口来尝试，然后基于这几口的体验来评判整道菜的质量。同样，AutoGaze也会从视频的每一帧中选择最具代表性的画面区块，用这些"精华"来理解整个视频内容。

整个系统的架构就像一个精密的流水线工厂。首先，有一个"视觉编码器"，它的作用类似于工厂的原材料预处理车间，负责把原始的视频画面转换为AI能够理解的特征表示。这个编码器采用卷积神经网络结构，能够捕捉画面中的空间和时间特征，就像一个经验丰富的质检员能够快速识别原材料的关键特征一样。

接下来是整个系统的核心——"自回归解码器"。这个组件的工作方式就像一个棋手在下棋时的思维过程：它会根据当前的局面（已经选择的画面区块）和历史信息（之前的帧和选择），来决定下一步应该关注哪个区域。这种序列化的决策过程让AutoGaze能够考虑时间上的连续性，避免在相邻帧之间做出矛盾的选择。

解码器的另一个巧妙设计是它的"损失预测头"。这就像给决策者安装了一个实时的"后悔药检测器"——每当AutoGaze选择一个新的区域时，这个组件就会预测"如果我们现在停止选择，重建出来的画面质量会如何"。一旦预测的质量达到了设定的标准，AutoGaze就会停止为当前帧选择更多区域，转而处理下一帧。

多尺度选择机制是AutoGaze的另一个重要创新。这就像一个摄影师有多个不同焦距的镜头可以选择：广角镜头适合拍摄大场景的概况，长焦镜头则用于捕捉远处的细节。AutoGaze可以在32×32、64×64、112×112和224×224四种不同的分辨率之间选择，根据画面内容的复杂程度来决定使用哪种"镜头"。对于纹理丰富、细节重要的区域，它会选择高分辨率；对于相对单调的区域，则使用较低分辨率来节省计算资源。

为了训练这样一个复杂的系统，研究团队收集了约80万个视频样本，涵盖了第一人称视角、第三人称视角、自然场景和文本丰富的内容等多种类型。这就像为一个学生准备了涵盖各个学科的习题集，确保他能够应对各种不同的考试场景。训练数据的生成过程也很有趣：研究团队使用贪婪搜索算法为每个视频生成"标准答案"，就像为每道数学题提供详细的解题步骤。

三、实验验证：从理论到现实的跨越

要验证AutoGaze是否真的像宣传的那样有效，研究团队设计了一系列严格的测试，就像对一个新发明的汽车进行全面的路试。这些测试不仅要验证技术的可行性，还要证明它在各种真实场景下的实用价值。

首先，研究团队想要了解AutoGaze在"看视频"时是否真的像人类一样智能。他们发现了几个有趣的现象：AutoGaze确实更倾向于关注运动的物体而忽略静态背景，这与人类的视觉注意机制高度一致。当画面中有人在走路、车辆在行驶或者物体在移动时，AutoGaze会自动将注意力集中在这些动态区域上。更令人印象深刻的是，AutoGaze还学会了根据画面内容的复杂程度来调整观察的精细度——对于包含大量细节的区域（比如人脸或文字），它会使用更高的分辨率；而对于相对简单的区域（比如纯色背景），则使用较低分辨率来提高效率。

在效率测试中，AutoGaze展现出了惊人的性能提升。研究团队测试了不同帧率和分辨率的视频，发现AutoGaze能够将所需的画面区块数量减少4到100倍。具体来说，对于30帧每秒、4K分辨率的视频，AutoGaze只需要处理约1%的画面区块就能够重建出质量可接受的视频内容。这种效率提升直接转化为计算速度的提升：在视觉处理方面，AutoGaze能够实现高达19倍的加速；在多模态大语言模型的整体处理中，也能达到10倍的加速。

最令人兴奋的测试是AutoGaze在长视频和高分辨率视频上的表现。传统的AI系统在处理超过256帧的视频时就会遇到内存不足的问题，就像一个人试图同时记住太多信息而导致大脑"死机"。而配备了AutoGaze的系统能够轻松处理1000帧、4K分辨率的视频，这相当于能够分析一个5分钟左右的超高清视频片段。

为了全面评估AutoGaze的实际应用效果，研究团队在多个标准视频理解基准测试上进行了评估。结果显示，配备AutoGaze的NVILA模型在VideoMME基准上达到了67.0%的准确率，比原始版本提高了2.8个百分点。更重要的是，在需要高分辨率视频理解的任务中，改进效果更加明显。

研究团队还特别关注了AutoGaze在处理"出分布"（即训练时没有见过的）视频类型时的表现。他们测试了监控摄像头画面、机器人操作视频，甚至是经过艺术风格转换的视频。令人欣慰的是，AutoGaze在这些新颖场景中仍然能够保持良好的选择策略，证明了它学到的不是死记硬背的规则，而是真正的视觉智能。

四、创新基准：HLVid的诞生

在研究过程中，团队发现了一个令人困扰的问题：现有的视频理解评估基准虽然关注长视频，但大多使用相对较低的分辨率，这就像用标清电视来测试4K显示技术的效果一样不够充分。为了真正验证AutoGaze在处理长时间、高分辨率视频方面的能力，研究团队决定创建一个全新的评估标准。

HLVid（High-resolution Long Video）基准的诞生就像为汽车行业制定了新的安全测试标准。这个基准包含268个问答对，每个问答都基于长达5分钟、分辨率达到4K的真实视频内容。这些视频涵盖了自动驾驶场景和家庭生活场景，内容丰富多样，而且每个问题都经过精心设计，确保必须使用高分辨率信息才能正确回答。

比如，其中一个问题可能会询问"视频第125秒时，白色书本上的黑色文字写的是什么"，这就要求AI系统不仅要能够定位到正确的时间点，还要能够以足够高的分辨率识别出小字体的具体内容。另一个问题可能会问"在驾驶过程中，绿色路牌上的两行白色文字分别是什么"，这同样需要系统具备处理高分辨率细节的能力。

HLVid的设计理念就像制作一张超级复杂的"找茬"图片，但是以视频形式呈现。每个问题都要求观察者能够在长时间的视频中找到特定的细节，而这些细节往往只有在高分辨率下才能清晰可见。这种设计确保了基准测试能够真实反映AI系统在处理现实世界高质量视频内容时的能力。

在HLVid基准上的测试结果令人印象深刻。配备AutoGaze的NVILA模型取得了52.6%的准确率，比原始版本的42.5%提高了10.1个百分点。更重要的是，这个成绩超越了之前最好的模型4.5个百分点，包括一些知名的商业系统如Qwen2.5-VL和GPT-4o。这个结果证明了AutoGaze不仅能够提高处理效率，还能实际改善视频理解的质量。

五、对比分析：站在巨人肩膀上的创新

在科学研究中，很少有完全从零开始的发明，AutoGaze也不例外。为了证明这项技术的优越性，研究团队进行了全面的对比分析，就像让不同的厨师用相同的食材做菜，然后比较最终的美味程度和制作效率。

首先，他们将AutoGaze与一些简单直观的方法进行了比较。最基础的对比对象是"随机选择"策略，就像闭着眼睛随机挑选画面区块。结果毫不意外，这种方法的效果很差，需要选择约15%的画面区块才能达到AutoGaze只用5%就能实现的重建质量。

更有趣的是与"光流选择"和"RGB差分选择"等启发式方法的比较。光流选择策略会优先选择运动幅度较大的区域，这听起来很合理，但在实际测试中表现反而不如随机选择。原因在于这些简单方法会过分专注于第一帧的剧烈变化（比如从空白到有内容的跳变），而忽略了后续帧中的重要信息。这就像一个人因为门口的巨响而一直盯着门看，却错过了房间里正在发生的重要事件。

在与现有的多模态大语言模型token削减方法的比较中，AutoGaze展现出了独特的优势。传统的方法通常只在语言模型内部进行token削减，而视觉编码器仍然需要处理完整的视频内容。这就像在一个工厂的包装环节提高了效率，但原料处理环节仍然是瓶颈。AutoGaze的创新在于它从源头就开始优化，直接减少了需要处理的视觉内容，从而在整个处理流程中都能获得效率提升。

研究团队还特别测试了AutoGaze在流式视频处理中的表现。在传统的批处理模式下，系统可以看到完整的视频内容后再做处理决策。但在实时应用中，系统必须逐帧处理视频，无法预知后续内容。AutoGaze在这种更具挑战性的条件下仍然表现出色，能够实现最高16倍的处理速度提升，这为实时视频分析应用开辟了新的可能性。

六、深入机制：揭秘AutoGaze的"思考"过程

为了真正理解AutoGaze是如何工作的，研究团队进行了详细的机制分析，就像解剖一只钟表来理解它如何精确计时。这些分析揭示了一些令人着迷的发现，展示了AI系统如何学会了类似人类的视觉智能。

通过分析AutoGaze的决策模式，研究团队发现它确实学会了一些类似人类的视觉策略。当面对光流（物体运动）较强的区域时，AutoGaze会显著增加关注度，这与人类视觉系统的运动敏感性完全一致。更精妙的是，AutoGaze还学会了根据画面内容的详细程度来选择合适的观察尺度。对于包含大量细节的区域（通过拉普拉斯方差测量），AutoGaze倾向于使用更精细的分辨率；而对于相对平滑的区域，则选择较粗的分辨率来提高效率。

研究团队还测试了AutoGaze的泛化能力，即它是否能够处理训练时没有见过的视频类型。测试结果令人印象深刻：无论是监控摄像头的黑白画面、机器人操作的演示视频，还是经过风格转换处理的艺术化视频，AutoGaze都能保持稳定的性能。这就像一个学会了绘画基本技巧的艺术家，无论面对什么样的模特或风景，都能抓住关键特征来创作。

在训练过程的消融实验中，研究团队发现预训练和强化学习两个阶段都对最终性能有重要贡献。仅使用预训练的模型虽然已经能够学会基本的选择策略，但通过强化学习的进一步优化，能够将所需的画面区块比例从10.2%进一步减少到9.4%。这种改进看似微小，但在处理大量视频时会产生显著的效率提升。

多token预测机制也被证明是一个重要的设计选择。这种机制允许AutoGaze在每个决策步骤中同时选择多个画面区块，就像一个经验丰富的摄影师能够快速连拍几张照片来捕捉动态场景。实验表明，同时预测10个token能够在保持选择质量的同时显著提高决策速度，将单次决策的时间从0.949秒减少到0.193秒。

七、技术局限：诚实面对挑战

任何技术创新都有其局限性，AutoGaze也不例外。研究团队以科学的态度诚实地分析了这项技术目前面临的挑战，这种坦诚的态度反而增强了研究的可信度。

首先是相机运动处理的问题。当摄像机本身在移动时（比如手持拍摄或车载摄像），AutoGaze目前还不能很好地区分由于相机运动导致的画面变化和真正的物体运动。这就像一个人在移动的车上看窗外风景，很难判断哪些变化是因为车在动，哪些是因为外面的物体在动。在这种情况下，AutoGaze可能会选择一些由于相机运动而看起来"新鲜"但实际上信息价值不高的区域。

另一个局限是缺乏物理直觉。虽然AutoGaze能够很好地根据历史信息来预测哪些区域值得关注，但它不具备对物理世界的深层理解。比如，当看到一个球被抛向空中时，人类会自然地预期球会沿着抛物线轨迹下落，但AutoGaze目前还无法进行这样的物理推理。这意味着在一些需要预测物体未来位置的场景中，AutoGaze的表现可能不够理想。

计算资源的分配也是一个需要权衡的问题。虽然AutoGaze大大减少了视觉处理的计算量，但它本身的决策过程也需要一定的计算资源。在处理超高分辨率或超长时间的视频时，这种额外的计算开销可能会变得明显。这就像雇佣一个助手来帮忙筛选文件，虽然最终效率提高了，但也需要为助手的工作支付成本。

训练数据的多样性也可能影响AutoGaze的泛化能力。尽管研究团队收集了涵盖多种场景的训练数据，但现实世界的视频内容仍然可能出现训练时没有见过的新奇场景或拍摄角度。在这些全新的情况下，AutoGaze的表现可能会有所下降，需要进一步的数据补充和模型调优。

八、未来展望：开启视频理解新时代

AutoGaze的出现不仅仅是一个技术改进，更像是打开了一扇通向未来的大门。这项技术的影响将远远超出学术研究的范围，有可能彻底改变我们处理和理解视频内容的方式。

在实际应用方面，AutoGaze为许多以前难以实现的应用场景提供了可能性。安防监控系统可以实时分析数小时的高清监控录像，自动识别可疑行为而不需要人工逐一查看。教育平台可以对长篇讲座视频进行智能摘要，帮助学生快速找到重点内容。医疗诊断系统可以分析长时间的手术录像或监护记录，辅助医生发现细微的异常变化。

这项技术还可能催生全新的视频内容创作和编辑工具。自动化的视频剪辑系统可以学会识别视频中的精彩片段，为内容创作者节省大量的后期制作时间。直播平台可以实时生成智能精彩集锦，让观众不错过任何重要瞬间。

从更广阔的视角来看，AutoGaze代表了AI领域从"暴力计算"向"智能计算"转变的一个重要里程碑。传统的AI系统往往采用"大力出奇迹"的策略，通过增加计算资源来提升性能。而AutoGaze展现的是一种更加优雅的解决方案：通过模仿生物智能的高效策略来实现更好的性能。这种思路不仅在视频理解领域有价值，也可能启发其他AI应用的设计。

技术的进步往往是渐进式的，每一个小的突破都可能为后续的重大创新奠定基础。AutoGaze在视频理解效率方面的突破，可能会启发研究者开发出更多基于注意力机制的智能系统。未来我们可能会看到能够智能阅读长篇文档的系统、能够高效分析大规模科学数据的工具，或者能够在复杂环境中进行实时决策的机器人系统。

随着5G网络和边缘计算技术的发展，实时视频分析的需求将会急剧增长。AutoGaze这样的高效视频理解技术将成为这个趋势中的关键使能技术，让更多的智能视频应用能够在资源受限的环境中运行。

最终，AutoGaze所代表的技术路线可能会推动整个AI领域向着更加类人化的方向发展。通过学习和模仿人类感知系统的高效机制，AI系统不仅能够变得更加强大，还能够变得更加节能和可持续。在AI技术日益普及的今天，这样的发展方向显得尤为重要和有前景。

这项由UC Berkeley和NVIDIA联合完成的研究成果发表在arXiv预印本平台上，论文编号为arXiv:2603.12254v1，有兴趣深入了解技术细节的读者可以通过该编号获取完整的研究论文。研究团队的工作不仅在学术界引起了关注，也为整个AI视频理解领域指明了新的发展方向，相信将会催生更多创新应用和技术突破。

Q&A

Q1：AutoGaze技术是如何模仿人眼工作的？

A：AutoGaze就像模仿了人眼的选择性注意机制。当你看电视时，眼睛会自动追随移动物体，关注重要细节，而忽略静态背景。AutoGaze也是这样工作的——它会自主选择视频中最有信息价值的画面区块，对运动区域使用高分辨率观察，对静态区域使用较低分辨率，从而大幅提高处理效率。

Q2：AutoGaze能将视频处理速度提升多少倍？

A：AutoGaze能够将视频处理效率提升4到100倍，具体取决于视频的类型。对于30帧每秒的4K视频，它只需要处理约1%的画面区块就能重建出质量可接受的内容。在实际应用中，视觉处理速度可以提升19倍，多模态大语言模型整体处理速度可以提升10倍，甚至能够处理1000帧4K分辨率的长视频。

Q3：HLVid基准测试与现有视频评估标准有什么不同？

A：HLVid是首个专门针对长时间、高分辨率视频理解的评估基准。它包含268个基于5分钟4K视频的问答对，每个问题都需要高分辨率信息才能正确回答。与现有主要关注长视频但使用低分辨率的基准不同，HLVid真正测试AI系统处理现实世界高质量视频内容的能力，就像用4K电视来测试显示技术而不是用标清电视。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.