UC圣迭戈分校研发新模型：让AI视频理解媲美人类，只需4%计算资源|分支|客户端节点

分享至

加州大学圣迭戈分校的Song Enxin等研究团队最近发布了一项令人瞩目的研究成果。这篇名为"VideoNSA: Native Sparse Attention Scales Video Understanding"的论文发表于2025年，详细介绍了一种革命性的AI视频理解技术。有兴趣深入了解的读者可以通过论文编号arXiv:2510.02295v1查询完整论文。

现在的AI视频理解模型面临着一个棘手问题，就像一个人试图同时观看上百个电视频道一样。当视频变长时，AI需要处理的信息量呈指数级增长，导致计算成本飞升。传统方法就像强制AI把每一帧画面都仔细分析，这样做虽然全面，但效率低下，就好比让一个人把整部电影的每个镜头都逐帧分析，既费时又费力。

为了解决这个问题，研究团队开发了VideoNSA模型，这就像给AI配备了一双"智能眼镜"。这副眼镜能够自动识别视频中最重要的部分进行重点关注，而对不太重要的部分采用"扫一眼"的策略。更令人惊讶的是，这种方法不仅没有降低理解准确度，反而在某些任务上表现更好，同时只使用了传统方法3.6%的计算资源。

这种技术的核心创新在于采用了"混合注意机制"，可以比作一个经验丰富的电影剪辑师。当处理一部长达数小时的原始素材时，剪辑师不会平均分配注意力，而是会根据内容的重要性采用不同策略。对于关键情节，他会仔细分析每个细节；对于过渡镜头，他可能只是快速浏览；而对于最近发生的场景，他会保持高度关注。VideoNSA正是模仿了这种人类的智能处理方式。

一、革命性的三重注意机制

VideoNSA的核心就像一个配备三种不同镜头的专业摄像团队。每种镜头都有自己的专长，配合工作来捕捉视频的精华。

第一个"镜头"叫做压缩分支，它的作用就像一个善于概括的速记员。当面对大量连续的视频帧时，它会将相似的内容进行智能合并，提取出最具代表性的信息。想象你在观看一场足球比赛，压缩分支会将球员连续跑动的多个画面合并成一个关键动作，既保留了重要信息，又大大减少了需要处理的数据量。

第二个"镜头"是选择分支，它扮演着挑剔的艺术鉴赏家角色。这个分支会对所有视频片段进行重要性评分，然后只选择那些最关键、最有信息量的部分进行详细分析。就像一个经验丰富的新闻编辑，能够从大量素材中迅速识别出最有新闻价值的片段。在足球比赛的例子中，选择分支会自动锁定进球瞬间、关键传球或精彩扑救等高光时刻。

第三个"镜头"是滑动窗口分支，它就像一个专注于"此时此刻"的现场解说员。这个分支始终保持对最新发生事件的高度关注，确保AI不会错过任何实时的重要变化。它维持着对最近发生事件的详细记忆，就像人类观看视频时总是对刚刚看到的内容印象最深刻一样。

最巧妙的设计是这三个分支并不是各自独立工作，而是通过一个智能的"导演"来协调配合。这个导演会根据当前的任务需求，动态调整三个分支的工作比重。比如在分析体育比赛时，可能会让选择分支占主导地位来捕捉精彩瞬间；而在分析日常生活视频时，可能会更依重压缩分支来处理大量的平凡时刻。

二、突破性的训练方法与数据处理

研究团队在模型训练上采用了精心设计的策略，这个过程就像培养一个多才多艺的视频分析专家。他们使用了包含21.6万个视频问答对的训练数据集，这些数据经过精心筛选，每个视频都保持4fps的采样率，包含350-550帧的内容。

训练过程中，团队采用了端到端的学习方法，这意味着整个系统的各个组件都在同时学习和优化。就像训练一个管弦乐队，不仅每个乐手要练好自己的部分，整个乐队还要学会如何协调配合，产生和谐的音乐。在VideoNSA中，三个注意力分支不仅要各自提升性能，还要学会如何最佳地组合工作。

为了确保模型能够处理真实世界的复杂视频，研究团队设置了严格的训练限制。他们将每帧的最大像素数限制在50,176，最大上下文长度限制在36K个令牌。这种限制迫使模型学会更加高效地利用有限的计算资源，就像在有限的画布上创作精美的艺术作品一样。

整个训练过程消耗了4600个H100 GPU小时，这相当于让一台高性能计算机连续工作约半年的时间。虽然听起来投入巨大，但考虑到这种一次训练、终身受益的特性，这个投入是非常值得的。训练完成后的模型不仅能够处理训练时见过的视频类型，还展现出了很强的泛化能力，能够应对各种不同类型的视频内容。

三、令人瞩目的性能表现

VideoNSA在多项视频理解任务上的表现可以用"出乎意料的优秀"来形容。在长视频理解任务中，这个模型就像一个永远不会疲倦的观影者，即使面对长达数小时的视频内容，也能保持高度的理解准确率。

在LongVideoBench测试中，VideoNSA取得了60.0分的成绩，超过了大多数传统的密集注意力方法。更令人印象深刻的是，在处理超长视频的LongTimeScope任务上，模型得分达到了44.4分，显著优于其他方法。这就像一个学生不仅能够理解短篇文章，还能够准确把握长篇小说的主要情节和细节。

在时间推理任务上，VideoNSA表现得像一个经验丰富的侦探，能够准确把握事件的前因后果和时间顺序。在Tomato基准测试中，该模型取得了26.5分的成绩，在所有对比方法中排名第一。这个分数虽然看起来不高，但要知道视频中的时间推理是一个极其复杂的任务，需要模型不仅理解单个画面，还要理解画面之间的逻辑关系。

更让人惊喜的是，在空间理解任务上，VideoNSA同样表现出色。在VSIBench测试中获得36.1分，证明了即使采用稀疏注意机制，模型依然能够准确理解视频中物体的空间位置和相互关系。这就好比一个人即使只是快速扫视一个房间，也能准确记住家具的摆放位置。

最关键的是效率优势。传统方法在处理128K令牌长度的视频时，需要进行约82亿次注意力计算，而VideoNSA只需要约3亿次，相当于节省了96.4%的计算量。这种效率提升不仅意味着更低的能耗和成本，也使得在普通硬件上运行高质量视频理解成为可能。

四、深度技术分析与创新突破

VideoNSA的技术架构建立在Qwen2.5-VL-7B模型基础之上，但加入了革命性的稀疏注意机制。这个基础模型就像一个已经受过良好教育的学生，而VideoNSA的创新就是给这个学生配备了更智能的学习方法。

在注意力分配策略上，研究团队发现了一个有趣的现象，随着网络层次的加深，不同注意力分支的重要性会发生动态变化。在浅层网络中，三个分支的贡献相对均衡，就像三个合作伙伴平分工作量。但在深层网络中，压缩分支逐渐占据主导地位，而选择分支和滑动窗口分支的影响力逐渐减弱。这种变化反映了模型学习过程中的智能适应性，深层网络更关注高层次的语义理解，而不需要太多细节信息。

研究团队还发现了注意力权重的一个独特特性。即使在稠密注意力设置下，经过稀疏训练的权重依然能够提供性能提升，这说明稀疏训练过程确实让模型学会了更有效的信息处理方式。这就像一个人学会了速读技巧后，即使回到正常阅读速度，理解效率也会有所提升。

在处理注意力沉没问题上，VideoNSA展现出了独特的优势。传统的transformer模型常常会将过多注意力分配给序列开头的几个令牌，形成所谓的"注意力沉没"现象。VideoNSA通过动态门控机制有效缓解了这个问题，使得注意力分配更加均匀合理。压缩分支的沉没比例为1.2%，选择分支仅为0.1%，而整体模型的沉没比例控制在0.3%，远低于传统方法。

五、扩展性与泛化能力验证

VideoNSA最令人印象深刻的特性之一是其出色的扩展能力。虽然模型在36K令牌长度上进行训练，但它能够成功处理长达128K令牌的视频内容，相当于能处理超过10000帧的视频。这种扩展能力就像一个学会了基本数学运算的学生，能够处理比训练时更复杂的数学问题。

在不同的上下文分配策略测试中，研究团队发现了一个有趣的规律，不同任务对帧率和每帧令牌数有着不同的偏好。长视频理解任务更倾向于为每帧分配更多令牌，以获得更好的空间细节；而时间推理任务则更偏好增加帧数，以获得更好的时间覆盖。这种任务依赖性为未来的优化提供了重要指导。

在注意力预算分配的实验中，VideoNSA展现出了惊人的效率。研究团队发现，使用仅仅3.6%的完整注意力预算，模型就能达到最佳性能。这个发现颠覆了传统认知，证明了"更多注意力等于更好性能"的观念并不总是正确的。就像一个高效的管理者，知道把精力集中在最重要的事情上比平均分配精力更有效。

更令人惊讶的是，即使将注意力预算进一步削减到1.8%，模型在某些任务上的性能下降也很有限。这意味着VideoNSA不仅在理论上具有优势，在实际部署中也能显著降低硬件要求和运行成本。

六、实际应用前景与影响

VideoNSA的突破性进展为视频AI应用开启了全新的可能性。在智能监控领域，这项技术能够让安防系统更加高效地处理大量监控视频，自动识别异常行为而不需要昂贵的硬件设备。传统的监控系统就像配备了无数双眼睛但没有大脑的守卫，而VideoNSA则像是给这些系统配备了智能的大脑，能够理解和分析所看到的内容。

在娱乐和媒体行业，VideoNSA可以revolutionize内容创作和编辑流程。视频编辑师可以利用这项技术快速定位精彩片段，自动生成视频摘要，甚至进行智能内容推荐。这就像拥有了一个永远不知疲倦的助理编辑，能够在短时间内处理大量素材并找出最有价值的内容。

在教育领域，这项技术能够为在线教育平台提供智能化的课程分析和个性化推荐。系统可以分析学生的学习视频，理解哪些部分最难理解，哪些概念需要重复讲解，从而为每个学生定制最适合的学习路径。

医疗影像分析是另一个极具潜力的应用领域。VideoNSA可以帮助医生更高效地分析医疗视频，如内镜检查录像或手术视频，自动标识可能的病变区域或关键操作步骤。这不仅能提高诊断效率，还能为医学培训提供智能化的辅助工具。

在自动驾驶领域，VideoNSA的高效视频理解能力可以帮助车载系统更好地理解复杂的交通场景，在有限的计算资源下做出更准确的驾驶决策。这对于实现真正实用的自动驾驶技术具有重要意义。

从更广泛的社会影响来看，VideoNSA的出现标志着AI视频理解技术从"奢侈品"向"必需品"的转变。通过大幅降低计算成本，这项技术使得高质量的视频AI服务能够更广泛地普及，让更多的个人和中小企业也能享受到先进AI技术带来的便利。

说到底，VideoNSA不仅仅是一项技术突破，更是向着更加智能和高效的AI系统迈出的重要一步。它证明了有时候"少即是多"的哲学，通过巧妙的设计，我们可以用更少的资源实现更好的效果。这种思路对于整个AI领域的可持续发展具有重要启发意义。

随着这项技术的进一步发展和应用，我们可以期待看到更多创新的视频AI应用出现，从而真正实现让AI理解视频内容如人类般自然和高效的目标。对于普通用户来说，这意味着未来我们将能够享受到更加智能、更加个性化的视频服务，而这一切的背后，正是像VideoNSA这样的底层技术创新在默默支撑。

Q&A

Q1：VideoNSA是什么？它与传统的视频AI有什么不同？

A：VideoNSA是由加州大学圣迭戈分校开发的新型AI视频理解模型。与传统方法需要对视频的每一帧都进行详细分析不同，VideoNSA采用了"智能选择"策略，就像一个经验丰富的编辑师只关注最重要的片段。它通过三种不同的注意力机制协同工作，只用传统方法3.6%的计算资源就能达到更好的理解效果。

Q2：VideoNSA能处理多长的视频？性能如何？

A：VideoNSA可以处理超过10000帧的视频内容，相当于几个小时的视频长度。在多项测试中表现优异：长视频理解任务得分60.0，时间推理任务得分26.5（排名第一），空间理解任务得分36.1。最重要的是，它在处理128K令牌的视频时，只需要约3亿次计算，而传统方法需要82亿次。

Q3：VideoNSA的三重注意机制是如何工作的？

A：VideoNSA采用了三个协同工作的"分支"：压缩分支负责合并相似内容、提取代表性信息；选择分支像艺术鉴赏家一样挑选最重要的片段进行详细分析；滑动窗口分支专注于最新发生的事件。三个分支通过智能的"导演"根据任务需求动态调整工作比重，实现最优的视频理解效果。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.