网易首页 > 网易号 > 正文 申请入驻

UC圣迭戈分校研发新模型:让AI视频理解媲美人类,只需4%计算资源

0
分享至


加州大学圣迭戈分校的Song Enxin等研究团队最近发布了一项令人瞩目的研究成果。这篇名为"VideoNSA: Native Sparse Attention Scales Video Understanding"的论文发表于2025年,详细介绍了一种革命性的AI视频理解技术。有兴趣深入了解的读者可以通过论文编号arXiv:2510.02295v1查询完整论文。

现在的AI视频理解模型面临着一个棘手问题,就像一个人试图同时观看上百个电视频道一样。当视频变长时,AI需要处理的信息量呈指数级增长,导致计算成本飞升。传统方法就像强制AI把每一帧画面都仔细分析,这样做虽然全面,但效率低下,就好比让一个人把整部电影的每个镜头都逐帧分析,既费时又费力。

为了解决这个问题,研究团队开发了VideoNSA模型,这就像给AI配备了一双"智能眼镜"。这副眼镜能够自动识别视频中最重要的部分进行重点关注,而对不太重要的部分采用"扫一眼"的策略。更令人惊讶的是,这种方法不仅没有降低理解准确度,反而在某些任务上表现更好,同时只使用了传统方法3.6%的计算资源。

这种技术的核心创新在于采用了"混合注意机制",可以比作一个经验丰富的电影剪辑师。当处理一部长达数小时的原始素材时,剪辑师不会平均分配注意力,而是会根据内容的重要性采用不同策略。对于关键情节,他会仔细分析每个细节;对于过渡镜头,他可能只是快速浏览;而对于最近发生的场景,他会保持高度关注。VideoNSA正是模仿了这种人类的智能处理方式。

一、革命性的三重注意机制

VideoNSA的核心就像一个配备三种不同镜头的专业摄像团队。每种镜头都有自己的专长,配合工作来捕捉视频的精华。

第一个"镜头"叫做压缩分支,它的作用就像一个善于概括的速记员。当面对大量连续的视频帧时,它会将相似的内容进行智能合并,提取出最具代表性的信息。想象你在观看一场足球比赛,压缩分支会将球员连续跑动的多个画面合并成一个关键动作,既保留了重要信息,又大大减少了需要处理的数据量。

第二个"镜头"是选择分支,它扮演着挑剔的艺术鉴赏家角色。这个分支会对所有视频片段进行重要性评分,然后只选择那些最关键、最有信息量的部分进行详细分析。就像一个经验丰富的新闻编辑,能够从大量素材中迅速识别出最有新闻价值的片段。在足球比赛的例子中,选择分支会自动锁定进球瞬间、关键传球或精彩扑救等高光时刻。

第三个"镜头"是滑动窗口分支,它就像一个专注于"此时此刻"的现场解说员。这个分支始终保持对最新发生事件的高度关注,确保AI不会错过任何实时的重要变化。它维持着对最近发生事件的详细记忆,就像人类观看视频时总是对刚刚看到的内容印象最深刻一样。

最巧妙的设计是这三个分支并不是各自独立工作,而是通过一个智能的"导演"来协调配合。这个导演会根据当前的任务需求,动态调整三个分支的工作比重。比如在分析体育比赛时,可能会让选择分支占主导地位来捕捉精彩瞬间;而在分析日常生活视频时,可能会更依重压缩分支来处理大量的平凡时刻。

二、突破性的训练方法与数据处理

研究团队在模型训练上采用了精心设计的策略,这个过程就像培养一个多才多艺的视频分析专家。他们使用了包含21.6万个视频问答对的训练数据集,这些数据经过精心筛选,每个视频都保持4fps的采样率,包含350-550帧的内容。

训练过程中,团队采用了端到端的学习方法,这意味着整个系统的各个组件都在同时学习和优化。就像训练一个管弦乐队,不仅每个乐手要练好自己的部分,整个乐队还要学会如何协调配合,产生和谐的音乐。在VideoNSA中,三个注意力分支不仅要各自提升性能,还要学会如何最佳地组合工作。

为了确保模型能够处理真实世界的复杂视频,研究团队设置了严格的训练限制。他们将每帧的最大像素数限制在50,176,最大上下文长度限制在36K个令牌。这种限制迫使模型学会更加高效地利用有限的计算资源,就像在有限的画布上创作精美的艺术作品一样。

整个训练过程消耗了4600个H100 GPU小时,这相当于让一台高性能计算机连续工作约半年的时间。虽然听起来投入巨大,但考虑到这种一次训练、终身受益的特性,这个投入是非常值得的。训练完成后的模型不仅能够处理训练时见过的视频类型,还展现出了很强的泛化能力,能够应对各种不同类型的视频内容。

三、令人瞩目的性能表现

VideoNSA在多项视频理解任务上的表现可以用"出乎意料的优秀"来形容。在长视频理解任务中,这个模型就像一个永远不会疲倦的观影者,即使面对长达数小时的视频内容,也能保持高度的理解准确率。

在LongVideoBench测试中,VideoNSA取得了60.0分的成绩,超过了大多数传统的密集注意力方法。更令人印象深刻的是,在处理超长视频的LongTimeScope任务上,模型得分达到了44.4分,显著优于其他方法。这就像一个学生不仅能够理解短篇文章,还能够准确把握长篇小说的主要情节和细节。

在时间推理任务上,VideoNSA表现得像一个经验丰富的侦探,能够准确把握事件的前因后果和时间顺序。在Tomato基准测试中,该模型取得了26.5分的成绩,在所有对比方法中排名第一。这个分数虽然看起来不高,但要知道视频中的时间推理是一个极其复杂的任务,需要模型不仅理解单个画面,还要理解画面之间的逻辑关系。

更让人惊喜的是,在空间理解任务上,VideoNSA同样表现出色。在VSIBench测试中获得36.1分,证明了即使采用稀疏注意机制,模型依然能够准确理解视频中物体的空间位置和相互关系。这就好比一个人即使只是快速扫视一个房间,也能准确记住家具的摆放位置。

最关键的是效率优势。传统方法在处理128K令牌长度的视频时,需要进行约82亿次注意力计算,而VideoNSA只需要约3亿次,相当于节省了96.4%的计算量。这种效率提升不仅意味着更低的能耗和成本,也使得在普通硬件上运行高质量视频理解成为可能。

四、深度技术分析与创新突破

VideoNSA的技术架构建立在Qwen2.5-VL-7B模型基础之上,但加入了革命性的稀疏注意机制。这个基础模型就像一个已经受过良好教育的学生,而VideoNSA的创新就是给这个学生配备了更智能的学习方法。

在注意力分配策略上,研究团队发现了一个有趣的现象,随着网络层次的加深,不同注意力分支的重要性会发生动态变化。在浅层网络中,三个分支的贡献相对均衡,就像三个合作伙伴平分工作量。但在深层网络中,压缩分支逐渐占据主导地位,而选择分支和滑动窗口分支的影响力逐渐减弱。这种变化反映了模型学习过程中的智能适应性,深层网络更关注高层次的语义理解,而不需要太多细节信息。

研究团队还发现了注意力权重的一个独特特性。即使在稠密注意力设置下,经过稀疏训练的权重依然能够提供性能提升,这说明稀疏训练过程确实让模型学会了更有效的信息处理方式。这就像一个人学会了速读技巧后,即使回到正常阅读速度,理解效率也会有所提升。

在处理注意力沉没问题上,VideoNSA展现出了独特的优势。传统的transformer模型常常会将过多注意力分配给序列开头的几个令牌,形成所谓的"注意力沉没"现象。VideoNSA通过动态门控机制有效缓解了这个问题,使得注意力分配更加均匀合理。压缩分支的沉没比例为1.2%,选择分支仅为0.1%,而整体模型的沉没比例控制在0.3%,远低于传统方法。

五、扩展性与泛化能力验证

VideoNSA最令人印象深刻的特性之一是其出色的扩展能力。虽然模型在36K令牌长度上进行训练,但它能够成功处理长达128K令牌的视频内容,相当于能处理超过10000帧的视频。这种扩展能力就像一个学会了基本数学运算的学生,能够处理比训练时更复杂的数学问题。

在不同的上下文分配策略测试中,研究团队发现了一个有趣的规律,不同任务对帧率和每帧令牌数有着不同的偏好。长视频理解任务更倾向于为每帧分配更多令牌,以获得更好的空间细节;而时间推理任务则更偏好增加帧数,以获得更好的时间覆盖。这种任务依赖性为未来的优化提供了重要指导。

在注意力预算分配的实验中,VideoNSA展现出了惊人的效率。研究团队发现,使用仅仅3.6%的完整注意力预算,模型就能达到最佳性能。这个发现颠覆了传统认知,证明了"更多注意力等于更好性能"的观念并不总是正确的。就像一个高效的管理者,知道把精力集中在最重要的事情上比平均分配精力更有效。

更令人惊讶的是,即使将注意力预算进一步削减到1.8%,模型在某些任务上的性能下降也很有限。这意味着VideoNSA不仅在理论上具有优势,在实际部署中也能显著降低硬件要求和运行成本。

六、实际应用前景与影响

VideoNSA的突破性进展为视频AI应用开启了全新的可能性。在智能监控领域,这项技术能够让安防系统更加高效地处理大量监控视频,自动识别异常行为而不需要昂贵的硬件设备。传统的监控系统就像配备了无数双眼睛但没有大脑的守卫,而VideoNSA则像是给这些系统配备了智能的大脑,能够理解和分析所看到的内容。

在娱乐和媒体行业,VideoNSA可以revolutionize内容创作和编辑流程。视频编辑师可以利用这项技术快速定位精彩片段,自动生成视频摘要,甚至进行智能内容推荐。这就像拥有了一个永远不知疲倦的助理编辑,能够在短时间内处理大量素材并找出最有价值的内容。

在教育领域,这项技术能够为在线教育平台提供智能化的课程分析和个性化推荐。系统可以分析学生的学习视频,理解哪些部分最难理解,哪些概念需要重复讲解,从而为每个学生定制最适合的学习路径。

医疗影像分析是另一个极具潜力的应用领域。VideoNSA可以帮助医生更高效地分析医疗视频,如内镜检查录像或手术视频,自动标识可能的病变区域或关键操作步骤。这不仅能提高诊断效率,还能为医学培训提供智能化的辅助工具。

在自动驾驶领域,VideoNSA的高效视频理解能力可以帮助车载系统更好地理解复杂的交通场景,在有限的计算资源下做出更准确的驾驶决策。这对于实现真正实用的自动驾驶技术具有重要意义。

从更广泛的社会影响来看,VideoNSA的出现标志着AI视频理解技术从"奢侈品"向"必需品"的转变。通过大幅降低计算成本,这项技术使得高质量的视频AI服务能够更广泛地普及,让更多的个人和中小企业也能享受到先进AI技术带来的便利。

说到底,VideoNSA不仅仅是一项技术突破,更是向着更加智能和高效的AI系统迈出的重要一步。它证明了有时候"少即是多"的哲学,通过巧妙的设计,我们可以用更少的资源实现更好的效果。这种思路对于整个AI领域的可持续发展具有重要启发意义。

随着这项技术的进一步发展和应用,我们可以期待看到更多创新的视频AI应用出现,从而真正实现让AI理解视频内容如人类般自然和高效的目标。对于普通用户来说,这意味着未来我们将能够享受到更加智能、更加个性化的视频服务,而这一切的背后,正是像VideoNSA这样的底层技术创新在默默支撑。

Q&A

Q1:VideoNSA是什么?它与传统的视频AI有什么不同?

A:VideoNSA是由加州大学圣迭戈分校开发的新型AI视频理解模型。与传统方法需要对视频的每一帧都进行详细分析不同,VideoNSA采用了"智能选择"策略,就像一个经验丰富的编辑师只关注最重要的片段。它通过三种不同的注意力机制协同工作,只用传统方法3.6%的计算资源就能达到更好的理解效果。

Q2:VideoNSA能处理多长的视频?性能如何?

A:VideoNSA可以处理超过10000帧的视频内容,相当于几个小时的视频长度。在多项测试中表现优异:长视频理解任务得分60.0,时间推理任务得分26.5(排名第一),空间理解任务得分36.1。最重要的是,它在处理128K令牌的视频时,只需要约3亿次计算,而传统方法需要82亿次。

Q3:VideoNSA的三重注意机制是如何工作的?

A:VideoNSA采用了三个协同工作的"分支":压缩分支负责合并相似内容、提取代表性信息;选择分支像艺术鉴赏家一样挑选最重要的片段进行详细分析;滑动窗口分支专注于最新发生的事件。三个分支通过智能的"导演"根据任务需求动态调整工作比重,实现最优的视频理解效果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拔掉高德网线!比亚迪这招“釜底抽薪”,砸了谁的饭碗?

拔掉高德网线!比亚迪这招“釜底抽薪”,砸了谁的饭碗?

蓝色海边
2026-03-30 12:14:59
顶级军事天才有多恐怖?1万8千宋军残兵,硬撼20万金军精锐

顶级军事天才有多恐怖?1万8千宋军残兵,硬撼20万金军精锐

鹤羽说个事
2026-03-30 22:45:02
雄鹿队波蒂斯谈马刺文班亚马的MVP之争:非亚历山大和约基奇莫属

雄鹿队波蒂斯谈马刺文班亚马的MVP之争:非亚历山大和约基奇莫属

好火子
2026-03-31 04:43:47
阔别国家队10个月 全红婵并未退役:是我主动离开的 因无法坚持了

阔别国家队10个月 全红婵并未退役:是我主动离开的 因无法坚持了

风过乡
2026-03-30 12:52:06
加兰在快船生涯的开局表现令人印象深刻,甚至连伦纳德也为之折服

加兰在快船生涯的开局表现令人印象深刻,甚至连伦纳德也为之折服

好火子
2026-03-31 04:33:20
A股:要开始准备了!明天(3月31日)的市场会这样走

A股:要开始准备了!明天(3月31日)的市场会这样走

风风顺
2026-03-31 03:10:03
一女子打赏男主播后觉得下头要退钱,聊天记录曝光:尺度真大

一女子打赏男主播后觉得下头要退钱,聊天记录曝光:尺度真大

谈史论天地
2026-03-30 08:59:23
7天6板大牛股,最新公告!

7天6板大牛股,最新公告!

证券时报e公司
2026-03-31 07:59:31
我嫁给不能生育的迪拜富商,不到3个月我竟孕吐不止,医生:恭喜

我嫁给不能生育的迪拜富商,不到3个月我竟孕吐不止,医生:恭喜

千秋文化
2026-03-25 21:42:08
澳门世界杯:公园大妈打法,64岁选手吓袁嘉楠一跳,球拍异形

澳门世界杯:公园大妈打法,64岁选手吓袁嘉楠一跳,球拍异形

真理是我亲戚
2026-03-30 21:16:21
富人的生活能有多夸张?网友:根本找不到心动还门当户对的人

富人的生活能有多夸张?网友:根本找不到心动还门当户对的人

带你感受人间冷暖
2026-03-27 00:05:14
公牛官宣裁掉艾维!对球队做出有害行为 此前曾公开承认患抑郁症

公牛官宣裁掉艾维!对球队做出有害行为 此前曾公开承认患抑郁症

罗说NBA
2026-03-31 05:44:23
内娱女神刘诗诗惊艳蜕变?饱满身姿暗藏极致女人味,这身材太绝?

内娱女神刘诗诗惊艳蜕变?饱满身姿暗藏极致女人味,这身材太绝?

娱乐领航家
2026-03-10 22:00:04
对话张雪机车创始人张雪:为了用户安全,宁可损失10%的销量

对话张雪机车创始人张雪:为了用户安全,宁可损失10%的销量

极目新闻
2026-03-30 20:14:05
服了!李昱谆赛后只说了五个字,孙颖莎的球,到底转成了什么样?

服了!李昱谆赛后只说了五个字,孙颖莎的球,到底转成了什么样?

曹老师评球
2026-03-30 21:04:14
田曦薇直播勒痕事件:美与健康的反思

田曦薇直播勒痕事件:美与健康的反思

原梦叁生
2026-03-31 02:20:16
北京公园打花被开除的保洁头发花白,他也是会错领导意

北京公园打花被开除的保洁头发花白,他也是会错领导意

映射生活的身影
2026-03-30 20:07:18
好友曝张雪峰遗容状态!化了妆像欧巴,黑眼圈遮不住,薛之谦发文

好友曝张雪峰遗容状态!化了妆像欧巴,黑眼圈遮不住,薛之谦发文

阿纂看事
2026-03-28 18:44:03
73比83爆冷输球!女篮霸主惨遭淘汰无缘四强:5大国手成摆设了?

73比83爆冷输球!女篮霸主惨遭淘汰无缘四强:5大国手成摆设了?

篮球快餐车
2026-03-31 02:11:55
16GB+1TB!新机官宣:3月30日,全新发布上市!

16GB+1TB!新机官宣:3月30日,全新发布上市!

科技堡垒
2026-03-30 11:13:51
2026-03-31 08:27:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7805文章数 556关注度
往期回顾 全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

伊朗批准对霍尔木兹海峡征收通行费 特朗普设最后期限

头条要闻

伊朗批准对霍尔木兹海峡征收通行费 特朗普设最后期限

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

全红婵聊到体重哭了,每天只吃一顿饭

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

汽车要闻

限时12.58万起 银河星耀8远航家系列上市

态度原创

健康
游戏
教育
家居
军事航空

干细胞抗衰4大误区,90%的人都中招

CEO暗示《GTA6》定价?并非高达100美元!

教育要闻

文科无用论下985/211新传人就业调查。

家居要闻

东方法式美学 现代简约

军事要闻

第三艘航母出动数千名士兵抵达 美军大举增兵中东战场

无障碍浏览 进入关怀版