网易首页 > 网易号 > 正文 申请入驻

浙大西湖Ant团队:让大语言模型用"听"来优化"看"的压缩技术

0
分享至


这篇由浙江大学、西湖大学和蚂蚁集团联合发表的开创性研究,发表于2025年11月的arXiv平台(论文编号:arXiv:2511.14582v1),为多模态大语言模型的效率提升开辟了全新道路。该研究的第一作者是来自浙江大学的陶科达,共同通讯作者包括西湖大学的王焕教授和蚂蚁集团的刘健博士。

在当今AI迅速发展的时代,全模态大语言模型(OmniLLM)就像一位能够同时看、听、理解的全能助手,它们能够同时处理视频和音频信息,为用户提供更加丰富的多媒体理解能力。然而,这些强大的AI助手面临着一个严重的"消化不良"问题:当它们同时处理大量的视频和音频数据时,就像一个人试图同时阅读十本书一样,运行速度会变得异常缓慢,内存消耗也会急剧增加。

研究团队发现了一个有趣的现象:在人类观看视频时,我们往往通过听觉来判断哪些画面最重要。比如当我们听到激动的音乐时,会自然地期待看到精彩的画面;当听到平静的背景音时,可能对应的画面相对平淡。基于这个洞察,研究团队提出了一种名为OmniZip的创新方法,这是第一个专门为全模态大语言模型设计的音频引导式动态令牌压缩框架。

OmniZip的核心思想可以比作一位经验丰富的影片剪辑师。这位剪辑师有一个独特的工作方法:他首先仔细聆听整段音频,根据音频的重要性和信息密度来判断哪些时间段最值得保留详细的视频内容,哪些时间段的视频可以适当精简。当音频显示某个时间段信息量很大时(比如有重要对话或关键音效),剪辑师会保留更多该时间段的视频细节;而当音频相对平淡时,就会大胆削减对应时间段的视频内容。

这种方法的巧妙之处在于它充分利用了音频和视频之间的天然同步关系。在现实世界中,声音和画面往往是紧密配合的:精彩的画面通常伴随着丰富的声音信息,而平淡的画面往往对应着单调的背景音。OmniZip正是抓住了这一规律,通过"听"来指导"看"的精简过程。

一、音频主导的发现:为什么"听"比"看"更重要

研究团队首先进行了一项深入的注意力分析,就像研究人类大脑在处理多媒体信息时的工作模式一样。他们发现了一个令人意外但合理的现象:在全模态大语言模型中,音频令牌(可以理解为音频信息的小片段)获得的关注度远远超过视频令牌。

这种现象可以用一个生动的比喻来理解:想象你在一个嘈杂的聚会上,虽然眼前有各种视觉刺激,但你的注意力主要集中在声音上——谁在说话、说了什么、语调如何变化。同样地,AI模型在处理音视频内容时,也表现出对音频信息的明显偏好。

具体来说,研究团队发现模型的注意力图呈现出规律性的垂直条纹模式,这些条纹恰好对应着音频令牌的位置。这意味着无论在哪个时间窗口,音频信息都能获得更多的"关注",而许多视频令牌却接收到很少的注意力,暗示着它们存在较大的冗余性。

更有趣的是,研究团队还发现了一个重要的时间局部性现象。音频和视频令牌之间的相互关注主要集中在同一时间窗口内,就像人们在对话时,声音和嘴唇动作会自然同步一样。跨时间窗口的注意力会快速衰减,这表明模型在处理多媒体信息时具有很强的短期记忆特征。

这些发现为OmniZip的设计奠定了坚实的理论基础。既然音频信息如此重要,而视频信息存在较多冗余,那么就可以利用音频的重要性来指导视频内容的精简。同时,由于注意力主要集中在时间窗口内部,压缩策略也应该以时间窗口为单位进行设计。

二、OmniZip的三重奏:音频选择、锚点整合与动态压缩

OmniZip的工作流程就像一个精心设计的三步舞蹈,每一步都有其独特的作用和精妙的设计。

第一步是音频令牌的精心挑选。这个过程类似于一位音乐制作人从录音中挑选最精彩的片段。OmniZip会分析音频编码器最后一层的注意力分布,计算每个音频令牌从其他所有音频令牌那里获得的平均注意力得分。那些获得更多关注的音频令牌被认为是更重要的信息载体,就像乐曲中的主旋律一样,会被优先保留。

第二步是音频锚点的巧妙整合。这一步解决了一个精妙的平衡问题:既要保持音频信息的完整性,又要实现有效的压缩。OmniZip的做法是在非重要的音频令牌中均匀采样一些"锚点",然后基于跨模态相似性选择与这些锚点最相关的音频片段进行合并。这个过程就像整理照片时,你会保留最重要的照片,然后将相似的照片整理成相册,既保持了关键信息,又节省了存储空间。

第三步是音频引导的动态视频压缩,这是整个系统最具创新性的部分。OmniZip会根据每个时间窗口的音频保留率来计算该窗口的信息密度。保留率高的时间窗口被认为是信息密集的重要时段,对应的视频令牌会得到相对保守的压缩;而保留率低的时间窗口则被视为信息稀疏的平淡时段,对应的视频内容可以接受更积极的压缩。

这种动态分配策略的巧妙之处在于它始终保持全局压缩预算的平衡。就像一个精明的家庭主妇在分配家庭支出一样,重要的地方多花一些,不重要的地方就省一些,但总体预算始终控制在设定范围内。通过这种方式,OmniZip能够在大幅减少令牌数量的同时,最大程度地保留关键信息。

三、ISTC模块:交替优化的时空压缩技术

为了进一步优化视频令牌的压缩效果,研究团队开发了一个名为ISTC(交替时空压缩)的专门模块。这个模块的设计理念可以用整理书架的比喻来理解:你既可以按时间顺序整理(把同一年的书放在一起),也可以按主题分类整理(把同类型的书放在一起)。ISTC模块就是交替使用这两种整理方法来优化视频内容。

ISTC模块的工作方式是以四帧为基本单位进行处理。它首先会计算相邻帧之间相同位置像素的余弦相似度,这就像比较两张连续照片中同一个物体的变化程度。如果某个位置的像素在相邻帧之间变化很小,说明这部分信息存在时间上的冗余,可以通过合并相似的令牌来减少数据量。

对于帧内的空间冗余,ISTC模块采用了一种叫做密度峰值聚类的方法。这种方法的原理类似于在人群中寻找"意见领袖":系统会计算每个视频令牌的局部密度(它周围有多少相似的令牌)以及它到最近的更高密度令牌的距离。那些既有高密度又相对独立的令牌被认为是重要的"代表",会被优先保留;而那些密度低或与其他重要令牌过于相似的令牌则会被精简掉。

这种交替的时空压缩策略确保了压缩过程既不会在时间维度上过度简化(避免丢失关键的动作变化),也不会在空间维度上过度精简(保持画面的关键细节)。就像一个经验丰富的摄像师在拍摄时既要把握好时机,又要选择好角度一样,ISTC模块在两个维度上都保持着精确的平衡。

四、实验验证:数字背后的惊人表现

为了验证OmniZip的实际效果,研究团队在多个权威的音视频理解基准测试上进行了全面的实验。这些测试就像给AI助手进行的"全科体检",涵盖了从事件定位到内容计数等各种能力的考核。

实验结果令人印象深刻。在保留仅45%令牌的情况下,OmniZip能够维持99.1%的原始准确率,这意味着用不到一半的计算资源就能获得几乎相同的性能表现。如果用跑车来比喻,这就相当于油耗减半但速度基本不变的技术突破。

在推理速度方面,OmniZip展现出了显著的优势。在7B参数的Qwen2.5-Omni模型上,OmniZip能够实现3.42倍的预填充阶段加速,整体推理速度提升1.42倍。同时,内存消耗降低了约10GB,这对于实际部署来说是一个重要的改善。毕竟,在真实应用中,计算资源的成本和可获得性往往是决定AI技术能否大规模应用的关键因素。

与其他压缩方法的对比显示了OmniZip的独特优势。传统的随机压缩方法会导致显著的性能下降,而专门针对视频设计的FastV方法虽然能保持一定的性能,但由于需要计算完整的注意力矩阵,经常会出现内存溢出的问题,在大模型上甚至无法运行。相比之下,OmniZip不仅性能优秀,还具有很好的实际可操作性。

特别值得一提的是,OmniZip在不同规模的模型上都展现出了稳定的表现。在3B参数的较小模型上,它能实现3.27倍的预填充阶段加速;在7B参数的较大模型上,加速效果更加明显。这表明OmniZip的设计具有很好的可扩展性,能够适应不同规模的应用需求。

五、技术细节:无需训练的即插即用设计

OmniZip最吸引人的特点之一是它完全不需要额外的训练过程,这就像一个可以直接安装使用的软件插件一样简单。这种设计大大降低了技术门槛和应用成本,使得研究者和开发者可以直接在现有的模型上应用这项技术。

在技术实现上,OmniZip采用了巧妙的设计来避免一些常见的技术障碍。比如,它不需要访问大语言模型内部的注意力矩阵,这意味着它可以与FlashAttention等现代优化技术完美兼容,不会引入额外的计算或内存开销。这种兼容性对于实际应用来说非常重要,因为大多数现代AI系统都依赖这些优化技术来提高效率。

OmniZip的动态压缩率分配算法也体现了设计的精巧。系统会根据预设的上下限范围动态调整每个时间窗口的压缩率,然后通过标准化过程确保总体压缩率严格符合设定的目标。这种设计既保证了压缩效果的可预测性,又提供了足够的灵活性来适应内容的变化。

在参数设置方面,研究团队也进行了细致的调优。比如,对于音频锚点整合中的合并令牌数量G,他们发现在音频为主导的任务中应该设置较大的值,而在音频视频相对平衡的任务中较小的值效果更好。这种根据任务特点进行调整的灵活性,使得OmniZip能够在不同的应用场景中都发挥出最佳效果。

六、广泛影响:从学术研究到实际应用的桥梁

OmniZip的意义远远超出了技术本身,它为全模态大语言模型的实际应用开辟了新的可能性。在当前AI技术快速发展的背景下,如何平衡模型性能与计算效率一直是制约技术普及的关键问题。OmniZip提供了一个优雅的解决方案,证明了通过巧妙的设计可以在几乎不损失性能的情况下大幅提升效率。

这项技术的应用前景非常广阔。在视频会议和在线教育领域,OmniZip可以帮助实时AI助手更高效地处理音视频内容,提供更流畅的交互体验。在内容创作和媒体制作领域,它可以加速视频分析和自动编辑的处理速度。在智能监控和安防领域,它可以让系统能够实时处理更多路的音视频流,提高监控效率。

从技术发展的角度来看,OmniZip开创了一个新的研究方向:跨模态信息引导的智能压缩。这种利用不同模态信息之间内在关联来优化处理效率的思路,可能会启发更多类似的创新。比如,未来可能会出现利用文本信息来指导图像压缩,或者利用手势信息来指导语音处理的技术。

研究团队也坦诚地讨论了当前技术的局限性。OmniZip主要针对离线处理场景设计,对于在线流式处理还需要进一步优化。此外,不同任务对音频和视频信息的依赖程度不同,如何自动适应这种变化也是未来需要解决的问题。不过,这些挑战同时也为后续研究指明了方向。

说到底,OmniZip代表了AI技术发展中一个重要的里程碑。它不仅解决了全模态大语言模型面临的效率问题,更重要的是展示了如何通过深入理解不同模态信息的内在关系来设计更智能的算法。这种"听懂了就能更好地看"的设计哲学,可能会在AI技术的发展中产生更深远的影响。随着这项技术的进一步完善和推广,我们有理由期待全模态AI助手能够更早地走进每个人的日常生活,为我们提供更加智能和高效的服务。这项来自浙大、西湖大学和蚂蚁集团联合团队的研究,无疑为这一美好前景的实现迈出了坚实的一步。

Q&A

Q1:OmniZip技术如何通过音频来指导视频压缩?

A:OmniZip就像一位经验丰富的影片剪辑师,它首先分析音频内容的重要性和信息密度,然后根据音频的重要程度来决定对应时间段的视频保留多少细节。当音频显示某个时段信息量很大时,会保留更多该时段的视频内容;当音频相对平淡时,就大胆削减对应的视频内容。

Q2:OmniZip压缩技术能提升多少处理速度?

A:在7B参数的Qwen2.5-Omni模型上,OmniZip能实现3.42倍的预填充阶段加速,整体推理速度提升1.42倍,同时内存消耗降低约10GB。更重要的是,在保留仅45%令牌的情况下,仍能维持99.1%的原始准确率。

Q3:普通开发者能直接使用OmniZip技术吗?

A:可以的。OmniZip最大的优势是完全不需要额外的训练过程,就像一个可以直接安装使用的软件插件。它可以与FlashAttention等现代优化技术完美兼容,研究者和开发者可以直接在现有的全模态大语言模型上应用这项技术。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
徐明联手本拉登家族,400亿硬刚中石油,帝国崩塌

徐明联手本拉登家族,400亿硬刚中石油,帝国崩塌

圆梦的小老头
2026-04-17 23:52:41
死了这条心!人民日报表态:中国不会救菲律宾,马科斯投机到头了

死了这条心!人民日报表态:中国不会救菲律宾,马科斯投机到头了

王姐懒人家常菜
2026-04-23 18:41:11
问政四川丨拔两株薄荷草被罚100元,成都公园对游客高额索赔引发争议,记者调查

问政四川丨拔两株薄荷草被罚100元,成都公园对游客高额索赔引发争议,记者调查

新浪财经
2026-04-23 15:50:32
核风险升高!3艘俄舰被击沉,局势触碰普京底线,美官员集体发声

核风险升高!3艘俄舰被击沉,局势触碰普京底线,美官员集体发声

云上乌托邦
2026-04-22 20:08:41
媒体人:澳系教练在联赛中的调整能力不行,因为澳超压力小

媒体人:澳系教练在联赛中的调整能力不行,因为澳超压力小

懂球帝
2026-04-23 17:53:05
太恶劣!上海三甲医院这一现象不正常,紧急报警!多人被刑拘!

太恶劣!上海三甲医院这一现象不正常,紧急报警!多人被刑拘!

环球网资讯
2026-04-23 11:11:39
美刚宣布 "大胜",伊朗就从地下挖出整个“司令部”,白宫懵了

美刚宣布 "大胜",伊朗就从地下挖出整个“司令部”,白宫懵了

新动察
2026-04-22 10:12:07
全面压制!美日菲七国军演拉开帷幕,中国双航母战斗群冲向南海!

全面压制!美日菲七国军演拉开帷幕,中国双航母战斗群冲向南海!

阿龙聊军事
2026-04-22 15:02:44
别再尬演“万人迷”!满脸褶子疙瘩、鼻孔朝天,这皮囊能迷倒谁?

别再尬演“万人迷”!满脸褶子疙瘩、鼻孔朝天,这皮囊能迷倒谁?

雨月海星
2026-04-18 05:25:40
打蛇打七寸!中国全面断供开始,日本多行业停摆,高市真慌了

打蛇打七寸!中国全面断供开始,日本多行业停摆,高市真慌了

来科点谱
2026-04-19 07:17:32
李娜出家已近29年:80岁老母亲含泪陪她住寺庙,如今她们过得怎样

李娜出家已近29年:80岁老母亲含泪陪她住寺庙,如今她们过得怎样

阿库财经
2026-04-22 19:12:44
特朗普延长停火竟在“等他”?迟迟未露面的伊朗新最高领袖将对美方最新提议作出回应

特朗普延长停火竟在“等他”?迟迟未露面的伊朗新最高领袖将对美方最新提议作出回应

红星新闻
2026-04-23 12:38:15
中方不伺候了!对荷光刻机优待全部取消,450亿芯片不做了!

中方不伺候了!对荷光刻机优待全部取消,450亿芯片不做了!

混沌录
2026-04-22 16:08:10
一周抓了至少5个校长,这是教育界要变天的信号吗?

一周抓了至少5个校长,这是教育界要变天的信号吗?

走读新生
2026-04-23 16:21:16
古偶泛滥的2026,终于等来一部“真历史剧”!央视一出手就是王炸

古偶泛滥的2026,终于等来一部“真历史剧”!央视一出手就是王炸

娱乐圈十三太保
2026-04-21 17:16:54
史上首次!特朗普请求伊朗:放过这8位女性,美4位前总统表态

史上首次!特朗普请求伊朗:放过这8位女性,美4位前总统表态

动漫里的童话
2026-04-23 17:27:56
乌度卡拒担责引休媒炮轰:史无前例惨败 远逊JJ无战术 该被解雇

乌度卡拒担责引休媒炮轰:史无前例惨败 远逊JJ无战术 该被解雇

颜小白的篮球梦
2026-04-23 07:25:20
大家提前做好准备吧!

大家提前做好准备吧!

tuzhuxi
2026-04-22 18:53:19
歼10直飞伊朗,美以都没敢拦!谁也没想到,背后藏着一个天大的局

歼10直飞伊朗,美以都没敢拦!谁也没想到,背后藏着一个天大的局

寻墨阁
2026-04-20 18:51:46
日韩股市均创新高 日经225指数首次突破6万点大关

日韩股市均创新高 日经225指数首次突破6万点大关

财联社
2026-04-23 08:14:21
2026-04-23 21:44:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
3465文章数 171关注度
往期回顾 全部

科技要闻

马斯克喊出"史上最大产品",但量产难预测

头条要闻

男子被境外虚拟货币黑平台骗30万 躺平不上班满头白发

头条要闻

男子被境外虚拟货币黑平台骗30万 躺平不上班满头白发

体育要闻

莱斯特城降入英甲,一场亏麻了的豪赌

娱乐要闻

王大陆因涉黑讨债被判 女友也一同获刑

财经要闻

关于AI算力链"瓶颈" 这是高盛的最新看法

汽车要闻

令人惊艳的奇瑞车 风云A9可不只是样子货

态度原创

教育
亲子
游戏
数码
公开课

教育要闻

春风拾书香!看首都校园里的悦读画卷

亲子要闻

我宣布:我再也不怕喝牛奶了!

PS输麻了?帮对手狂赚数亿美元 再也不需死守独占

数码要闻

全球首款SGS卓越可靠性认证!荣耀笔记本X16 Plus评测:大屏轻薄本竟如此抗造

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版