网易首页 > 网易号 > 正文 申请入驻

分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音

0
分享至



编辑|陈萍、Panda

继 SAM(Segment Anything Model)、SAM 3D 后,Meta 又有了新动作。

深夜,Meta 放出音频分割模型SAM Audio,其通过多模态提示(无论是文本、视觉,还是标注时间片段),让人们能够轻松地从复杂的音频混合中分离出任意声音,从而彻底改变音频处理方式。

SAM Audio 的核心是Perception Encoder Audiovisual(PE-AV),这是推动其实现业界领先性能的技术引擎。

PE-AV 基于 Meta 今年早些时候开源发布的 Perception Encoder 模型,能够支持更先进的计算机视觉系统,帮助人们完成日常任务,其中就包括声音检测。

你可以把 PE-AV 想象成帮助 SAM Audio 运作的耳朵,而 SAM Audio 则是完成音频分割任务的大脑。这两者的结合带来了许多令人兴奋的应用场景。

设想一下:一段乐队演出的录像,只需在画面中点击一下吉他,就能单独分离出吉他的声音。SAM Audio 还可以通过文本提示进行音频分离,比如从户外拍摄的视频中滤除嘈杂的交通噪声。此外,Meta 业内首创的时间跨度提示(span prompts),可以帮助人们一次性解决整段音频中的问题,例如在整期播客录音中去除持续出现的狗叫声等噪音。



Meta 表示,他们正在利用这些技术进展来构建下一代创意媒体工具。相关团队看到了大量潜在的应用场景,包括音频清理、背景噪声移除,以及其他能够帮助用户提升创造力的工具。此次,Meta 向社区开放了 SAM Audio 和 PE-AV,并同时发布了两篇研究论文,分别深入介绍了这两个模型的技术细节。此外,Meta 还发布了:

  1. SAM Audio-Bench:首个真实环境(in-the-wild)的音频分离基准;
  2. SAM Audio Judge:首个用于音频分离的自动评测模型。

Meta 还将上述所有成果整合进 Segment Anything Playground,这是一个全新的平台,任何人都可以在其中体验其最新模型。



地址:https://aidemos.meta.com/segment-anything

从即日起,用户可以从平台提供的音频和视频素材库中进行选择,或上传自己的内容,以探索 SAM Audio 的能力。Meta 表示,他们期待继续围绕 SAM 展开讨论 —— 而这一次,也将首次听到用户使用这些突破性新模型所创作出的内容。

用于音频分割的统一多模态提示模型

在此之前,音频分割和编辑一直是一个较为割裂的领域,市面上存在着多种只针对单一用途的工具。作为一个统一模型,SAM Audio 首次支持多种交互方式,这些方式与人们自然理解和思考声音的方式高度契合,并在多项任务上实现了业界领先的性能,包括在文本提示和视觉提示条件下的乐器、人声以及通用声音分离。

SAM Audio 能够在多样且真实的应用场景中稳定运行,支持使用文本、视觉以及时间维度的线索进行音频分割。这种方法为用户提供了对音频分离过程更精确、更直观的控制能力。

该模型提供了三种音频分割方式,这些方式既可以单独使用,也可以灵活组合,以实现所需的分割效果:

  1. 文本提示:输入「狗叫声」或「歌唱声」等描述,即可提取对应的特定声音。
  2. 视觉提示:在视频中点击正在说话的人或发声的物体,即可分离其对应的音频。
  3. 时间跨度提示(Span Prompting):业内首创的方法,允许用户标记目标声音出现的时间片段,从而实现更精确的音频分割。



  1. SAM Audio 论文地址:https://ai.meta.com/research/publications/sam-audio-segment-anything-in-audio/
  2. 代码地址:https://github.com/facebookresearch/sam-audio

模型架构

从核心技术上看,SAM Audio 采用了一种基于流匹配扩散 Transformer 的生成式建模框架。该架构接收一段混合音频以及一个或多个提示信息,将它们编码为共享表示,并生成目标音轨与剩余音轨。



在生成式建模框架之外,研究团队还为 SAM Audio 构建了一套完整的数据引擎,用于解决大规模、高质量音频分离数据难以获取的问题。该数据引擎融合了先进的音频混合技术、自动化的多模态提示生成方法,以及稳健的伪标签(pseudo-labeling)pipeline,从而生成贴近真实应用场景的训练数据,用于提升模型在现实世界中的表现。



该模型基于这一多样化的数据集进行训练,数据集涵盖了真实与合成的混合音频,内容横跨语音、音乐以及各类通用声音事件。先进的音频数据合成策略进一步提升了模型的鲁棒性,确保其在各种复杂环境中都能保持稳定、可靠的表现。

感知编码器(视听版)

第二个模型 PE-AV 是支撑 SAM Audio 效果表现的核心引擎。它为多个关键组件提供能力支持,包括主字幕生成模型以及 SAM Audio Judge(用于音频分离的自动评测模型)。



  1. PE-AV 论文地址:https://ai.meta.com/research/publications/pushing-the-frontier-of-audiovisual-perception-with-large-scale-multimodal-correspondence-learning/
  2. 代码地址:https://github.com/facebookresearch/perception_models

PE-AV 构建于 Meta Perception Encoder 之上,这是 Meta 于今年 4 月发布的一个开源模型。在此基础上,PE-AV 将先进的计算机视觉能力扩展到了音频领域。正如团队此前在 SAM 3 中将该模型适配用于目标检测一样,这一次又进一步扩展了其框架,使其能够对声音进行编码,从而支持 SAM Audio 对复杂音频混合的分离,并适应那些视觉上下文同样重要的真实世界应用场景。



通过提取逐帧级别的视频特征并将其与音频表示进行对齐,系统能够融合视听信息并为其加上精确的时间标注。这种设计使 SAM Audio 能够准确分离那些在视觉上有明确对应的声源,例如画面中的说话者或正在演奏的乐器,同时也可以结合场景上下文,对画面外发生的声音事件进行推断。

PE-AV 通过在精确的时间点上对齐视频帧与音频,提供了稳健且语义信息丰富的特征表示。这种时间对齐机制对于将所见与所闻进行匹配至关重要,是实现高精度多模态音频分离的基础。如果缺少这一能力,模型将无法获得足够细粒度的视觉理解,从而难以实现灵活且符合人类感知的音频分割效果。



从技术层面来看,PE-AV 融合了多种开源组件和前沿研究成果。除 Meta 的 Perception Encoder 之外,该模型还使用 PyTorchVideo 进行高效的视频处理,利用 FAISS 实现大规模语义搜索,并引入了对比学习框架来提升多模态表示能力。

PE-AV 基于超过 1 亿条视频进行训练,采用大规模多模态对比学习方法,训练数据来自开放数据集以及合成字幕生成流水线,从而确保了数据覆盖的广泛性和模型的强泛化能力。这些要素共同构建了一个灵活且高性能的基础架构,能够支持文本、视觉和时间维度的提示方式,适用于多种音频分离与理解任务。

SAM Audio Judge

Meta 还发布了SAM Audio Judge,这是一套全新的评测框架与模型,旨在以更加贴近人类感知方式来评估音频分割质量。与传统依赖参考音轨进行对比的评测指标不同,这些指标往往难以捕捉人类真实听感中的细微差别,SAM Audio Judge 提供了一种无需参考音频的客观评测方式,从感知层面对分割后的音频进行评价。

用户可以借助 SAM Audio Judge,在音乐、语音以及音效等不同场景下,对音频分离模型进行评测和比较,从而深入了解输出质量以及音频分离任务本身的内在难度。SAM Audio Judge 的构建始于对 9 个感知维度的定义,其中包括召回率(recall)、精确度(precision)、忠实度(faithfulness)和整体质量(overall quality)等。随后,研究团队依据详细的标注规范,采用五分制量表收集了大量人工评分数据。

在模型设计上,SAM Audio Judge 结合了先进的音频与文本编码器、Transformer 主干网络,以及一种独特的预训练策略,用于提升模型判断输出是否符合文本提示的能力。感知对齐的评测标准、严谨的数据采集流程与创新的模型架构相结合,为推动音频分离领域的发展提供了有力支撑。

SAM Audio-Bench

此外,为了在不同任务之间对模型性能进行一致且有意义的评估,该团队还构建了一个新基准:SAM Audio-Bench

这是一个全面的音频分离基准,覆盖了所有主要音频领域。包括语音、音乐和通用音效。同时也覆盖了文本、视觉以及时间段提示等多种提示类型。

该团队表示:「该基准能够对分离模型进行公平评测。从而确保该领域的进展是可衡量的。并且与日常使用场景密切相关。」

该团队表示,这种方法可确保 SAM Audio-Bench 更加真实且更具灵活性。它支持从语音和音乐分离,到乐器以及通用声音提取等多种任务。所有能力都统一在一个框架之中。



SAM Audio-Bench 还率先引入了无参考评估(reference-free evaluation)方式。

这使得在不需要孤立参考音轨的情况下,也可以评估音频分离效果。它结合了人工听感测试与 SAM Audio Judge 模型。即使原始音轨不可用,也能提供可靠的评估结果。

通过融合真实世界音频、多模态提示,以及对不同声音领域的全面覆盖,可以说 SAM Audio-Bench 为音频分离系统的测试树立了新标准。这一标准能更好地反映模型在实验室之外的实际使用方式。

结果

SAM Audio 在音频分离技术上取得了显著进展。它在多种基准和任务上超越了此前的最先进模型。

该模型不仅在通用音频分离方面显著领先于以往工作,还在所有音频类别上达到了最佳领域专用模型的性能水平。这些类别包括语音、音乐以及通用声音。

其多模态提示机制支持文本、视觉和点击式输入。这使得模型能够进行灵活、开放域的音频分割。因此既适用于真实环境中的应用,也适用于专业音频场景。



性能评估表明,SAM Audio 在各类模态特定任务中均达到了 SOTA 水平。

混合模态提示方式表现尤为突出。例如将文本与时间段提示结合使用。其效果优于单一模态的方法。

值得注意的是,该模型的运行速度快于实时处理。实时因子约为 0.7 (RTF ≈ 0.7)。在 5 亿到 30 亿参数规模下,都能高效地进行大规模音频处理。

尽管 SAM Audio 在质量和效率方面树立了新标准,但它仍存在一些局限。

  1. 目前不支持以音频本身作为提示。
  2. 在没有任何提示的情况下进行完整音频分离,也不在其能力范围内。
  3. 在高度相似的音频事件之间进行分离仍然具有挑战性。例如从合唱中分离出单一歌手,或从交响乐中分离出某一种乐器。

展望:音频 AI 的未来

该 Meta 团队表示,SAM Audio 属于 Segment Anything 模型家族,这次也是将音频能力引入了该系列模型。「我们相信 SAM Audio 是目前综合表现最强的音频分离模型。这种统一的方法也为理解复杂声学环境提供了新的可能性。并且能够跨多种模态,对自然提示作出响应。」

此外,Meta 还宣布与美国最大的助听器制造商 Starkey 以及一家面向残障创始人的领先创业加速器 2gether-International 建立了合作关系。这两个合作伙伴都在探索,像 SAM Audio 这样的模型可以如何进一步推动无障碍技术的发展。

Meta 表示:「这种音频工具的普及推广,是迈向更易用、更具创造力、更加包容的 AI 的一步。具备音频感知能力的 AI 未来才刚刚开始。我们期待并支持未来涌现出的创新与发现。」

https://ai.meta.com/blog/sam-audio/

https://x.com/AIatMeta/status/2000980784425931067

文章视频链接:

https://mp.weixin.qq.com/s/-4fkFz0cV5iqGl_4sJ1c3g

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
钱再多也没用,林子祥叶倩文如今现状,给“老少恋”夫妻提了个醒

钱再多也没用,林子祥叶倩文如今现状,给“老少恋”夫妻提了个醒

查尔菲的笔记
2026-01-24 20:06:02
输给宁波13分!揪出最大“废柴”,9中2+关键失误 坑惨了广东队

输给宁波13分!揪出最大“废柴”,9中2+关键失误 坑惨了广东队

体育哲人
2026-02-01 22:09:44
2-0,国际米兰4连胜领跑,甩AC米兰8分,泽林斯基飙无敌世界波

2-0,国际米兰4连胜领跑,甩AC米兰8分,泽林斯基飙无敌世界波

侧身凌空斩
2026-02-02 02:55:10
恭喜湖人!冠军中锋来了!老詹东契奇或迎雷霆首发内线哈滕

恭喜湖人!冠军中锋来了!老詹东契奇或迎雷霆首发内线哈滕

湖人侃球师
2026-02-01 06:50:07
劳塔罗:全场最佳奖杯送给我过生日的女儿;要为爆竹事件道歉

劳塔罗:全场最佳奖杯送给我过生日的女儿;要为爆竹事件道歉

懂球帝
2026-02-02 04:01:09
为什么成功人士的精力都非常旺盛?网友:几乎不管任何琐碎的事情

为什么成功人士的精力都非常旺盛?网友:几乎不管任何琐碎的事情

另子维爱读史
2025-12-29 17:29:04
华裔乒乓球名将自曝:因与中国队决裂出走,在体校要给刘国梁洗衣

华裔乒乓球名将自曝:因与中国队决裂出走,在体校要给刘国梁洗衣

运动探索
2026-01-14 15:33:12
美芯片价格暴跌90%!美媒破防:责任在中国,因为中国不买了!

美芯片价格暴跌90%!美媒破防:责任在中国,因为中国不买了!

我心纵横天地间
2026-02-01 13:08:34
47岁薛佳凝近况曝光!曾与胡歌相恋多年,极具商业头脑却孤身一人

47岁薛佳凝近况曝光!曾与胡歌相恋多年,极具商业头脑却孤身一人

代军哥哥谈娱乐
2026-02-01 09:41:51
1959年庐山会议后,彭德怀惹怒毛主席,叶帅哭着说出一句心里话

1959年庐山会议后,彭德怀惹怒毛主席,叶帅哭着说出一句心里话

叹为观止易
2026-01-20 10:14:29
黄景瑜的妈妈是她,年轻时是东北美女浓眉大眼,干会计工作已退休

黄景瑜的妈妈是她,年轻时是东北美女浓眉大眼,干会计工作已退休

揽星河的笔记
2026-01-26 15:16:11
工行、农行、中行、建行、交行,集体发布风险提示

工行、农行、中行、建行、交行,集体发布风险提示

新京报政事儿
2026-02-01 17:31:11
江西:寒假严禁中小学违规补课

江西:寒假严禁中小学违规补课

中国教育新闻网
2026-02-02 08:37:17
安踏95后“少帅”,开战lululemon

安踏95后“少帅”,开战lululemon

华商韬略
2026-01-30 10:42:40
上海交大:每次起床后大量喝水的人,用不了多久,身体或有7变化

上海交大:每次起床后大量喝水的人,用不了多久,身体或有7变化

读懂世界历史
2025-11-23 11:18:04
上场后连丢两球,乌加特出场的情况曼联本赛季已经丢了24球

上场后连丢两球,乌加特出场的情况曼联本赛季已经丢了24球

懂球帝
2026-02-02 00:52:21
96年创业向大舅借9000被拒,三叔卖猪凑钱,送三叔套房他却找上门

96年创业向大舅借9000被拒,三叔卖猪凑钱,送三叔套房他却找上门

人间百态大全
2026-02-01 06:50:03
中华曲艺学会换届,周炜当选会长,程野当选副会长!

中华曲艺学会换届,周炜当选会长,程野当选副会长!

达文西看世界
2026-02-01 18:04:32
明明长得一模一样,为啥一个叫牡蛎,另一个叫生蚝?

明明长得一模一样,为啥一个叫牡蛎,另一个叫生蚝?

半解智士
2026-01-30 17:14:17
皇马官方:贝林左侧大腿半腱肌受伤,后续恢复情况有待观察

皇马官方:贝林左侧大腿半腱肌受伤,后续恢复情况有待观察

懂球帝
2026-02-02 08:18:05
2026-02-02 09:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

媒体:莫迪也上了爱泼斯坦文件 情节有点尴尬

头条要闻

媒体:莫迪也上了爱泼斯坦文件 情节有点尴尬

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

国六货车被迫"换头" 每次收费超200元

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

时尚
本地
教育
亲子
军事航空

普通人衣服没必要买太多,准备好这些单品,简单实用又耐看

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

教育要闻

现在看易中天大师的金句,感觉买德云社的门票太亏了(三)

亲子要闻

2-5岁孩子如何在家做早教?用好这些小道具,孩子进步超快!

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版