分割一切、3D重建一切还不够，Meta开源SAM Audio分割一切声音|音轨|音效|编码器|meta|audio|视频生成模型

分享至

编辑｜陈萍、Panda

继 SAM（Segment Anything Model）、SAM 3D 后，Meta 又有了新动作。

深夜，Meta 放出音频分割模型SAM Audio，其通过多模态提示（无论是文本、视觉，还是标注时间片段），让人们能够轻松地从复杂的音频混合中分离出任意声音，从而彻底改变音频处理方式。

SAM Audio 的核心是Perception Encoder Audiovisual（PE-AV），这是推动其实现业界领先性能的技术引擎。

PE-AV 基于 Meta 今年早些时候开源发布的 Perception Encoder 模型，能够支持更先进的计算机视觉系统，帮助人们完成日常任务，其中就包括声音检测。

你可以把 PE-AV 想象成帮助 SAM Audio 运作的耳朵，而 SAM Audio 则是完成音频分割任务的大脑。这两者的结合带来了许多令人兴奋的应用场景。

设想一下：一段乐队演出的录像，只需在画面中点击一下吉他，就能单独分离出吉他的声音。SAM Audio 还可以通过文本提示进行音频分离，比如从户外拍摄的视频中滤除嘈杂的交通噪声。此外，Meta 业内首创的时间跨度提示（span prompts），可以帮助人们一次性解决整段音频中的问题，例如在整期播客录音中去除持续出现的狗叫声等噪音。

Meta 表示，他们正在利用这些技术进展来构建下一代创意媒体工具。相关团队看到了大量潜在的应用场景，包括音频清理、背景噪声移除，以及其他能够帮助用户提升创造力的工具。此次，Meta 向社区开放了 SAM Audio 和 PE-AV，并同时发布了两篇研究论文，分别深入介绍了这两个模型的技术细节。此外，Meta 还发布了：

SAM Audio-Bench：首个真实环境（in-the-wild）的音频分离基准；
SAM Audio Judge：首个用于音频分离的自动评测模型。

Meta 还将上述所有成果整合进 Segment Anything Playground，这是一个全新的平台，任何人都可以在其中体验其最新模型。

地址：https://aidemos.meta.com/segment-anything

从即日起，用户可以从平台提供的音频和视频素材库中进行选择，或上传自己的内容，以探索 SAM Audio 的能力。Meta 表示，他们期待继续围绕 SAM 展开讨论 —— 而这一次，也将首次听到用户使用这些突破性新模型所创作出的内容。

用于音频分割的统一多模态提示模型

在此之前，音频分割和编辑一直是一个较为割裂的领域，市面上存在着多种只针对单一用途的工具。作为一个统一模型，SAM Audio 首次支持多种交互方式，这些方式与人们自然理解和思考声音的方式高度契合，并在多项任务上实现了业界领先的性能，包括在文本提示和视觉提示条件下的乐器、人声以及通用声音分离。

SAM Audio 能够在多样且真实的应用场景中稳定运行，支持使用文本、视觉以及时间维度的线索进行音频分割。这种方法为用户提供了对音频分离过程更精确、更直观的控制能力。

该模型提供了三种音频分割方式，这些方式既可以单独使用，也可以灵活组合，以实现所需的分割效果：

文本提示：输入「狗叫声」或「歌唱声」等描述，即可提取对应的特定声音。
视觉提示：在视频中点击正在说话的人或发声的物体，即可分离其对应的音频。
时间跨度提示（Span Prompting）：业内首创的方法，允许用户标记目标声音出现的时间片段，从而实现更精确的音频分割。

SAM Audio 论文地址：https://ai.meta.com/research/publications/sam-audio-segment-anything-in-audio/
代码地址：https://github.com/facebookresearch/sam-audio

模型架构

从核心技术上看，SAM Audio 采用了一种基于流匹配扩散 Transformer 的生成式建模框架。该架构接收一段混合音频以及一个或多个提示信息，将它们编码为共享表示，并生成目标音轨与剩余音轨。

在生成式建模框架之外，研究团队还为 SAM Audio 构建了一套完整的数据引擎，用于解决大规模、高质量音频分离数据难以获取的问题。该数据引擎融合了先进的音频混合技术、自动化的多模态提示生成方法，以及稳健的伪标签（pseudo-labeling）pipeline，从而生成贴近真实应用场景的训练数据，用于提升模型在现实世界中的表现。

该模型基于这一多样化的数据集进行训练，数据集涵盖了真实与合成的混合音频，内容横跨语音、音乐以及各类通用声音事件。先进的音频数据合成策略进一步提升了模型的鲁棒性，确保其在各种复杂环境中都能保持稳定、可靠的表现。

感知编码器（视听版）

第二个模型 PE-AV 是支撑 SAM Audio 效果表现的核心引擎。它为多个关键组件提供能力支持，包括主字幕生成模型以及 SAM Audio Judge（用于音频分离的自动评测模型）。

PE-AV 论文地址：https://ai.meta.com/research/publications/pushing-the-frontier-of-audiovisual-perception-with-large-scale-multimodal-correspondence-learning/
代码地址：https://github.com/facebookresearch/perception_models

PE-AV 构建于 Meta Perception Encoder 之上，这是 Meta 于今年 4 月发布的一个开源模型。在此基础上，PE-AV 将先进的计算机视觉能力扩展到了音频领域。正如团队此前在 SAM 3 中将该模型适配用于目标检测一样，这一次又进一步扩展了其框架，使其能够对声音进行编码，从而支持 SAM Audio 对复杂音频混合的分离，并适应那些视觉上下文同样重要的真实世界应用场景。

通过提取逐帧级别的视频特征并将其与音频表示进行对齐，系统能够融合视听信息并为其加上精确的时间标注。这种设计使 SAM Audio 能够准确分离那些在视觉上有明确对应的声源，例如画面中的说话者或正在演奏的乐器，同时也可以结合场景上下文，对画面外发生的声音事件进行推断。

PE-AV 通过在精确的时间点上对齐视频帧与音频，提供了稳健且语义信息丰富的特征表示。这种时间对齐机制对于将所见与所闻进行匹配至关重要，是实现高精度多模态音频分离的基础。如果缺少这一能力，模型将无法获得足够细粒度的视觉理解，从而难以实现灵活且符合人类感知的音频分割效果。

从技术层面来看，PE-AV 融合了多种开源组件和前沿研究成果。除 Meta 的 Perception Encoder 之外，该模型还使用 PyTorchVideo 进行高效的视频处理，利用 FAISS 实现大规模语义搜索，并引入了对比学习框架来提升多模态表示能力。

PE-AV 基于超过 1 亿条视频进行训练，采用大规模多模态对比学习方法，训练数据来自开放数据集以及合成字幕生成流水线，从而确保了数据覆盖的广泛性和模型的强泛化能力。这些要素共同构建了一个灵活且高性能的基础架构，能够支持文本、视觉和时间维度的提示方式，适用于多种音频分离与理解任务。

SAM Audio Judge

Meta 还发布了SAM Audio Judge，这是一套全新的评测框架与模型，旨在以更加贴近人类感知方式来评估音频分割质量。与传统依赖参考音轨进行对比的评测指标不同，这些指标往往难以捕捉人类真实听感中的细微差别，SAM Audio Judge 提供了一种无需参考音频的客观评测方式，从感知层面对分割后的音频进行评价。

用户可以借助 SAM Audio Judge，在音乐、语音以及音效等不同场景下，对音频分离模型进行评测和比较，从而深入了解输出质量以及音频分离任务本身的内在难度。SAM Audio Judge 的构建始于对 9 个感知维度的定义，其中包括召回率（recall）、精确度（precision）、忠实度（faithfulness）和整体质量（overall quality）等。随后，研究团队依据详细的标注规范，采用五分制量表收集了大量人工评分数据。

在模型设计上，SAM Audio Judge 结合了先进的音频与文本编码器、Transformer 主干网络，以及一种独特的预训练策略，用于提升模型判断输出是否符合文本提示的能力。感知对齐的评测标准、严谨的数据采集流程与创新的模型架构相结合，为推动音频分离领域的发展提供了有力支撑。

SAM Audio-Bench

此外，为了在不同任务之间对模型性能进行一致且有意义的评估，该团队还构建了一个新基准：SAM Audio-Bench。

这是一个全面的音频分离基准，覆盖了所有主要音频领域。包括语音、音乐和通用音效。同时也覆盖了文本、视觉以及时间段提示等多种提示类型。

该团队表示：「该基准能够对分离模型进行公平评测。从而确保该领域的进展是可衡量的。并且与日常使用场景密切相关。」

该团队表示，这种方法可确保 SAM Audio-Bench 更加真实且更具灵活性。它支持从语音和音乐分离，到乐器以及通用声音提取等多种任务。所有能力都统一在一个框架之中。

SAM Audio-Bench 还率先引入了无参考评估（reference-free evaluation）方式。

这使得在不需要孤立参考音轨的情况下，也可以评估音频分离效果。它结合了人工听感测试与 SAM Audio Judge 模型。即使原始音轨不可用，也能提供可靠的评估结果。

通过融合真实世界音频、多模态提示，以及对不同声音领域的全面覆盖，可以说 SAM Audio-Bench 为音频分离系统的测试树立了新标准。这一标准能更好地反映模型在实验室之外的实际使用方式。

结果

SAM Audio 在音频分离技术上取得了显著进展。它在多种基准和任务上超越了此前的最先进模型。

该模型不仅在通用音频分离方面显著领先于以往工作，还在所有音频类别上达到了最佳领域专用模型的性能水平。这些类别包括语音、音乐以及通用声音。

其多模态提示机制支持文本、视觉和点击式输入。这使得模型能够进行灵活、开放域的音频分割。因此既适用于真实环境中的应用，也适用于专业音频场景。

性能评估表明，SAM Audio 在各类模态特定任务中均达到了 SOTA 水平。

混合模态提示方式表现尤为突出。例如将文本与时间段提示结合使用。其效果优于单一模态的方法。

值得注意的是，该模型的运行速度快于实时处理。实时因子约为 0.7 (RTF ≈ 0.7)。在 5 亿到 30 亿参数规模下，都能高效地进行大规模音频处理。

尽管 SAM Audio 在质量和效率方面树立了新标准，但它仍存在一些局限。

目前不支持以音频本身作为提示。
在没有任何提示的情况下进行完整音频分离，也不在其能力范围内。
在高度相似的音频事件之间进行分离仍然具有挑战性。例如从合唱中分离出单一歌手，或从交响乐中分离出某一种乐器。

展望：音频 AI 的未来

该 Meta 团队表示，SAM Audio 属于 Segment Anything 模型家族，这次也是将音频能力引入了该系列模型。「我们相信 SAM Audio 是目前综合表现最强的音频分离模型。这种统一的方法也为理解复杂声学环境提供了新的可能性。并且能够跨多种模态，对自然提示作出响应。」

此外，Meta 还宣布与美国最大的助听器制造商 Starkey 以及一家面向残障创始人的领先创业加速器 2gether-International 建立了合作关系。这两个合作伙伴都在探索，像 SAM Audio 这样的模型可以如何进一步推动无障碍技术的发展。

Meta 表示：「这种音频工具的普及推广，是迈向更易用、更具创造力、更加包容的 AI 的一步。具备音频感知能力的 AI 未来才刚刚开始。我们期待并支持未来涌现出的创新与发现。」

https://ai.meta.com/blog/sam-audio/

https://x.com/AIatMeta/status/2000980784425931067

文章视频链接：

https://mp.weixin.qq.com/s/-4fkFz0cV5iqGl_4sJ1c3g

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.