网易首页 > 网易号 > 正文 申请入驻

分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音

0
分享至



编辑|陈萍、Panda

继 SAM(Segment Anything Model)、SAM 3D 后,Meta 又有了新动作。

深夜,Meta 放出音频分割模型SAM Audio,其通过多模态提示(无论是文本、视觉,还是标注时间片段),让人们能够轻松地从复杂的音频混合中分离出任意声音,从而彻底改变音频处理方式。

SAM Audio 的核心是Perception Encoder Audiovisual(PE-AV),这是推动其实现业界领先性能的技术引擎。

PE-AV 基于 Meta 今年早些时候开源发布的 Perception Encoder 模型,能够支持更先进的计算机视觉系统,帮助人们完成日常任务,其中就包括声音检测。

你可以把 PE-AV 想象成帮助 SAM Audio 运作的耳朵,而 SAM Audio 则是完成音频分割任务的大脑。这两者的结合带来了许多令人兴奋的应用场景。

设想一下:一段乐队演出的录像,只需在画面中点击一下吉他,就能单独分离出吉他的声音。SAM Audio 还可以通过文本提示进行音频分离,比如从户外拍摄的视频中滤除嘈杂的交通噪声。此外,Meta 业内首创的时间跨度提示(span prompts),可以帮助人们一次性解决整段音频中的问题,例如在整期播客录音中去除持续出现的狗叫声等噪音。



Meta 表示,他们正在利用这些技术进展来构建下一代创意媒体工具。相关团队看到了大量潜在的应用场景,包括音频清理、背景噪声移除,以及其他能够帮助用户提升创造力的工具。此次,Meta 向社区开放了 SAM Audio 和 PE-AV,并同时发布了两篇研究论文,分别深入介绍了这两个模型的技术细节。此外,Meta 还发布了:

  1. SAM Audio-Bench:首个真实环境(in-the-wild)的音频分离基准;
  2. SAM Audio Judge:首个用于音频分离的自动评测模型。

Meta 还将上述所有成果整合进 Segment Anything Playground,这是一个全新的平台,任何人都可以在其中体验其最新模型。



地址:https://aidemos.meta.com/segment-anything

从即日起,用户可以从平台提供的音频和视频素材库中进行选择,或上传自己的内容,以探索 SAM Audio 的能力。Meta 表示,他们期待继续围绕 SAM 展开讨论 —— 而这一次,也将首次听到用户使用这些突破性新模型所创作出的内容。

用于音频分割的统一多模态提示模型

在此之前,音频分割和编辑一直是一个较为割裂的领域,市面上存在着多种只针对单一用途的工具。作为一个统一模型,SAM Audio 首次支持多种交互方式,这些方式与人们自然理解和思考声音的方式高度契合,并在多项任务上实现了业界领先的性能,包括在文本提示和视觉提示条件下的乐器、人声以及通用声音分离。

SAM Audio 能够在多样且真实的应用场景中稳定运行,支持使用文本、视觉以及时间维度的线索进行音频分割。这种方法为用户提供了对音频分离过程更精确、更直观的控制能力。

该模型提供了三种音频分割方式,这些方式既可以单独使用,也可以灵活组合,以实现所需的分割效果:

  1. 文本提示:输入「狗叫声」或「歌唱声」等描述,即可提取对应的特定声音。
  2. 视觉提示:在视频中点击正在说话的人或发声的物体,即可分离其对应的音频。
  3. 时间跨度提示(Span Prompting):业内首创的方法,允许用户标记目标声音出现的时间片段,从而实现更精确的音频分割。



  1. SAM Audio 论文地址:https://ai.meta.com/research/publications/sam-audio-segment-anything-in-audio/
  2. 代码地址:https://github.com/facebookresearch/sam-audio

模型架构

从核心技术上看,SAM Audio 采用了一种基于流匹配扩散 Transformer 的生成式建模框架。该架构接收一段混合音频以及一个或多个提示信息,将它们编码为共享表示,并生成目标音轨与剩余音轨。



在生成式建模框架之外,研究团队还为 SAM Audio 构建了一套完整的数据引擎,用于解决大规模、高质量音频分离数据难以获取的问题。该数据引擎融合了先进的音频混合技术、自动化的多模态提示生成方法,以及稳健的伪标签(pseudo-labeling)pipeline,从而生成贴近真实应用场景的训练数据,用于提升模型在现实世界中的表现。



该模型基于这一多样化的数据集进行训练,数据集涵盖了真实与合成的混合音频,内容横跨语音、音乐以及各类通用声音事件。先进的音频数据合成策略进一步提升了模型的鲁棒性,确保其在各种复杂环境中都能保持稳定、可靠的表现。

感知编码器(视听版)

第二个模型 PE-AV 是支撑 SAM Audio 效果表现的核心引擎。它为多个关键组件提供能力支持,包括主字幕生成模型以及 SAM Audio Judge(用于音频分离的自动评测模型)。



  1. PE-AV 论文地址:https://ai.meta.com/research/publications/pushing-the-frontier-of-audiovisual-perception-with-large-scale-multimodal-correspondence-learning/
  2. 代码地址:https://github.com/facebookresearch/perception_models

PE-AV 构建于 Meta Perception Encoder 之上,这是 Meta 于今年 4 月发布的一个开源模型。在此基础上,PE-AV 将先进的计算机视觉能力扩展到了音频领域。正如团队此前在 SAM 3 中将该模型适配用于目标检测一样,这一次又进一步扩展了其框架,使其能够对声音进行编码,从而支持 SAM Audio 对复杂音频混合的分离,并适应那些视觉上下文同样重要的真实世界应用场景。



通过提取逐帧级别的视频特征并将其与音频表示进行对齐,系统能够融合视听信息并为其加上精确的时间标注。这种设计使 SAM Audio 能够准确分离那些在视觉上有明确对应的声源,例如画面中的说话者或正在演奏的乐器,同时也可以结合场景上下文,对画面外发生的声音事件进行推断。

PE-AV 通过在精确的时间点上对齐视频帧与音频,提供了稳健且语义信息丰富的特征表示。这种时间对齐机制对于将所见与所闻进行匹配至关重要,是实现高精度多模态音频分离的基础。如果缺少这一能力,模型将无法获得足够细粒度的视觉理解,从而难以实现灵活且符合人类感知的音频分割效果。



从技术层面来看,PE-AV 融合了多种开源组件和前沿研究成果。除 Meta 的 Perception Encoder 之外,该模型还使用 PyTorchVideo 进行高效的视频处理,利用 FAISS 实现大规模语义搜索,并引入了对比学习框架来提升多模态表示能力。

PE-AV 基于超过 1 亿条视频进行训练,采用大规模多模态对比学习方法,训练数据来自开放数据集以及合成字幕生成流水线,从而确保了数据覆盖的广泛性和模型的强泛化能力。这些要素共同构建了一个灵活且高性能的基础架构,能够支持文本、视觉和时间维度的提示方式,适用于多种音频分离与理解任务。

SAM Audio Judge

Meta 还发布了SAM Audio Judge,这是一套全新的评测框架与模型,旨在以更加贴近人类感知方式来评估音频分割质量。与传统依赖参考音轨进行对比的评测指标不同,这些指标往往难以捕捉人类真实听感中的细微差别,SAM Audio Judge 提供了一种无需参考音频的客观评测方式,从感知层面对分割后的音频进行评价。

用户可以借助 SAM Audio Judge,在音乐、语音以及音效等不同场景下,对音频分离模型进行评测和比较,从而深入了解输出质量以及音频分离任务本身的内在难度。SAM Audio Judge 的构建始于对 9 个感知维度的定义,其中包括召回率(recall)、精确度(precision)、忠实度(faithfulness)和整体质量(overall quality)等。随后,研究团队依据详细的标注规范,采用五分制量表收集了大量人工评分数据。

在模型设计上,SAM Audio Judge 结合了先进的音频与文本编码器、Transformer 主干网络,以及一种独特的预训练策略,用于提升模型判断输出是否符合文本提示的能力。感知对齐的评测标准、严谨的数据采集流程与创新的模型架构相结合,为推动音频分离领域的发展提供了有力支撑。

SAM Audio-Bench

此外,为了在不同任务之间对模型性能进行一致且有意义的评估,该团队还构建了一个新基准:SAM Audio-Bench

这是一个全面的音频分离基准,覆盖了所有主要音频领域。包括语音、音乐和通用音效。同时也覆盖了文本、视觉以及时间段提示等多种提示类型。

该团队表示:「该基准能够对分离模型进行公平评测。从而确保该领域的进展是可衡量的。并且与日常使用场景密切相关。」

该团队表示,这种方法可确保 SAM Audio-Bench 更加真实且更具灵活性。它支持从语音和音乐分离,到乐器以及通用声音提取等多种任务。所有能力都统一在一个框架之中。



SAM Audio-Bench 还率先引入了无参考评估(reference-free evaluation)方式。

这使得在不需要孤立参考音轨的情况下,也可以评估音频分离效果。它结合了人工听感测试与 SAM Audio Judge 模型。即使原始音轨不可用,也能提供可靠的评估结果。

通过融合真实世界音频、多模态提示,以及对不同声音领域的全面覆盖,可以说 SAM Audio-Bench 为音频分离系统的测试树立了新标准。这一标准能更好地反映模型在实验室之外的实际使用方式。

结果

SAM Audio 在音频分离技术上取得了显著进展。它在多种基准和任务上超越了此前的最先进模型。

该模型不仅在通用音频分离方面显著领先于以往工作,还在所有音频类别上达到了最佳领域专用模型的性能水平。这些类别包括语音、音乐以及通用声音。

其多模态提示机制支持文本、视觉和点击式输入。这使得模型能够进行灵活、开放域的音频分割。因此既适用于真实环境中的应用,也适用于专业音频场景。



性能评估表明,SAM Audio 在各类模态特定任务中均达到了 SOTA 水平。

混合模态提示方式表现尤为突出。例如将文本与时间段提示结合使用。其效果优于单一模态的方法。

值得注意的是,该模型的运行速度快于实时处理。实时因子约为 0.7 (RTF ≈ 0.7)。在 5 亿到 30 亿参数规模下,都能高效地进行大规模音频处理。

尽管 SAM Audio 在质量和效率方面树立了新标准,但它仍存在一些局限。

  1. 目前不支持以音频本身作为提示。
  2. 在没有任何提示的情况下进行完整音频分离,也不在其能力范围内。
  3. 在高度相似的音频事件之间进行分离仍然具有挑战性。例如从合唱中分离出单一歌手,或从交响乐中分离出某一种乐器。

展望:音频 AI 的未来

该 Meta 团队表示,SAM Audio 属于 Segment Anything 模型家族,这次也是将音频能力引入了该系列模型。「我们相信 SAM Audio 是目前综合表现最强的音频分离模型。这种统一的方法也为理解复杂声学环境提供了新的可能性。并且能够跨多种模态,对自然提示作出响应。」

此外,Meta 还宣布与美国最大的助听器制造商 Starkey 以及一家面向残障创始人的领先创业加速器 2gether-International 建立了合作关系。这两个合作伙伴都在探索,像 SAM Audio 这样的模型可以如何进一步推动无障碍技术的发展。

Meta 表示:「这种音频工具的普及推广,是迈向更易用、更具创造力、更加包容的 AI 的一步。具备音频感知能力的 AI 未来才刚刚开始。我们期待并支持未来涌现出的创新与发现。」

https://ai.meta.com/blog/sam-audio/

https://x.com/AIatMeta/status/2000980784425931067

文章视频链接:

https://mp.weixin.qq.com/s/-4fkFz0cV5iqGl_4sJ1c3g

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山西亲手葬好局!铁定没看广东绝杀战,软趴篮板球放广厦逃出生天

山西亲手葬好局!铁定没看广东绝杀战,软趴篮板球放广厦逃出生天

小潌拍客在北漂
2026-05-10 23:41:08
1984年叶剑英病危,追悼会花圈已备好,35岁才当医生的钟南山凭什么临危受命救回元帅?

1984年叶剑英病危,追悼会花圈已备好,35岁才当医生的钟南山凭什么临危受命救回元帅?

史海孤雁
2026-05-09 19:13:11
250亿!赖清德窜访代价来了,斯威士兰开始要债 卢秀燕却声援绿营

250亿!赖清德窜访代价来了,斯威士兰开始要债 卢秀燕却声援绿营

闻识
2026-05-10 18:17:01
茶行业最大的笑话:绕过茶商,用便宜的价格买到茶农的好茶!

茶行业最大的笑话:绕过茶商,用便宜的价格买到茶农的好茶!

普洱话江湖
2026-05-08 14:12:29
暴雨大风!广州下周将开启“倒水”模式

暴雨大风!广州下周将开启“倒水”模式

环球网资讯
2026-05-10 09:36:10
比亚迪9000吨压铸“掀桌”!74个零件变1块铝,成本降5000元的造车魔法?

比亚迪9000吨压铸“掀桌”!74个零件变1块铝,成本降5000元的造车魔法?

生活魔术专家
2026-05-10 18:55:56
下一个拉什福德!卡里克亲自出手,曼联锁定 8000 万英格兰红星

下一个拉什福德!卡里克亲自出手,曼联锁定 8000 万英格兰红星

澜归序
2026-05-10 02:06:04
颠覆认知!新研究:鱼油等保健品,却可能是阿尔茨海默病的“加速器”

颠覆认知!新研究:鱼油等保健品,却可能是阿尔茨海默病的“加速器”

健康榨知机
2026-05-09 19:23:57
2026号1号文件:严禁上级机关事业单位从基层借调职工!

2026号1号文件:严禁上级机关事业单位从基层借调职工!

细说职场
2026-05-10 11:18:10
A股:周日下午传来3个特大消息!明天或迎来更大级别变盘行情?

A股:周日下午传来3个特大消息!明天或迎来更大级别变盘行情?

趋势清风侠
2026-05-10 15:29:01
向佑南昌酒吧被拍!新女友纹身金牙烟不离手,向太放话:死都不认

向佑南昌酒吧被拍!新女友纹身金牙烟不离手,向太放话:死都不认

小丸子Showw
2026-05-08 20:08:11
排面直接拉满!小霖霖10岁生日全员奔赴湾湾,马筱梅格局彻底圈粉

排面直接拉满!小霖霖10岁生日全员奔赴湾湾,马筱梅格局彻底圈粉

喜欢历史的阿繁
2026-05-10 12:56:08
“台湾永远不是中国的?” 郑丽君放狂言,被67岁艺人当众扇耳光

“台湾永远不是中国的?” 郑丽君放狂言,被67岁艺人当众扇耳光

橙星文娱
2026-05-10 13:42:19
伊总统和议长联合要求外长阿拉格奇辞职,因其没有听命于最高领袖

伊总统和议长联合要求外长阿拉格奇辞职,因其没有听命于最高领袖

元芳有看法
2026-05-09 20:01:10
凭借IPO半年浮盈至少百亿!高瓴资本败笔来了,清仓隆基巨亏近80亿

凭借IPO半年浮盈至少百亿!高瓴资本败笔来了,清仓隆基巨亏近80亿

金石随笔
2026-05-11 00:09:00
悬崖秋千坠亡事件后续,排女孩后面游客发声,有目击者做几天噩梦

悬崖秋千坠亡事件后续,排女孩后面游客发声,有目击者做几天噩梦

十九妹
2026-05-07 16:16:16
浙江东阳,33 岁的男子,在母亲长眠的公墓旁,在车里结束了生命

浙江东阳,33 岁的男子,在母亲长眠的公墓旁,在车里结束了生命

魔都姐姐杂谈
2026-03-30 19:25:57
海参崴的街头,谁在出卖我们的历史尊严?

海参崴的街头,谁在出卖我们的历史尊严?

迷世书童H9527
2026-05-07 14:55:09
广州七中:关于广播站全面停止播放外文歌曲的通知

广州七中:关于广播站全面停止播放外文歌曲的通知

必记本
2026-05-10 17:54:30
王博:大家的斗志要比第一场要好 孙铭徽是否复出回杭州看训练情况

王博:大家的斗志要比第一场要好 孙铭徽是否复出回杭州看训练情况

狼叔评论
2026-05-10 23:10:04
2026-05-11 00:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12957文章数 142647关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

家居
房产
本地
教育
健康

家居要闻

菁英人居 全能豪宅

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

本地新闻

用苏绣的方式,打开江西婺源

教育要闻

高考地理中的共享经济

干细胞能让人“返老还童”吗

无障碍浏览 进入关怀版