网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

科学家将状态空间模型引入语音分离领域，能自动从视频中分离不同人物对白

2024-06-12 15:01:27　来源: DeepTech深科技

北京举报

0

分享至

据介绍，当前最新发布的状态空间模型模型比如 Mamba，具备以线性计算复杂度建立长程依赖关系的优势，非常适合高效处理长序列的任务。

尽管 Mamba 在自然语言处理和计算机视觉等领域已经展现了良好的效果，但在语音分离领域其潜力尚未被充分挖掘。

据了解，基于卷积神经网络 CNN，Convolutional Neural Networks）的语音分离模型，受限于其局部感受野，限制了其捕获音频信号全部上下文的能力，从而影响了分离性能。

而基于 Transformer 的模型虽然能够很好地建模长期依赖关系，但其自注意力机制相对于序列长度有平方级的复杂度，导致其在实时应用中计算成本很高。

总的来说，现有的 CNN、循环神经网络（RNN，Recurrent Neural Network）和 Transformer 方法在计算效率和捕获时间依赖性方面各有优缺点。

基于此，清华大学团队提出了一种新的语音分离模型架构 SPMamba，将 Mamba 巧妙地整合进语音处理中，借此将状态空间模型（SSMs，State Space Models）成功引入语音分离领域。

（来源：arXiv）

SPMamba 以 TF-GridNet 为基础，使用双向 Mamba 模块替换其中的 Transformer 成分，旨在显著增强模型理解和处理音频序列庞大上下文的能力。

从而能够克服 CNN 模型处理长序列音频的局限、以及 RNN 模型固有的计算效率低下问题。

通过本次研究，课题组旨在探索状态空间模型模型尤其是 Mamba 在语音分离任务中的潜力，以期设计出一种计算高效且性能出色的语音分离模型架构。

同时，也希望借此推动基于状态空间模型的音频处理模型的进一步研究和发展。

基于状态空间模型的语音分离模型 SPMamba，能够以较低复杂度获得更好的分离性能，并且更适合于长音频处理。

据介绍，该模型能够高效准确地从混合语音信号中分离出不同说话人的语音，这为智能语音助手、语音会议系统等应用提供技术支撑。

通过 SPMamba 增强语音清晰度和可理解性，可以大幅提升这些系统在嘈杂环境下的性能表现和用户体验。

同时，由于能够更好处理长音频，SPMamba 可以用于音视频内容创作，例如自动从视频中分离出不同人物的对白、背景音乐等，方便后期编辑和处理。

此外，语音分离技术对于犯罪调查、法庭审讯等领域也具有重要应用价值，可协助分析和还原案件现场的语音证据。

SPMamba 模型的高分离精度和计算效率优势，使其在这些实际应用场景中极具发展潜力。

与此同时，本次成果也为语音增强、语音识别等其他语音处理任务提供了新方法。

研究人员表示：“我们一开始确定这个研究思路，是发现在自然语言处理领域，名为 Mamba 的状态空间模型在处理长序列任务时表现出色，效率和性能都优于其他模型。”

（来源：arXiv）

事实上，课题组之前已经尝试将另一种状态空间模型 S4 应用于语音分离，并提出了 S4M 模型。

实验结果也证实了状态空间模型在该领域的优势，相关论文已经发表在 Interspeech 2023。

在此基础之上，他们希望探究在语音分离领域，能否也使用 Mamba 构建一个高效、高性能的模型，并将其用于处理长序列语音分离。

于是，他们开始尝试在数据集上进行实验。“这个数据集是我们构建的比较符合目前真实场景的数据，这个数据集在后续也会予以发布。”课题组补充称。

而在实验期间，研究团队关注到了 TF-GridNet 模型，这是一种在语音分离领域已经取得最先进性能的模型。

TF-GridNet 在时域和频域上的建模能力都非常出色，而且对于噪音和混响等干扰因素有着很强的鲁棒性。

TF-GridNet 的优秀表现，让该团队决定以其为基础，探索如何进一步提升语音分离的效果。

随后，他们发现 Mamba 是一个因果模型，即如果不使用这类模型，就不能获取到关于未来的信息。

而他们目前所研究的语音分离任务，恰好需要在未来信息的辅助之下来提升模型性能。

于是，他们开始将双向 Mamba 模块引入 TF-GridNet 框架。其中，Mamba 模块负责捕捉语音信号的长期依赖关系。

考虑到语音信号中所蕴含的历史信息和未来信息，课题组设计出一种双向结构，以便针对语音序列的上下文进行全面建模。

这种双向结构与双向 LSTM（BLSTM，bi-directional long short-term memory）有着异曲同工之妙，但前者的计算效率更高。

数据集上的评测结果表明，SPMamba 的性能非常突出，相比 TF-GridNet 前者在 SI-SNRi 指标上提升了 2.42dB，展现出将状态空间模型引入语音分离的巨大潜力。

日前，相关论文以《SPMAMBA：状态空间模型是你在言论分离中所需要的一切》（SPMAMBA：STATE-SPACE MODEL IS ALL YOU NEED IN SPEECH SEPARATION）为题发在 arXiv[1]。

图 | 相关论文（来源：arXiv）

清华大学硕士生李凯是第一作者，清华大学硕士生陈果为共同第一作者。

图 | 李凯（来源：李凯）

而在论文尚未发在 arXiv 之前，该团队决定提前一周公开代码。

“没想到，这一举动引起了许多研究者的关注，大家纷纷来询问技术细节以及讨论模型的创新点。”该团队表示。

此外，当研究人员在韩国参加 2024 年国际声学、语音与信号处理会议（ICASSP，International Conference on Acoustics, Speech and Signal Processing）会议期间，很多国内外同行专门找该团队讨论 SPMamba 模型。

“当看到自己的工作得到认可，大家研究热情也被激发起来，我也感到由衷的欣慰和自豪。那一刻，我才真正体会到科研工作者的意义所在。”研究人员表示。

而基于 SPMamba 在语音分离任务上取得的优异表现，他们计划进一步探索和扩展该模型的应用范围。

首先，课题组将在更多公开数据集上进行实验和测试，以全面评估 SPMamba 的泛化能力和鲁棒性。

这将有助于验证模型在不同场景和数据条件下的性能表现，为实际应用提供更可靠的参考。

其次，该团队计划在音乐领域进行尝试，特别是在 MUSDB18-HQ 数据集上测试 SPMamba 处理长序列音频的能力。

音乐信号通常具有更长的持续时间和更复杂的结构，这会给模型的建模能力提出更高的要求。

通过在音乐分离任务上的实验，将能进一步挖掘 SPMamba 在捕捉长期依赖关系方面的潜力。

此外，他们也将考虑将 SPMamba 应用于其他相关任务，如语音增强和说话人提取。

据了解，语音增强旨在从嘈杂的环境中提取清晰的语音，而说话人提取则关注于从混合语音中分离出目标说话人的声音。

这些任务与语音分离有着相似的特点，因此 SPMamba 有望在这些领域取得同样出色的表现。

总的来说，他们致力于在更多的数据集和任务上验证该模型的有效性，通过不断优化模型结构，以期在更广泛的音频处理领域取得新突破。

参考资料：

1.https://arxiv.org/pdf/2404.02063

运营/排版：何晨龙

01/ 新型AI大模型“能够对任意代谢酶进行活性预测”和生成式设计改造，私有数据集部署成为迈向产业化关键

02/ 上交大-MIT联合团队将膜蛋白变成非膜蛋白，可用于合成生物学和新药研发

03/ 科学家研发微纳生物电子纤维，触碰手指即可读取他人心电信号，可用于智能健康和人机交互

04/ 科学家研发硅光传算处理芯片，实现片间多模复用光互连，可兼容硅光流片工艺

05/ 科学家研发新型共振光声光谱，具有63dB的大动态范围，可用于痕量气体检测和无创医疗诊断

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

张雪说要革掉一些不上进的人

点时新闻 2026-04-07 14:50:35
129 跟贴 129
毛新宇携家人到杨开慧烈士陵园祭扫

政知新媒体 2026-04-05 08:48:13
2639 跟贴 2639

“祖先给的特权”，河南网友称祖坟在景区祭祖免票，景区回应：没过检票口，一般是附近住户的祖坟

大风新闻 2026-04-06 15:06:12
2294 跟贴 2294

农民养老金专题座谈会在京召开专家建议提高高龄农民基础养老金

中国青年报 2026-04-07 19:52:06
622 跟贴 622
白宫官员：美国停火将于霍尔木兹开放时生效

央视新闻 2026-04-08 07:29:47
997 跟贴 997

美媒：“无法无天的世界代价高昂”

参考消息 2026-04-07 16:50:06
69 跟贴 69

“一盒只加一滴”？北冰洋NFC葡萄汁添加量仅0.005%，公司回应：产品没问题

红星资本局 2026-04-07 20:40:07
854 跟贴 854
又一大步！美国载人飞船成功绕月飞行

界面新闻 2026-04-07 09:36:25
131 跟贴 131

广州外卖骑手去年平均薪酬15万，快递员、货车司机收入下降

南方都市报 2026-04-07 18:12:09
701 跟贴 701
业内人士谈上海二手房大幅跳价：此时涨价，未必是最优解

中国能源网 2026-04-07 11:47:05
388 跟贴 388
上海一公园内，游客爬上樱花树拍照，结果整棵树倒下！网友：不堪重妇！

上观新闻 2026-04-07 16:33:38
203 跟贴 203
家国永念｜一个有希望的民族不能没有英雄

国际在线 2026-04-07 10:18:15
1284 跟贴 1284
日媒：“日本制造业输给了中国”

环球网资讯 2026-04-08 07:11:12
3 跟贴 3
关窗！关窗！马上抵达江苏！这波很猛！

江南晚报 2026-04-08 03:36:44
4 跟贴 4
社保基金会：坚决拥护党中央决定

新京报 2026-04-07 21:41:14
50 跟贴 50
8个月的小狗高度近视，主人花800元给它配了副眼镜，主人：之前它吃饭要趴地上找大半天#小狗近视 #萌

开屏新闻客户端 2026-04-07 16:14:33
321 跟贴 321
业内称平台严卡国产保健品宽待跨境品牌

南方都市报 2026-04-08 07:08:16
27 跟贴 27
下个小长假，不是“五一”？！

最江阴 2026-04-07 11:07:24
354 跟贴 354
中国3月外汇储备33421.23亿美元

界面新闻 2026-04-07 16:08:50
559 跟贴 559
纳指收涨0.1% 博通涨超6%

每日经济新闻 2026-04-08 05:08:04
20 跟贴 20
价格大涨，搜索量飙增1850%！国家安全部提醒

环球网资讯 2026-04-07 18:58:14
40 跟贴 40
监控系统出现漏洞，300多人被带走？海康威视回应

每日经济新闻 2026-04-07 15:06:19
1 跟贴 1
体坛联播｜欧冠八强战拜仁战胜皇马，阿森纳击败葡体占先机

澎湃新闻 2026-04-08 07:30:35
0 跟贴 0
樱花树之殇：文明底线在“最美打卡”前的崩塌

民言民语 2026-04-08 08:39:50
0 跟贴 0
货不对板、溢价明显 “盲勺”礼盒走红背后藏着多少消费陷阱

环球网资讯 2026-04-08 08:35:14
0 跟贴 0
张雪公布自己设计的跨界踏板车设计图，最新回应：正在制作踏板摩托，这款踏板偏运动越野风格，售价可能比传统的贵一点

鲁中晨报 2026-04-07 17:13:05
0 跟贴 0
新华每日电讯调查部分直播间销售违禁品乱象：贩黄、售假、涉“枪”

澎湃新闻 2026-04-08 08:35:04
0 跟贴 0

完球了，GPT-4o之母宣布离职OpenAI

完球了，GPT-4o之母宣布离职OpenAI

量子位

2026-04-07 17:19:50

超越比亚迪闪充吉利900V神盾金砖电池实测8分42秒充至97%

超越比亚迪闪充吉利900V神盾金砖电池实测8分42秒充至97%

快科技

2026-04-07 16:19:06

“潍柴动力”的泼天富贵

木禾黑猫

2026-04-07 21:38:05

白起坑杀40万赵军：1995年，考古人员挖开坑杀遗址，倒吸一口凉气

白起坑杀40万赵军：1995年，考古人员挖开坑杀遗址，倒吸一口凉气

近史谈

2026-04-07 19:36:54

詹姆斯评本季MVP：文班绝对是候选人但SGA约基奇东契奇略胜一筹

詹姆斯评本季MVP：文班绝对是候选人但SGA约基奇东契奇略胜一筹

罗说NBA

2026-04-08 06:10:29

马桶前放垃圾桶：一个让肛肠科医生沉默的"神操作"

马桶前放垃圾桶：一个让肛肠科医生沉默的"神操作"

摸鱼算法

2026-04-06 00:15:55

4月10日18时起，交管12123将暂停服务

4月10日18时起，交管12123将暂停服务

新快报新闻

2026-04-07 18:22:37

哈佛大学50年研究揭示：拉开人生差距的，不是智商，而是3个习惯

哈佛大学50年研究揭示：拉开人生差距的，不是智商，而是3个习惯

千秋文化

2026-04-07 19:44:05

OpenAI又一关键高管离职！曾为GPT-4o注入灵魂

OpenAI又一关键高管离职！曾为GPT-4o注入灵魂

智东西

2026-04-08 00:16:16

出口暴涨73%、均价飙升52%：是谁在疯狂买爆“落后”的中国芯片？

出口暴涨73%、均价飙升52%：是谁在疯狂买爆“落后”的中国芯片？

混沌录

2026-04-07 17:48:15

哈佛大学教授斯蒂芬·沃尔特文章：世界如何应对“越发流氓”的美国？

哈佛大学教授斯蒂芬·沃尔特文章：世界如何应对“越发流氓”的美国？

参考消息

2026-04-07 14:44:55

干得漂亮！伊朗伊斯兰革命卫队宣布了！

干得漂亮！伊朗伊斯兰革命卫队宣布了！

达文西看世界

2026-04-08 08:17:18

刘爱琴嫁给西班牙人后，指着报纸说父亲是刘少奇，丈夫：别开玩笑

刘爱琴嫁给西班牙人后，指着报纸说父亲是刘少奇，丈夫：别开玩笑

元哥说历史

2026-04-07 07:05:05

为什么WTO很少被提起了？中国入世谈判花了15年，如今几乎被架空

为什么WTO很少被提起了？中国入世谈判花了15年，如今几乎被架空

有范又有料

2026-04-07 16:45:46

太原站首战爆冷！国乒女单0-3输日本,5大世界冠军出战,林诗栋回归

太原站首战爆冷！国乒女单0-3输日本,5大世界冠军出战,林诗栋回归

小徐讲八卦

2026-04-08 05:50:17

西方军事专家：只有吉尔吉斯斯坦知道，中国早就是最强超级大国了

西方军事专家：只有吉尔吉斯斯坦知道，中国早就是最强超级大国了

混沌录

2026-04-05 16:33:12

美副总统万斯：美以已完成伊朗战争的军事目的战争将很快结束

美副总统万斯：美以已完成伊朗战争的军事目的战争将很快结束

财联社

2026-04-07 20:38:06

美军“拯救飞行员”，差一点就失败了

美军“拯救飞行员”，差一点就失败了

中国新闻周刊

2026-04-07 16:42:40

上海一公园内女子爬树拍照，20年树龄樱花树被连根压倒！经多部门联合查找约谈，当事人承认错误并愿赔偿

上海一公园内女子爬树拍照，20年树龄樱花树被连根压倒！经多部门联合查找约谈，当事人承认错误并愿赔偿

扬子晚报

2026-04-07 21:05:56

哈弗茨：进球功劳要给马丁内利；拉亚是世界最佳门将

哈弗茨：进球功劳要给马丁内利；拉亚是世界最佳门将

懂球帝

2026-04-08 05:36:07

DeepTech深科技

麻省理工科技评论独家合作

16549文章数 514856关注度

往期回顾全部

科技要闻

造出地表最强AI，却死活不给你用！

头条要闻

郑丽文表态：感谢大陆热情接待国民党坚持"九二共识"

头条要闻

郑丽文表态：感谢大陆热情接待国民党坚持"九二共识"

体育要闻

科特迪瓦中场卡迪尔-凯塔被控过失杀人罪，面临九年以上监禁

娱乐要闻

女首富陈丽华离世被曝生前已分好遗产

财经要闻

特朗普同意停火两周伊朗:接受停火提议

汽车要闻

不止是大极狐首款MPV问道V9静态体验

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戏

房产

家居

艺术

健康

《Swords & Slippers》新视频大雷妹子激情

房产要闻

重磅！三亚拟出安居房新政！

家居要闻

雅致惬意感知生活之美

艺术要闻

郑丽文书法争议：她的字真的不是自己写的吗？

干细胞抗衰4大误区,90%的人都中招

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版