据介绍,当前最新发布的状态空间模型模型比如 Mamba,具备以线性计算复杂度建立长程依赖关系的优势,非常适合高效处理长序列的任务。
尽管 Mamba 在自然语言处理和计算机视觉等领域已经展现了良好的效果,但在语音分离领域其潜力尚未被充分挖掘。
据了解,基于卷积神经网络 CNN,Convolutional Neural Networks)的语音分离模型,受限于其局部感受野,限制了其捕获音频信号全部上下文的能力,从而影响了分离性能。
而基于 Transformer 的模型虽然能够很好地建模长期依赖关系,但其自注意力机制相对于序列长度有平方级的复杂度,导致其在实时应用中计算成本很高。
总的来说,现有的 CNN、循环神经网络(RNN,Recurrent Neural Network)和 Transformer 方法在计算效率和捕获时间依赖性方面各有优缺点。
基于此,清华大学团队提出了一种新的语音分离模型架构 SPMamba,将 Mamba 巧妙地整合进语音处理中,借此将状态空间模型(SSMs,State Space Models)成功引入语音分离领域。
(来源:arXiv)
SPMamba 以 TF-GridNet 为基础,使用双向 Mamba 模块替换其中的 Transformer 成分,旨在显著增强模型理解和处理音频序列庞大上下文的能力。
从而能够克服 CNN 模型处理长序列音频的局限、以及 RNN 模型固有的计算效率低下问题。
通过本次研究,课题组旨在探索状态空间模型模型尤其是 Mamba 在语音分离任务中的潜力,以期设计出一种计算高效且性能出色的语音分离模型架构。
同时,也希望借此推动基于状态空间模型的音频处理模型的进一步研究和发展。
基于状态空间模型的语音分离模型 SPMamba,能够以较低复杂度获得更好的分离性能,并且更适合于长音频处理。
据介绍,该模型能够高效准确地从混合语音信号中分离出不同说话人的语音,这为智能语音助手、语音会议系统等应用提供技术支撑。
通过 SPMamba 增强语音清晰度和可理解性,可以大幅提升这些系统在嘈杂环境下的性能表现和用户体验。
同时,由于能够更好处理长音频,SPMamba 可以用于音视频内容创作,例如自动从视频中分离出不同人物的对白、背景音乐等,方便后期编辑和处理。
此外,语音分离技术对于犯罪调查、法庭审讯等领域也具有重要应用价值,可协助分析和还原案件现场的语音证据。
SPMamba 模型的高分离精度和计算效率优势,使其在这些实际应用场景中极具发展潜力。
与此同时,本次成果也为语音增强、语音识别等其他语音处理任务提供了新方法。
研究人员表示:“我们一开始确定这个研究思路,是发现在自然语言处理领域,名为 Mamba 的状态空间模型在处理长序列任务时表现出色,效率和性能都优于其他模型。”
(来源:arXiv)
事实上,课题组之前已经尝试将另一种状态空间模型 S4 应用于语音分离,并提出了 S4M 模型。
实验结果也证实了状态空间模型在该领域的优势,相关论文已经发表在 Interspeech 2023。
在此基础之上,他们希望探究在语音分离领域,能否也使用 Mamba 构建一个高效、高性能的模型,并将其用于处理长序列语音分离。
于是,他们开始尝试在数据集上进行实验。“这个数据集是我们构建的比较符合目前真实场景的数据,这个数据集在后续也会予以发布。”课题组补充称。
而在实验期间,研究团队关注到了 TF-GridNet 模型,这是一种在语音分离领域已经取得最先进性能的模型。
TF-GridNet 在时域和频域上的建模能力都非常出色,而且对于噪音和混响等干扰因素有着很强的鲁棒性。
TF-GridNet 的优秀表现,让该团队决定以其为基础,探索如何进一步提升语音分离的效果。
随后,他们发现 Mamba 是一个因果模型,即如果不使用这类模型,就不能获取到关于未来的信息。
而他们目前所研究的语音分离任务,恰好需要在未来信息的辅助之下来提升模型性能。
于是,他们开始将双向 Mamba 模块引入 TF-GridNet 框架。其中,Mamba 模块负责捕捉语音信号的长期依赖关系。
考虑到语音信号中所蕴含的历史信息和未来信息,课题组设计出一种双向结构,以便针对语音序列的上下文进行全面建模。
这种双向结构与双向 LSTM(BLSTM,bi-directional long short-term memory)有着异曲同工之妙,但前者的计算效率更高。
数据集上的评测结果表明,SPMamba 的性能非常突出,相比 TF-GridNet 前者在 SI-SNRi 指标上提升了 2.42dB,展现出将状态空间模型引入语音分离的巨大潜力。
日前,相关论文以《SPMAMBA:状态空间模型是你在言论分离中所需要的一切》(SPMAMBA:STATE-SPACE MODEL IS ALL YOU NEED IN SPEECH SEPARATION)为题发在 arXiv[1]。
图 | 相关论文(来源:arXiv)
清华大学硕士生李凯是第一作者,清华大学硕士生陈果为共同第一作者。
图 | 李凯(来源:李凯)
而在论文尚未发在 arXiv 之前,该团队决定提前一周公开代码。
“没想到,这一举动引起了许多研究者的关注,大家纷纷来询问技术细节以及讨论模型的创新点。”该团队表示。
此外,当研究人员在韩国参加 2024 年国际声学、语音与信号处理会议(ICASSP,International Conference on Acoustics, Speech and Signal Processing)会议期间,很多国内外同行专门找该团队讨论 SPMamba 模型。
“当看到自己的工作得到认可,大家研究热情也被激发起来,我也感到由衷的欣慰和自豪。那一刻,我才真正体会到科研工作者的意义所在。”研究人员表示。
而基于 SPMamba 在语音分离任务上取得的优异表现,他们计划进一步探索和扩展该模型的应用范围。
首先,课题组将在更多公开数据集上进行实验和测试,以全面评估 SPMamba 的泛化能力和鲁棒性。
这将有助于验证模型在不同场景和数据条件下的性能表现,为实际应用提供更可靠的参考。
其次,该团队计划在音乐领域进行尝试,特别是在 MUSDB18-HQ 数据集上测试 SPMamba 处理长序列音频的能力。
音乐信号通常具有更长的持续时间和更复杂的结构,这会给模型的建模能力提出更高的要求。
通过在音乐分离任务上的实验,将能进一步挖掘 SPMamba 在捕捉长期依赖关系方面的潜力。
此外,他们也将考虑将 SPMamba 应用于其他相关任务,如语音增强和说话人提取。
据了解,语音增强旨在从嘈杂的环境中提取清晰的语音,而说话人提取则关注于从混合语音中分离出目标说话人的声音。
这些任务与语音分离有着相似的特点,因此 SPMamba 有望在这些领域取得同样出色的表现。
总的来说,他们致力于在更多的数据集和任务上验证该模型的有效性,通过不断优化模型结构,以期在更广泛的音频处理领域取得新突破。
参考资料:
1.https://arxiv.org/pdf/2404.02063
运营/排版:何晨龙
01/ 新型AI大模型“能够对任意代谢酶进行活性预测”和生成式设计改造,私有数据集部署成为迈向产业化关键
02/ 上交大-MIT联合团队将膜蛋白变成非膜蛋白,可用于合成生物学和新药研发
03/ 科学家研发微纳生物电子纤维,触碰手指即可读取他人心电信号,可用于智能健康和人机交互
04/ 科学家研发硅光传算处理芯片,实现片间多模复用光互连,可兼容硅光流片工艺
05/ 科学家研发新型共振光声光谱,具有63dB的大动态范围,可用于痕量气体检测和无创医疗诊断
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.