网易首页 > 网易号 > 正文 申请入驻

支持普通话、英语和粤语零样本歌声合成,Soul App 联合吉利汽车研究院人工智能中心(AIC)、天津大学及西北工业大学开源SoulX-Singer

0
分享至

过去一年,生成式人工智能在音乐行业的应用正不断创造新体验,但歌唱语音合成领域(SVS,Singing Voice Synthesis)整体进展相对缓慢。

为拓展这一领域,近日,Soul App AI 团队(Soul AI Lab)联合吉利汽车研究院人工智能中心(AIC)、天津大学视听觉认知计算团队和西北工业大学音频语音与语言处理研究组(ASLP@NPU),正式开源歌声合成模型SoulX-Singer,这是一个面向真实应用场景设计的高质量零样本歌声合成模型,超42000小时训练数据,覆盖多语言、多音色及多种演唱风格,在稳定性、可控性与泛化能力方面,均达到了当前开源 SVS 模型中的领先水平。


SoulX-Singer介绍


SoulX-Singer 结构简图

过去一段时间,语音合成与音乐生成领域迎来了快速发展,大模型与生成式 AI 持续刷新行业认知。然而,与这一热潮形成对比的是,行业内仍缺乏一个真正稳定可用、同时支持零样本(Zero-shot)生成的开源歌声合成(SVS)模型,这很大程度上制约了 SVS 技术在真实业务场景中的应用与落地。

SVS(Singing Voice Synthesis,歌唱语音合成)是一种根据歌词和乐谱生成歌声的技术。相比于普通语音合成(TTS,Text-to-Speech Synthesis),SVS 需要对音高、音律以及演唱风格等进行精细控制,以实现自然且富有表现力的歌声输出。与近期热门的 Music Generation(自动生成整段音乐或伴奏)不同,SVS 专注于可由 MIDI 控制的人声生成,因此在虚拟歌手、歌词演绎以及多语言歌声创作等场景中展现出独特价值。

在这样的背景下,SoulX-Singer 正式开源。SoulX-Singer 是一个面向真实工业应用场景设计的零样本歌声合成模型,其核心目标是在未见过歌手音色的情况下,实现稳定、自然且高度可控的歌声生成。为此,模型在整体架构、建模范式以及控制机制上进行了针对 SVS 场景的系统性设计。

在模型架构上,SoulX-Singer 采用基于Flow Matching 的生成建模范式,并将歌声合成问题建模为一种 audio infilling(音频补全)任务。针对歌声合成中“歌词—旋律—发声”三者强耦合的特点,SoulX-Singer 在建模阶段显式引入了note 级别的对齐机制。

模型通过构建歌词、MIDI 音符(note)与声学特征之间的精细对齐关系,使得每一个音符的起止时间、音高(pitch)以及持续时长都能够被准确建模和独立控制。这一设计使得模型不仅能够忠实还原乐谱信息,还可以在生成阶段灵活调整音符结构,从而满足音乐编辑、重编曲等复杂需求。

大规模 SVS 训练数据,夯实零样本能力基础

零样本歌声合成对训练数据的规模、多样性与覆盖范围提出了极高要求。SoulX-Singer 得益于超过 42000 小时的高质量歌声数据进行训练,覆盖多语言、多音色及多种演唱风格

在如此大规模数据的支持下,模型在面对未见过的歌手与复杂音乐条件时,依然能够保持稳定、自然且高质量的合成表现。在实际测试中,SoulX-Singer 展现出了良好的鲁棒性和一致性,为零样本歌声合成技术从“可演示”走向“可使用”提供了坚实基础。

Music Score 与 Melody 多种控制方式

在生成控制能力方面,SoulX-Singer同时支持基于Music Score(MIDI)和基于 Melody的两种歌声合成控制方式:

·Music Score(MIDI)驱动生成支持直接基于乐谱与歌词生成歌声,适用于音乐创作、歌词编辑、歌曲重制等场景,具备音符级别的时长与节奏控制能力。

·Melody驱动生成支持从已有歌曲旋律出发进行歌声合成,可复刻参考音频中的演唱技巧与表达方式,适用于翻唱、风格迁移等应用场景。

这种双控制范式为实际音乐制作流程提供了更高的灵活性,使SoulX-Singer能够覆盖从“从零创作”到“基于已有歌曲再创作”的多种使用需求。

多语言支持,面向真实应用场景

SoulX-Singer 当前支持普通话、英语和粤语三种语言的歌声合成,并在不同语言和音乐风格下均展现出稳定一致的合成质量。这一多语言能力为其在内容创作、虚拟歌手、互动娱乐等应用场景中的落地提供了更广阔的空间。

客观表现


在评测方面,SoulX-Singer 在GMO-SVS和SoulX-Singer-Eval两个数据集上,对零样本歌声合成、歌词编辑后的歌声合成以及跨语言歌声合成等多项任务进行了系统评测。

其中,GMO-SVS 综合了GTSinger、M4Singer 和 Opencpop等主流开源 SVS 数据集;而 SoulX-Singer-Eval 则专门面向严格的零样本场景构建,通过独立音乐人等渠道采集数据,确保测试歌手未出现在训练集中。

实验结果表明,SoulX-Singer 在语义清晰度、歌手相似度、基频一致性以及整体合成质量等多个维度上均显著优于此前的相关工作;在主观听感评测中,其表现同样取得了明显领先优势。


尽管此前歌声合成领域已经涌现出一些优秀的研究工作,但受限于训练数据规模或控制方式单一等因素,相关模型在真实使用场景中仍面临诸多挑战。SoulX-Singer 的发布提供了一个真正鲁棒、灵活可控且面向场景落地的零样本歌声合成解决方案,为歌声合成技术在UGC音乐创作等方向的实际应用探索带来了积极意义。

SoulX-Singer 也延续了Soul AI团队的开源工作。此前,Soul AI团队已陆续开源了播客语音合成模型SoulX-Podcast、实时数字人生成模型SoulX-FlashTalk,在语音、歌声、实时数字人、视频等不同领域提供了可落地的多模态生成方案。

责任编辑:韩璐(EN053)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
南博徐院长的处理结果来了!从通报来看事情并不小,尤其最后一条

南博徐院长的处理结果来了!从通报来看事情并不小,尤其最后一条

火山詩话
2026-02-10 05:47:29
众议院大胜后,中俄各收到高市送来的一句话,韩国赶紧派人来北京

众议院大胜后,中俄各收到高市送来的一句话,韩国赶紧派人来北京

东极妙严
2026-02-10 14:36:46
马云撤了,阿里成功套现300亿

马云撤了,阿里成功套现300亿

新行情
2026-02-10 14:22:21
微博之夜过后,终于意识到内娱真的完了

微博之夜过后,终于意识到内娱真的完了

娱乐圈笔娱君
2026-02-09 14:29:12
绿营逢迎高市,郑丽文看不下去

绿营逢迎高市,郑丽文看不下去

环球时报国际
2026-02-10 11:31:01
出轨、净身出户?这次,74岁的梁锦松,终究在伏明霞身上栽了跟头

出轨、净身出户?这次,74岁的梁锦松,终究在伏明霞身上栽了跟头

秋姐居
2026-02-10 09:19:42
南博事件结果公布:29人被问责,81岁院长玩完,大量内幕首次披露

南博事件结果公布:29人被问责,81岁院长玩完,大量内幕首次披露

乌娱子酱
2026-02-10 13:35:31
谷爱凌虽然拿了亚军,可惊掉下巴的是,拿冠军的居然成功卫冕了

谷爱凌虽然拿了亚军,可惊掉下巴的是,拿冠军的居然成功卫冕了

魔都姐姐杂谈
2026-02-10 14:37:35
绝了!高市早苗大胜,郑丽文冷笑着送她一句话,大陆已不用再说啥

绝了!高市早苗大胜,郑丽文冷笑着送她一句话,大陆已不用再说啥

东极妙严
2026-02-10 12:36:32
人到中年,体面散场是最好的结局

人到中年,体面散场是最好的结局

青苹果sht
2026-02-05 06:28:54
“两业融合”步入深水区,安得智联凭何成为两业融合标杆?

“两业融合”步入深水区,安得智联凭何成为两业融合标杆?

一点财经
2026-02-10 16:55:33
女老师与学生长期开房:高颜值照流出,肮脏细节披露,官方回应

女老师与学生长期开房:高颜值照流出,肮脏细节披露,官方回应

博士观察
2026-02-10 09:56:31
被张雪峰劝去学计算机软件的倒霉了!科技公司大量用AI取代程序员

被张雪峰劝去学计算机软件的倒霉了!科技公司大量用AI取代程序员

火山诗话
2026-02-09 13:33:54
中南建筑集团破产

中南建筑集团破产

地产微资讯
2026-02-08 20:35:40
89年,罗瑞卿次子官至正师级,出差法国为何选择叛国,成罗家禁忌

89年,罗瑞卿次子官至正师级,出差法国为何选择叛国,成罗家禁忌

抽象派大师
2026-02-10 12:50:21
2026年的春运,长途大巴结结实实给了“智能时代”一记耳光

2026年的春运,长途大巴结结实实给了“智能时代”一记耳光

老特有话说
2026-02-09 23:34:10
佛山一工厂通知火了!年终奖6%年薪,放假21天,套路太深引发争议

佛山一工厂通知火了!年终奖6%年薪,放假21天,套路太深引发争议

火山詩话
2026-02-10 15:19:21
印有战死运动员!乌克兰钢架雪车运动员头盔,遭国际奥委会禁用

印有战死运动员!乌克兰钢架雪车运动员头盔,遭国际奥委会禁用

全景体育V
2026-02-10 08:25:29
海口死伤案件,别墅里的女主人年仅36岁,三个可爱的孩子相伴在侧

海口死伤案件,别墅里的女主人年仅36岁,三个可爱的孩子相伴在侧

天气观察站
2026-02-09 11:21:16
牢A还能蹦跶几天?

牢A还能蹦跶几天?

不正确
2026-02-10 09:52:58
2026-02-10 18:35:00
北青网-北京青年报 incentive-icons
北青网-北京青年报
北青网官方网易号
1080052文章数 853937关注度
往期回顾 全部

科技要闻

Seedance刷屏:网友们玩疯 影视圈瑟瑟发抖

头条要闻

手术中面罩意外砸眼 患者复查发现右眼眼球有线头残留

头条要闻

手术中面罩意外砸眼 患者复查发现右眼眼球有线头残留

体育要闻

NBA上演全武行,超大冲突4人驱逐!

娱乐要闻

全红婵官宣喜讯,杂志首秀太惊艳

财经要闻

雀巢中国近千经销商的“追债记”

汽车要闻

应用于190KW四驱Ultra版 方程豹钛7搭载天神之眼5.0

态度原创

健康
本地
亲子
手机
数码

转头就晕的耳石症,能开车上班吗?

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

亲子要闻

韩国幼儿园陷经营困境 政府拟构建停业支援机制

手机要闻

“爱马仕橙”iPhone 17 Pro助苹果终结三年销售颓势,中国市场猛增38%

数码要闻

胎死腹中的RTX 3080 Ti 20GB首测!显存更大 但只有3080的水平

无障碍浏览 进入关怀版