网易首页 > 网易号 > 正文 申请入驻

Soul App 等开源歌声合成模型 SoulX-Singer

0
分享至

过去一年,生成式人工智能在音乐行业的应用正不断创造新体验,但歌唱语音合成领域(SVS,Singing Voice Synthesis)整体进展相对缓慢。

为拓展这一领域,近日,Soul App AI 团队(Soul AI Lab)联合吉利汽车研究院人工智能中心(AIC)、天津大学视听觉认知计算团队和西北工业大学音频语音与语言处理研究组(ASLP@NPU),正式开源歌声合成模型SoulX-Singer,这是一个面向真实工业场景设计的高质量零样本歌声合成模型,超42000小时训练数据,覆盖多语言、多音色及多种演唱风格,在稳定性、可控性与泛化能力方面,均达到了当前开源 SVS 模型中的领先水平。

SVS(Singing Voice Synthesis,歌唱语音合成)是一种根据歌词和乐谱生成歌声的技术。相比于普通语音合成(TTS,Text-to-Speech Synthesis),SVS 需要对音高、音律以及演唱风格等进行精细控制,以实现自然且富有表现力的歌声输出。与近期热门的 Music Generation(自动生成整段音乐或伴奏)不同,SVS 专注于可由 MIDI 控制的人声生成,因此在虚拟歌手、歌词演绎以及多语言歌声创作等场景中展现出独特价值。


Demo Page:

https://soul-ailab.github.io/soulx-singer/

Technical Report:

https://github.com/Soul-AILab/SoulX-Singer/blob/main/assets/technical-report.pdf

Source Code:

https://github.com/Soul-AILab/SoulX-Singer

Hugging Face:

https://huggingface.co/Soul-AILab/SoulX-Singer

效果展示

以下示例中的人声由 SoulX-Singer 在零样本(Zero-shot)条件下生成

SoulX-Singer介绍


SoulX-Singer 结构简图过去一段时间,语音合成与音乐生成领域迎来了快速发展,大模型与生成式 AI 持续刷新行业认知。然而,与这一热潮形成对比的是,行业内仍缺乏一个真正稳定可用、同时支持零样本(Zero-shot)生成的开源歌声合成(SVS)模型,这很大程度上制约了 SVS 技术在真实业务场景中的应用与落地。

在这样的背景下,SoulX-Singer 正式开源。SoulX-Singer 是一个面向真实工业应用场景设计的零样本歌声合成模型,其核心目标是在未见过歌手音色的情况下,实现稳定、自然且高度可控的歌声生成。为此,模型在整体架构、建模范式以及控制机制上进行了针对 SVS 场景的系统性设计。

在模型架构上,SoulX-Singer 采用基于Flow Matching 的生成建模范式,并将歌声合成问题建模为一种 audio infilling(音频补全)任务。针对歌声合成中“歌词—旋律—发声”三者强耦合的特点,SoulX-Singer 在建模阶段显式引入了 note 级别的对齐机制。

模型通过构建歌词、MIDI 音符(note)与声学特征之间的精细对齐关系,使得每一个音符的 起止时间、音高(pitch)以及持续时长 都能够被准确建模和独立控制。这一设计使得模型不仅能够忠实还原乐谱信息,还可以在生成阶段灵活调整音符结构,从而满足音乐编辑、重编曲等复杂需求。

大规模 SVS 训练数据,夯实零样本能力基础

零样本歌声合成对训练数据的规模、多样性与覆盖范围提出了极高要求。SoulX-Singer 得益于超过 42000 小时的高质量歌声数据进行训练,覆盖多语言、多音色及多种演唱风格。

在如此大规模数据的支持下,模型在面对未见过的歌手与复杂音乐条件时,依然能够保持稳定、自然且高质量的合成表现。在实际测试中,SoulX-Singer 展现出了良好的鲁棒性和一致性,为零样本歌声合成技术从“可演示”走向“可使用”提供了坚实基础。

Music Score 与 Melody 多种控制方式

在生成控制能力方面,SoulX-Singer同时支持基于Music Score(MIDI) 和基于 Melody 的两种歌声合成控制方式:

Music Score(MIDI)驱动生成支持直接基于乐谱与歌词生成歌声,适用于音乐创作、歌词编辑、歌曲重制等场景,具备音符级别的时长与节奏控制能力。

Melody驱动生成支持从已有歌曲旋律出发进行歌声合成,可复刻参考音频中的演唱技巧与表达方式,适用于翻唱、风格迁移等应用场景。

这种双控制范式为实际音乐制作流程提供了更高的灵活性,使SoulX-Singer能够覆盖从“从零创作”到“基于已有歌曲再创作”的多种使用需求。

多语言支持,面向真实应用场景

SoulX-Singer 当前支持普通话、英语和粤语三种语言的歌声合成,并在不同语言和音乐风格下均展现出稳定一致的合成质量。这一多语言能力为其在内容创作、虚拟歌手、互动娱乐等应用场景中的落地提供了更广阔的空间。

多维评测验证,展现 SOTA 性能


在评测方面,SoulX-Singer 在 GMO-SVS 和 SoulX-Singer-Eval 两个数据集上,对零样本歌声合成、歌词编辑后的歌声合成以及跨语言歌声合成等多项任务进行了系统评测。

其中,GMO-SVS 综合了 GTSinger、M4Singer 和 Opencpop 等主流开源 SVS 数据集;而 SoulX-Singer-Eval 则专门面向严格的零样本场景构建,通过独立音乐人等渠道采集数据,确保测试歌手未出现在训练集中。

实验结果表明,SoulX-Singer 在语义清晰度、歌手相似度、基频一致性以及整体合成质量等多个维度上均显著优于此前的相关工作;在主观听感评测中,其表现同样取得了明显领先优势。


尽管此前歌声合成领域已经涌现出一些优秀的研究工作,但受限于训练数据规模或控制方式单一等因素,相关模型在真实使用场景中仍面临诸多挑战。SoulX-Singer 的发布提供了一个真正鲁棒、灵活可控且面向工业落地的零样本歌声合成解决方案,为歌声合成技术在UGC音乐创作等方向的实际应用探索带来了积极意义。

SoulX-Singer 也延续了Soul AI团队的开源工作。此前,Soul AI团队已陆续开源了播客语音合成模型SoulX-Podcast、实时数字人生成模型SoulX-FlashTalk,在语音、歌声、实时数字人、视频等不同领域提供了可落地的多模态生成方案,不同技术组合方案也将能够为行业拓展更多应用场景。接下来,团队还将继续夯实技术基建,同时,与全球开发者携手,探索AI能力的新可能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
和平委员会解散,七国集团瓦解,特朗普转向中国组建五国集团

和平委员会解散,七国集团瓦解,特朗普转向中国组建五国集团

残梦重生来
2026-02-11 23:33:50
恶毒!网传广东一婚车被横幅拦截,“新郎不是我,但新娘爱过我”

恶毒!网传广东一婚车被横幅拦截,“新郎不是我,但新娘爱过我”

火山詩话
2026-02-11 15:59:03
马筱梅突然提前报喜,宝宝意外降生,汪小菲专程赴曼谷还愿超暖心

马筱梅突然提前报喜,宝宝意外降生,汪小菲专程赴曼谷还愿超暖心

做一个合格的吃瓜群众
2026-02-12 18:25:01
感谢日本籍主帅!史上最强U17国足故意放水 仍3-2双杀 剑指世界杯

感谢日本籍主帅!史上最强U17国足故意放水 仍3-2双杀 剑指世界杯

侃球熊弟
2026-02-12 00:35:09
外交部:中国政府高度重视食品安全

外交部:中国政府高度重视食品安全

财联社
2026-02-12 15:41:11
近八成日本人表示,已无必要改善中日关系,高市早苗乐了

近八成日本人表示,已无必要改善中日关系,高市早苗乐了

吃货的分享
2026-02-12 15:45:13
米兰冬奥|中国速滑名将廉子文被取消成绩,虽尊重判罚但仍感意外

米兰冬奥|中国速滑名将廉子文被取消成绩,虽尊重判罚但仍感意外

文汇报
2026-02-12 07:39:26
59岁宋祖英现身活动状态惊艳!短发利落大气,黑色套装优雅端庄

59岁宋祖英现身活动状态惊艳!短发利落大气,黑色套装优雅端庄

琴声飞扬
2026-02-12 11:51:25
内蒙古一200斤男子欠5000万不还,被债主装进铁笼沉入80米水库,谁料,2年后才被捞出...

内蒙古一200斤男子欠5000万不还,被债主装进铁笼沉入80米水库,谁料,2年后才被捞出...

品读时刻
2026-02-11 17:18:30
性商训练营乱象调查:3天要价近五千,还兜售“缩阴”凝胶

性商训练营乱象调查:3天要价近五千,还兜售“缩阴”凝胶

南方都市报
2026-02-12 11:46:15
外交部:中美元首通话中 特朗普总统再次表达了4月访华的愿望

外交部:中美元首通话中 特朗普总统再次表达了4月访华的愿望

财联社
2026-02-12 15:26:07
中国已购买部分美国政府出售的委内瑞拉石油?外交部回应

中国已购买部分美国政府出售的委内瑞拉石油?外交部回应

北青网-北京青年报
2026-02-12 19:44:01
中国造防空导弹遭猎杀,无人机也被摧毁,“凶手”来自土耳其

中国造防空导弹遭猎杀,无人机也被摧毁,“凶手”来自土耳其

策略述
2026-02-11 16:22:12
在日华人直言:如今中国要是再和日本发生冲突,根本撑不过14年!

在日华人直言:如今中国要是再和日本发生冲突,根本撑不过14年!

南权先生
2026-02-12 15:39:07
商家称新娘穿脏敬酒服,竟“焊接”吊牌退货!商家:不知道你嫁得好不好,但路一定不好走……

商家称新娘穿脏敬酒服,竟“焊接”吊牌退货!商家:不知道你嫁得好不好,但路一定不好走……

扬子晚报
2026-02-12 07:35:48
没了!再见,杨瀚森,主帅正式摊牌:没那么多时间给年轻人

没了!再见,杨瀚森,主帅正式摊牌:没那么多时间给年轻人

球童无忌
2026-02-12 15:28:35
中国人民银行通告全国:2月1日起,人民币现金收付新规正式施行

中国人民银行通告全国:2月1日起,人民币现金收付新规正式施行

纵拥千千晚星
2026-02-12 17:01:18
乌军多线反攻,南线平推15公里,俄国人慌了

乌军多线反攻,南线平推15公里,俄国人慌了

史政先锋
2026-02-12 17:57:46
上海七莘路和黎安路附近发生塌陷,11日曾因在建地铁项目局部渗漏紧急抢险;闵行区政府:无人员伤亡

上海七莘路和黎安路附近发生塌陷,11日曾因在建地铁项目局部渗漏紧急抢险;闵行区政府:无人员伤亡

大风新闻
2026-02-12 16:17:08
太意外!38岁中国教练率意大利击败中国队夺金牌,曾婉拒回国执教

太意外!38岁中国教练率意大利击败中国队夺金牌,曾婉拒回国执教

法老不说教
2026-02-12 17:05:59
2026-02-12 23:04:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1836文章数 160关注度
往期回顾 全部

科技要闻

10倍速的一夜:三大模型春节前的暗战

头条要闻

安徽一学校宿舍挑梁开裂 部分挑梁甚至已经钢筋裸露

头条要闻

安徽一学校宿舍挑梁开裂 部分挑梁甚至已经钢筋裸露

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科?

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

时尚
家居
亲子
数码
健康

等了一整年的红包封面,今年长这样!

家居要闻

本真栖居 爱暖伴流年

亲子要闻

国家卫生健康委:鼓励有条件的基层医疗卫生机构单独设置儿科

数码要闻

1099元!AOC 25G41SE/WS显示器开启电竞新体验

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版