网易首页 > 网易号 > 正文 申请入驻

工业级Zero-Shot新突破,YingMusic-SVC攻克和声干扰

0
分享至


始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。

近年来,随着 “AI 孙燕姿” 等歌声作品在社交媒体广泛传播,以及 Suno、Udio 等生成式音乐模型在大众用户中的普及,音乐生成与歌声转换(Singing Voice Conversion, SVC)正逐渐成为生成式 AI 的重要研究方向。与此同时,从 So-VITS-SVC 到 RVC 等开源项目的快速迭代,使得 SVC 的门槛不断降低,也推动了相关技术在创作者与开发者群体中的普及。

然而,与社区中常见的演示样例相比,Zero-Shot(零样本)歌声转换在真实应用场景下仍面临巨大的技术挑战。现有大多数 SOTA 模型通常在干净、无伴奏的人声数据上训练与评测,而真实世界中的输入却往往是包含伴奏、和声、混响与各种混音效果的整首歌曲。

即便经过声源分离处理,得到的“人声轨道”仍可能残留背景谐波、叠加人声甚至分离伪影,从而进一步导致 F0(基频)提取不稳定。上述因素使得模型在转换过程中容易出现音色不稳定、跑调、破音甚至整体崩坏,严重限制了 Zero-Shot SVC 技术在大规模、工业级场景中的可用性。

针对这一关键问题,来自巨人网络 AI Lab、清华大学 SATLab、伦敦大学学院(UCL)与华东理工大学的研究团队提出了 YingMusic-SVC —— 一个面向真实应用需求、具备高鲁棒性的 Zero-Shot SVC 框架。

该工作在模型层面引入了多项面向歌声的归纳偏置(inductive biases),并首次将 Flow-GRPO 强化学习方法应用于基于 DiT 的歌声转换模型,使模型能够在保持音色一致性与清晰度的基础上,直接优化听感与音乐美学等高层属性。相关模型、代码和数据集已开源已上线始智AI-wisemodel开源社区,同时在该模型页面支持部署在线体验,欢迎使用。


相关地址

https://wisemodel.cn/organization/Giant_AILab


图 1 现有开源 SVC 模型与 YingMusic-SVC 模型的对比

实验结果显示,YingMusic-SVC 在伴奏泄漏、和声干扰等复杂混音条件下仍保持稳定表现,并在多项指标上显著超越现有开源 SOTA 模型,为 Zero-Shot SVC 的工程落地提供了实际可能性。。目前,该团队计划将完整的工业级 SVC 流程(包含推理代码、模型权重、benchmark测试集 及优化后的分离模型)全开源,推动 Zero-Shot SVC 技术在真实场景下的研究与应用 。

Demo展示:

注:原曲输入(带有和声、混响等音乐后期制作)

注:seedvc demo,模型在遇到和声音轨时会有破音。

注:RVC demo,模型同样在遇到和声音轨时会有破音。

注:YingMusic-SVC demo,模型对和声音轨等有着较好的鲁棒性。

01.

核心痛点与解决方案

歌声转换(SVC)旨在将源歌手的音色转换为目标歌手,同时保留原始的音乐内容与旋律 。尽管 RVC 等开源框架已能实现逼真的转换效果,但在面向真实工业场景时,特别是 Zero-Shot 场景下,仍存在巨大的技术鸿沟:

  • 非理想输入源的鲁棒性差:现有系统大多在干净的干声上进行评估。但在实际业务中,输入往往是包含伴奏的完整歌曲。即使经过前置的人声分离,分离出的轨道仍常伴有和声残留(Harmony Bleed)、混响或回声 。将这种“不完美”的人声作为输入,会导致转换结果出现明显的伪影或杂音 。

  • 歌唱特有属性建模不足:大多数 Zero-Shot SVC 模型仅简单地将语音转换(VC)架构加上 F0 条件控制,缺乏针对“歌唱”的归纳偏置设计 。歌声相比语音拥有更大的动态范围(Dynamics)和更丰富的高频谐波细节,通用模型往往难以捕捉这些特征,导致高音沉闷或细节丢失 。

  • 听感与优化目标的错位:传统的监督学习损失函数(如 MSE)难以直接优化自然度、音色一致性和音乐美感等高层感知属性 。这导致模型生成的音频虽然参数指标尚可,但主观听感仍有差距。


图 2:YingMusic-SVC的模型架构及训练方法图

针对上述挑战,团队提出了 YingMusic-SVC,这是一个面向工业级应用的鲁棒 Zero-Shot SVC 系统。该系统基于 DiT 架构进行了面向歌声建模的优化设计,采用三阶段的训练方式,并首次将强化学习(RL)应用于DiT架构的 SVC 的后训练阶段。

1、歌唱特异性的模型增强(Singing-Specific Enhancements)

为更精准地建模歌唱特征,优化歌声中高频细节与音色动态表现,团队做了多项改进:

  • 基于 RVC 的音色随机化(RVC Timbre Shifter):不同于直接使用原始音频,系统引入了一个在 120 人歌声数据上预训练的 RVC 模块,将输入歌声转换为随机音色后再进行内容编码 。这一步骤有效去除了源歌手的音色残留,使内容特征更加纯净,从而提升了转换后的咬字准确性 。

  • F0 感知的动态音色适配(F0-Aware Adaptive Timbre): 歌声的音质会随音高变化(如低音胸腔共鸣 vs 高音头腔共鸣)。模型引入了 F0 感知的音色适配模块,根据当前音高动态调整音色 Embedding,从而更真实地还原歌手在不同音域下的表现力 。

  • 能量平衡流匹配损失(Energy-Balanced Flow Matching Loss): 针对歌声高频能量低、易被损失函数忽略的问题,设计了频率加权的损失函数,赋予高频细节更高的权重,显著提升了高频谐波和呼吸声的还原度 。


图 3:YingMusic-SVC的关键优化点

2、三阶段训练

先以 CPT (Continuous Pre-training) 适配并稳定歌唱特异模块,其后在精选与增强语料上进行 SFT (Supervised Fine-tuning)以提升鲁棒性,最后以 Flow-GRPO 的多目标奖励开展 RL 后训练,直接优化可懂度、音色与美学感知。下面依次展开:

  • 继续预训练 (CPT)

模型训练从 SeedVC 的 checkpoint 出发,利用混合的说话与歌声数据进行持续预训练,以逐步适配并稳定新增的歌唱特异性模块。这一阶段旨在让模型在保持语音建模能力的同时,更好地迁移至歌唱场景,为后续的监督微调与强化学习奠定稳健基础。

  • 鲁棒性监督微调(Robust SFT)

为了应对真实场景中的和声残留和 F0 提取错误,团队构建了鲁棒微调策略。通过在训练中引入 随机 F0 扰动(模拟抖动、滑音误差)和 额外的分轨和声数据,强制模型学习从受污染的输入中重建干净歌声流 (flow),从而大幅提升了对工业级输入的容错率 。

  • 基于 Flow-GRPO 的 RL 后训练

这是 Flow-GRPO 算法在 SVC 领域的首次应用 。团队基于歌声转换任务的多维特性,兼顾语义可懂度、音色一致性与主观听感三方面指标,设计了一个多目标奖励函数,包含:

  • 智能度奖励(Intelligibility):基于 ASR 模型的词错误率(WER)优化咬字清晰度 。

  • 音色相似度奖励(Timbre Similarity):基于声纹模型确保目标音色的高保真还原 。

  • 美学质量奖励(Aesthetic Quality)引入 Audiobox Aesthetics 模型优化听感美誉度 。通过 RL,模型学会了如何在保证还原度的同时,生成更符合人类审美的歌声 。

02.

实验结果

研究团队构建了一个覆盖多种真实场景、具有不同难度等级的测试集,并计划向社区完全开源。其中包括:

  • GT Leading干净且无伴唱的独立主唱轨道,用于评估模型的上限表现;

  • Mix Vocal将主唱与和声混合,专门模拟伴奏分离不彻底、残留和声干扰的真实应用场景;

  • Ours Leading使用团队自研的分离模型得到的主唱轨,用于测试实际生产链路中的鲁棒性。

在对比实验中,YingMusic-SVC 在各项指标上均超越了目前最强的开源基线 Seed-VC 和 FreeSVC 。


  • 抗干扰能力强:在最具挑战性的 Mix Vocal 设置下,Seed-VC 的 F0 相关性(LogF0PCC)下降到了 84.02%,而 YingMusic-SVC 依然保持在 86.47%,且 CMOS(比较平均意见分)达到了 3.31 的高分,远超基线的 2.93。

  • 听感更佳:得益于 RL 的引入,YingMusic-SVC 在三种评测设置下的美学评分(CE/CU)均取得了显著优势,证明了 GRPO 在提升生成质量方面的有效性 。

  • 消融实验证明:去掉 RVC Timbre Shifter 或 RL 模块后,各项指标均有明显下降,验证了每个模块的必要性 。


针对三阶段的消融实验证明了 Flow-GRPO 模块的有效性,将其去除后,模型的 CMOS 与美学评分(CE/CU)有明显下降。此外,研究团队还对强化学习的关键超参数进行了深度分析,具体可见图 3,揭示了 RL 在 SVC 任务中的敏感性:



图 4 GRPO 消融实验图

03.

未来展望

YingMusic-SVC = 歌声专属结构优化 + 工业级鲁棒性增强 + Flow-GRPO优化。它解决的不仅是“能不能转”的问题,而是真实复杂场景下“好不好用”的问题。

YingMusic-SVC 为零样本歌声转换系统提供了一条从理论建模到工业实践的系统性路径,成功证明了通过系统化的数据构建与训练方法,可以构建出能在真实歌曲复杂场景中稳定表现的 SVC 系统。通过歌声归纳偏置鲁棒训练策略以及强化学习的巧妙结合,模型在音色一致性、歌词可懂度、音高表现与整体自然度上,均达到了当前开源系统中的顶尖水平。凭借其在和声干扰等真实复杂场景中的卓越鲁棒性,YingMusic-SVC已具备直接落地部署的能力,为Zero-Shot svc提供了扎实的技术能力。

研究团队表示,未来将进一步探索跨语言歌声风格迁移、更细粒度的奖励建模以及实时推理优化等方向,并持续推动歌声转换技术在 AIGC 创作、虚拟角色、音乐教育与用户生成内容等领域中的普惠化应用落地。

同时,巨人网络 AI Lab 本次联合清华大学与西北工业大学推出三项研究成果:

除了YingMusic-SVC 外,wisemodel社区也将陆续推出YingVideo-MV、与 YingMusic-Singer。

04.

在线体验/API

YingMusic-SVC模型页面支持部署在线体验,选中该镜像,点击在线部署—部署在线体验。进入后,根据需要相应的信息进行选择,点击“提交订单”按钮,体验进入后台的启动阶段。大概等待1分钟左右,体验进入运行中的状态。


公开状态的在线体验可以在wisemodel社区-体验与API”的页面上点击相应的体验,进入体验的页面;私有状态的在线体验需要前往“用户中心-我的资源-体验”进入体验的页面。



巨人网络 AI Lab 成立于 2022 年,是隶属于巨人网络的人工智能技术落地与研究机构。今年以来,团队多项人工智能研究成果入选ACM MM、ICASSP、Interspeech等国际顶级学术会议,覆盖多模态生成、音视频合成及多智能体等技术方向。

----- END -----


wisemodel相关:

系列模型:

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
内蒙“女色虎”落马,靠陪睡高官上位,大肆敛财为了整容

内蒙“女色虎”落马,靠陪睡高官上位,大肆敛财为了整容

文史旺旺旺
2024-10-31 12:26:20
29.98万起!全新魏牌蓝山智能进阶版上市,要和问界M7掰手腕?

29.98万起!全新魏牌蓝山智能进阶版上市,要和问界M7掰手腕?

科学技术宅
2025-12-22 21:44:03
关系藏不住了!佟丽娅现身言承旭演唱会,才发现原来一切早有征兆

关系藏不住了!佟丽娅现身言承旭演唱会,才发现原来一切早有征兆

萧栝记录风土人情
2025-12-23 20:02:58
孙中山预言,中国若是迁都到这3座城,则有望称霸亚洲,是哪三座

孙中山预言,中国若是迁都到这3座城,则有望称霸亚洲,是哪三座

抽象派大师
2025-12-23 01:27:51
江苏富二代“不务正业”,折腾出3家龙头企业,如今轻松年入600亿

江苏富二代“不务正业”,折腾出3家龙头企业,如今轻松年入600亿

云景侃记
2025-12-24 19:47:40
欧阳娜娜好肥嫩

欧阳娜娜好肥嫩

情感大头说说
2025-12-25 07:42:11
英超球员2025年身价涨幅榜:沃尔特马德暴涨6250万欧第1

英超球员2025年身价涨幅榜:沃尔特马德暴涨6250万欧第1

懂球帝
2025-12-25 03:33:08
回炉重造,23年31号秀詹姆斯-纳吉加入贝勒大学并将出战NCAA联赛

回炉重造,23年31号秀詹姆斯-纳吉加入贝勒大学并将出战NCAA联赛

懂球帝
2025-12-25 09:15:12
联盟官方:国王后卫威斯布鲁克因假摔 被处以2000美元罚款

联盟官方:国王后卫威斯布鲁克因假摔 被处以2000美元罚款

北青网-北京青年报
2025-12-25 08:39:25
小区楼上天天晚上都有女的大声叫。。。

小区楼上天天晚上都有女的大声叫。。。

微微热评
2025-12-24 00:26:04
不再沉默,马杜罗告知190国,中方原油遭抢掠,委方主动对美出击

不再沉默,马杜罗告知190国,中方原油遭抢掠,委方主动对美出击

史料布籍
2025-12-24 23:22:22
林诗栋新教练到位!王励勤的“王牌”能带他冲破天花

林诗栋新教练到位!王励勤的“王牌”能带他冲破天花

眼界看视野
2025-12-24 20:48:02
祁发宝上将亮相,六排勋章胸前挂,淡然一笑尽显英雄本色

祁发宝上将亮相,六排勋章胸前挂,淡然一笑尽显英雄本色

老特有话说
2025-12-23 21:35:49
库里送祝福,科尔谈格林摊牌!美媒看好勇士胜独行侠,3点成关键

库里送祝福,科尔谈格林摊牌!美媒看好勇士胜独行侠,3点成关键

鱼崖大话篮球
2025-12-25 09:08:13
杀发小妻儿3人,崔某告诉狱友过几天就放他走,认为1命换3命不值

杀发小妻儿3人,崔某告诉狱友过几天就放他走,认为1命换3命不值

江山挥笔
2025-12-24 16:03:14
云南一职校学生提出“想杀猪”,校长和老师们凑钱安排,学生按猪、分肉、做菜全程参与

云南一职校学生提出“想杀猪”,校长和老师们凑钱安排,学生按猪、分肉、做菜全程参与

极目新闻
2025-12-24 13:21:57
20岁东莞少年王帅生命最后12分钟:电梯记录赴死前的挣扎

20岁东莞少年王帅生命最后12分钟:电梯记录赴死前的挣扎

调侃国际观点
2025-12-24 21:46:58
63岁大爷和37岁寡妇搭伙,女方什么也不要,新婚当夜提了1个要求

63岁大爷和37岁寡妇搭伙,女方什么也不要,新婚当夜提了1个要求

诡谲怪谈
2025-03-25 22:46:25
南博事件升级!已敲定6点定论,《江南春》送上拍卖场另有买家

南博事件升级!已敲定6点定论,《江南春》送上拍卖场另有买家

火山詩话
2025-12-24 10:55:06
倪妮太豪!在北京家里过圣诞,意外曝光内景,难怪她看不上冯绍峰

倪妮太豪!在北京家里过圣诞,意外曝光内景,难怪她看不上冯绍峰

心静物娱
2025-12-24 11:19:19
2025-12-25 09:52:49
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
426文章数 14关注度
往期回顾 全部

科技要闻

老板监视员工微信只需300元

头条要闻

路透社称中国造出EUV光刻机 "手搓"EUV光刻机难点披露

头条要闻

路透社称中国造出EUV光刻机 "手搓"EUV光刻机难点披露

体育要闻

26岁广西球王,在质疑声中成为本土得分王

娱乐要闻

怀孕增重30斤!阚清子惊传诞一女夭折?

财经要闻

美国未来18个月不对中国芯片加额外关税

汽车要闻

“运动版库里南”一月份亮相   或命名极氪9S

态度原创

家居
艺术
本地
健康
公开课

家居要闻

法式大平层 智能家居添彩

艺术要闻

毛主席草书背后的故事:小练字者迷失,书法之路揭示真相。

本地新闻

云游安徽|一川江水润安庆,一塔一戏一城史

这些新疗法,让化疗不再那么痛苦

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版