工业级Zero-Shot新突破，YingMusic-SVC攻克和声干扰|音色|鲁棒性|svc|大模型

分享至

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在，欢迎加入共同成长。

近年来，随着 “AI 孙燕姿” 等歌声作品在社交媒体广泛传播，以及 Suno、Udio 等生成式音乐模型在大众用户中的普及，音乐生成与歌声转换（Singing Voice Conversion, SVC）正逐渐成为生成式 AI 的重要研究方向。与此同时，从 So-VITS-SVC 到 RVC 等开源项目的快速迭代，使得 SVC 的门槛不断降低，也推动了相关技术在创作者与开发者群体中的普及。

然而，与社区中常见的演示样例相比，Zero-Shot（零样本）歌声转换在真实应用场景下仍面临巨大的技术挑战。现有大多数 SOTA 模型通常在干净、无伴奏的人声数据上训练与评测，而真实世界中的输入却往往是包含伴奏、和声、混响与各种混音效果的整首歌曲。

即便经过声源分离处理，得到的“人声轨道”仍可能残留背景谐波、叠加人声甚至分离伪影，从而进一步导致 F0（基频）提取不稳定。上述因素使得模型在转换过程中容易出现音色不稳定、跑调、破音甚至整体崩坏，严重限制了 Zero-Shot SVC 技术在大规模、工业级场景中的可用性。

针对这一关键问题，来自巨人网络 AI Lab、清华大学 SATLab、伦敦大学学院（UCL）与华东理工大学的研究团队提出了 YingMusic-SVC —— 一个面向真实应用需求、具备高鲁棒性的 Zero-Shot SVC 框架。

该工作在模型层面引入了多项面向歌声的归纳偏置（inductive biases），并首次将 Flow-GRPO 强化学习方法应用于基于 DiT 的歌声转换模型，使模型能够在保持音色一致性与清晰度的基础上，直接优化听感与音乐美学等高层属性。相关模型、代码和数据集已开源已上线始智AI-wisemodel开源社区，同时在该模型页面支持部署在线体验，欢迎使用。

相关地址

https://wisemodel.cn/organization/Giant_AILab

图 1 现有开源 SVC 模型与 YingMusic-SVC 模型的对比

实验结果显示，YingMusic-SVC 在伴奏泄漏、和声干扰等复杂混音条件下仍保持稳定表现，并在多项指标上显著超越现有开源 SOTA 模型，为 Zero-Shot SVC 的工程落地提供了实际可能性。。目前，该团队计划将完整的工业级 SVC 流程（包含推理代码、模型权重、benchmark测试集及优化后的分离模型）全开源，推动 Zero-Shot SVC 技术在真实场景下的研究与应用。

Demo展示：

注：原曲输入（带有和声、混响等音乐后期制作）

注：seedvc demo，模型在遇到和声音轨时会有破音。

注：RVC demo，模型同样在遇到和声音轨时会有破音。

注：YingMusic-SVC demo，模型对和声音轨等有着较好的鲁棒性。

01.

核心痛点与解决方案

歌声转换（SVC）旨在将源歌手的音色转换为目标歌手，同时保留原始的音乐内容与旋律。尽管 RVC 等开源框架已能实现逼真的转换效果，但在面向真实工业场景时，特别是 Zero-Shot 场景下，仍存在巨大的技术鸿沟：

非理想输入源的鲁棒性差：现有系统大多在干净的干声上进行评估。但在实际业务中，输入往往是包含伴奏的完整歌曲。即使经过前置的人声分离，分离出的轨道仍常伴有和声残留（Harmony Bleed）、混响或回声。将这种“不完美”的人声作为输入，会导致转换结果出现明显的伪影或杂音。

歌唱特有属性建模不足：大多数 Zero-Shot SVC 模型仅简单地将语音转换（VC）架构加上 F0 条件控制，缺乏针对“歌唱”的归纳偏置设计。歌声相比语音拥有更大的动态范围（Dynamics）和更丰富的高频谐波细节，通用模型往往难以捕捉这些特征，导致高音沉闷或细节丢失。

听感与优化目标的错位：传统的监督学习损失函数（如 MSE）难以直接优化自然度、音色一致性和音乐美感等高层感知属性。这导致模型生成的音频虽然参数指标尚可，但主观听感仍有差距。

图 2：YingMusic-SVC的模型架构及训练方法图

针对上述挑战，团队提出了 YingMusic-SVC，这是一个面向工业级应用的鲁棒 Zero-Shot SVC 系统。该系统基于 DiT 架构进行了面向歌声建模的优化设计，采用三阶段的训练方式，并首次将强化学习（RL）应用于DiT架构的 SVC 的后训练阶段。

1、歌唱特异性的模型增强（Singing-Specific Enhancements）

为更精准地建模歌唱特征，优化歌声中高频细节与音色动态表现，团队做了多项改进：

基于 RVC 的音色随机化（RVC Timbre Shifter）：不同于直接使用原始音频，系统引入了一个在 120 人歌声数据上预训练的 RVC 模块，将输入歌声转换为随机音色后再进行内容编码。这一步骤有效去除了源歌手的音色残留，使内容特征更加纯净，从而提升了转换后的咬字准确性。

F0 感知的动态音色适配（F0-Aware Adaptive Timbre）：歌声的音质会随音高变化（如低音胸腔共鸣 vs 高音头腔共鸣）。模型引入了 F0 感知的音色适配模块，根据当前音高动态调整音色 Embedding，从而更真实地还原歌手在不同音域下的表现力。

能量平衡流匹配损失（Energy-Balanced Flow Matching Loss）：针对歌声高频能量低、易被损失函数忽略的问题，设计了频率加权的损失函数，赋予高频细节更高的权重，显著提升了高频谐波和呼吸声的还原度。

图 3：YingMusic-SVC的关键优化点

2、三阶段训练：

先以 CPT (Continuous Pre-training) 适配并稳定歌唱特异模块，其后在精选与增强语料上进行 SFT (Supervised Fine-tuning)以提升鲁棒性，最后以 Flow-GRPO 的多目标奖励开展 RL 后训练，直接优化可懂度、音色与美学感知。下面依次展开：

继续预训练（CPT）

模型训练从 SeedVC 的 checkpoint 出发，利用混合的说话与歌声数据进行持续预训练，以逐步适配并稳定新增的歌唱特异性模块。这一阶段旨在让模型在保持语音建模能力的同时，更好地迁移至歌唱场景，为后续的监督微调与强化学习奠定稳健基础。

鲁棒性监督微调（Robust SFT）

为了应对真实场景中的和声残留和 F0 提取错误，团队构建了鲁棒微调策略。通过在训练中引入随机 F0 扰动（模拟抖动、滑音误差）和额外的分轨和声数据，强制模型学习从受污染的输入中重建干净歌声流（flow），从而大幅提升了对工业级输入的容错率。

基于 Flow-GRPO 的 RL 后训练

这是 Flow-GRPO 算法在 SVC 领域的首次应用。团队基于歌声转换任务的多维特性，兼顾语义可懂度、音色一致性与主观听感三方面指标，设计了一个多目标奖励函数，包含：

智能度奖励（Intelligibility）：基于 ASR 模型的词错误率（WER）优化咬字清晰度。

音色相似度奖励（Timbre Similarity）：基于声纹模型确保目标音色的高保真还原。

美学质量奖励（Aesthetic Quality）：引入 Audiobox Aesthetics 模型优化听感美誉度。通过 RL，模型学会了如何在保证还原度的同时，生成更符合人类审美的歌声。

02.

实验结果

研究团队构建了一个覆盖多种真实场景、具有不同难度等级的测试集，并计划向社区完全开源。其中包括：

GT Leading：干净且无伴唱的独立主唱轨道，用于评估模型的上限表现；

Mix Vocal：将主唱与和声混合，专门模拟伴奏分离不彻底、残留和声干扰的真实应用场景；

Ours Leading：使用团队自研的分离模型得到的主唱轨，用于测试实际生产链路中的鲁棒性。

在对比实验中，YingMusic-SVC 在各项指标上均超越了目前最强的开源基线 Seed-VC 和 FreeSVC 。

抗干扰能力强：在最具挑战性的 Mix Vocal 设置下，Seed-VC 的 F0 相关性（LogF0PCC）下降到了 84.02%，而 YingMusic-SVC 依然保持在 86.47%，且 CMOS（比较平均意见分）达到了 3.31 的高分，远超基线的 2.93。

听感更佳：得益于 RL 的引入，YingMusic-SVC 在三种评测设置下的美学评分（CE/CU）均取得了显著优势，证明了 GRPO 在提升生成质量方面的有效性。

消融实验证明：去掉 RVC Timbre Shifter 或 RL 模块后，各项指标均有明显下降，验证了每个模块的必要性。

针对三阶段的消融实验证明了 Flow-GRPO 模块的有效性，将其去除后，模型的 CMOS 与美学评分（CE/CU）有明显下降。此外，研究团队还对强化学习的关键超参数进行了深度分析，具体可见图 3，揭示了 RL 在 SVC 任务中的敏感性：

图 4 GRPO 消融实验图

03.

未来展望

YingMusic-SVC = 歌声专属结构优化 + 工业级鲁棒性增强 + Flow-GRPO优化。它解决的不仅是“能不能转”的问题，而是真实复杂场景下“好不好用”的问题。

YingMusic-SVC 为零样本歌声转换系统提供了一条从理论建模到工业实践的系统性路径，成功证明了通过系统化的数据构建与训练方法，可以构建出能在真实歌曲复杂场景中稳定表现的 SVC 系统。通过歌声归纳偏置、鲁棒训练策略以及强化学习的巧妙结合，模型在音色一致性、歌词可懂度、音高表现与整体自然度上，均达到了当前开源系统中的顶尖水平。凭借其在和声干扰等真实复杂场景中的卓越鲁棒性，YingMusic-SVC已具备直接落地部署的能力，为Zero-Shot svc提供了扎实的技术能力。

研究团队表示，未来将进一步探索跨语言歌声风格迁移、更细粒度的奖励建模以及实时推理优化等方向，并持续推动歌声转换技术在 AIGC 创作、虚拟角色、音乐教育与用户生成内容等领域中的普惠化应用落地。

同时，巨人网络 AI Lab 本次联合清华大学与西北工业大学推出三项研究成果：

除了YingMusic-SVC 外，wisemodel社区也将陆续推出YingVideo-MV、与 YingMusic-Singer。

04.

在线体验/API

YingMusic-SVC模型页面支持部署在线体验，选中该镜像，点击在线部署—部署在线体验。进入后，根据需要相应的信息进行选择，点击“提交订单”按钮，体验进入后台的启动阶段。大概等待1分钟左右，体验进入运行中的状态。

公开状态的在线体验可以在wisemodel社区-体验与API”的页面上点击相应的体验，进入体验的页面；私有状态的在线体验需要前往“用户中心-我的资源-体验”进入体验的页面。

巨人网络 AI Lab 成立于 2022 年，是隶属于巨人网络的人工智能技术落地与研究机构。今年以来，团队多项人工智能研究成果入选ACM MM、ICASSP、Interspeech等国际顶级学术会议，覆盖多模态生成、音视频合成及多智能体等技术方向。

----- END -----

wisemodel相关：

系列模型：

关于wisemodel更多

欢迎持续关注和支持

开源社区建设需要长期坚持和投入，更需要广大用户的积极参与、贡献和维护，欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果，包括模型、数据集和代码等发布到 wisemodel.cn 社区，共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信，申请加入wisemodel社群，持续关注wisemodel.cn开源社区动态。

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来，逐渐成为影响力日益扩大的中立开放的AI开源社区，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员，欢迎感兴趣的朋友加盟，可以通过添加wisemodel微信，或者将简历投递到邮箱：liudaoquan@wisemodel.cn

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果，鼓励高校实验室、大企业研究团队、个人等，在wisemodel平台上分享各类优质内容，可以是AI领域最新论文解读、最新开源成果介绍，也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn，也可以扫码添加wisemodel微信。

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将打造成“HuggingFace”之外最活跃的AI开源社区，汇聚主要AI开源模型、数据集和代码等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。

向上滑动查看

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.