YingMusic-Singer突破“改词挤字”难题，强化学习落地SVS|乐谱|旋律|音素|音色|singer

YingMusic-Singer突破“改词挤字”难题，强化学习落地SVS

分享至

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在，欢迎加入共同成长。wisemodel推出邀请注册奖励活动，最高可得算力券+token包380元奖励，欢迎参与和支持！

歌声合成（SVS）指的是给定歌词和旋律，系统自动“唱”出一段完整的歌声。歌声合成在音乐制作与互动娱乐中极具潜力，但要实现真正的“任意歌词配任意旋律”，仍然有很多工作需要做：

依赖高成本强对齐数据：传统 SVS 系统普遍依赖精确的音素级时长对齐和人工标注的 MIDI 信息，这不仅制作成本极高，限制了数据规模，也导致模型难以泛化。

歌词-旋律不匹配难题：现有模型通常只能在“固定歌词对应固定旋律”的场景下工作。当用户尝试更改歌词（尤其是字数改变）时，由于音素数量与原始旋律节拍不匹配，模型容易出现发音生硬、节奏错位或“挤字”现象。

缺乏 Zero-shot 能力：大多数系统难以在未见过的音色或复杂的韵律结构下保持稳定，生成效果往往伴随音质退化，且推理时仍需依赖外部 MIDI 输入。

针对上述痛点，巨人网络 AI Lab、西工大 ASLP-lab联合推出了 YingMusic-Singer，这是一套无需精确旋律标注、支持任意歌词与旋律自由组合的 SVS 模型。现已上线始智AI-wisemodel开源社区，同时支持部署在线体验和API，欢迎使用。

模型地址

https://wisemodel.cn/models/Giant_AILab/YingMusic-Singer

01.

结构化旋律引导与GRPO强化学习

图1：YingMusic-Singer 模型整体架构图

1、基于DiT的无需标注的旋律引导

为了摆脱对人工强标注的依赖，同时确保歌词发音的可理解性，团队在原有 DiT 生成框架上引入了无需标注的旋律建模模块，并设计了相应的弱对齐机制，其核心设计包括：

在线旋律提取与联合优化：设计了一个参数可学的旋律编码器，直接从参考音频中提取帧级旋律表征，并与基于 DiT 的生成模型进行端到端联合训练。通过引入教师模型的蒸馏约束，确保提取的表征既包含准确的旋律语义，又能自适应下游生成任务。

CKA 表示层对齐约束：为了确保生成歌声遵循参考旋律的走向，团队引入了中心核对齐（CKA）损失。该机制显式地最大化旋律表征与 DiT 模型预测流（predicted flow）特征之间的相关性，使模型在优化中显示的关注输入特征中的旋律对齐关系，使模型可以精准复现参考音频中的旋律结构。

图2 ：句级歌词处理逻辑

2、句级时长建模：

传统 SVS 系统往往难以在不依赖精确音素标注的前提下，同时支持灵活调整歌词结构与长度。为解决这一限制，我们的模型基于十万条仅带句级时间戳的弱标注数据进行训练，在无需精确音素对齐的情况下，仍能学习歌词音节在旋律中的合理布局。由此，系统在“改词”等高自由度场景中也能保持与目标旋律的稳定契合，从根本上降低了对昂贵标注和严格音素时长对齐的依赖。

图 3：YingMusic-Singer GRPO 实现方式图

3、基于 Flow-GRPO 的强化学习后训练

这是首次将强化学习引入基于 DiT的SVS 任务。为了进一步提升发音清晰度与旋律效果，使模型可以自适应的权衡内容生成准确度与旋律遵循度，团队进行了如下研究：

构建多维奖励函数：融合了内容准确度（Content Accuracy）和旋律准确性（Melody Similarity）作为奖励信号。

Flow-GRPO 策略优化：采用组相对策略优化（GRPO）算法对模型网络进行微调，通过在生成空间中探索更优解，模型在保持多样性的同时，提升了在复杂歌词下的咬字清晰度和旋律还原度。

02.

实验效果

为评估YingMusic-Singer在内容与旋律控制方面的性能，我们完成了零样本歌声合成及歌声编辑（含结构与歌词修改）实验。在零样本音色转换任务中，模型通过目标歌词、乐谱符号（如MIDI）和参考音频，生成既符合目标内容与音符要求、又保留参考音色的歌声。本模型的独特性在于将类乐谱信息转化为参考演唱旋律，实现从旋律到歌声的端到端合成。

实验指标显示，经过后训练的 YingMusic-Singer 在多数任务中表现优异：其歌词转录错误率（WER）最低，音高相关性（FPC）达到竞争水平。此外，在主观评估中本模型的自然度评分更高，虽然客观旋律相似度指标 FPC 略低于 Vevo 但仍超过80% 阈值，且 WER 显著更低，说明其在保持旋律轮廓的同时实现了更优的内容还原。这印证了后训练策略能有效平衡内容准确度、自然度与旋律跟随这三个常相互制约的目标。

在改变歌词与句子结构的编辑任务中，Vevo 与本模型均保持低 WER 与高 F0 相关性，表明对于歌声编辑而言，保持音素单元的旋律走向比严格遵循原始歌词结构更为关键。

03.

结论

YingMusic-Singer 通过无需精确标注的旋律引导和Flow-GRPO 强化学习，摆脱了传统 SVS 技术对高成本的标注数据的依赖。该系统在很大程度上缓解了歌词替换中“清晰度”与“旋律死板对齐”的矛盾，在大幅降低词错误率的同时保持了自然的音乐表现力。这一进步为大众用户提供了更自由、低门槛的音乐创作能力，推动 SVS 技术从“可用”向“好用、易用”迈出了关键一步。

04.

在线体验/API

wisemodel社区—镜像上线了“巨人网络AI LAB/ YingMusic-Singer ” 的镜像，支持一键创建在线体验或者API服务，选中该镜像，点击部署在线体验或者创建开发环境。

进入后，根据需要填写相应的信息，点击“提交订单”按钮，体验进入后台的启动阶段。大概等待1分钟左右，体验进入运行中的状态。

公开状态的在线体验可以在wisemodel社区-体验与API”的页面上点击相应的体验，进入体验的页面；私有状态的在线体验需要前往“用户中心-我的资源-体验”进入体验的页面。

巨人网络 AI Lab 成立于 2022 年，是隶属于巨人网络的人工智能技术落地与研究机构。今年以来，团队多项人工智能研究成果入选ACM MM、ICASSP、Interspeech等国际顶级学术会议，覆盖多模态生成、音视频合成及多智能体等技术方向。

----- END -----

wisemodel相关：

系列模型：

关于wisemodel更多

欢迎持续关注和支持

开源社区建设需要长期坚持和投入，更需要广大用户的积极参与、贡献和维护，欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果，包括模型、数据集和代码等发布到 wisemodel.cn 社区，共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信，申请加入wisemodel社群，持续关注wisemodel.cn开源社区动态。

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来，逐渐成为影响力日益扩大的中立开放的AI开源社区，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员，欢迎感兴趣的朋友加盟，可以通过添加wisemodel微信，或者将简历投递到邮箱：liudaoquan@wisemodel.cn

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果，鼓励高校实验室、大企业研究团队、个人等，在wisemodel平台上分享各类优质内容，可以是AI领域最新论文解读、最新开源成果介绍，也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn，也可以扫码添加wisemodel微信。

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将打造成“HuggingFace”之外最活跃的AI开源社区，汇聚主要AI开源模型、数据集和代码等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。

向上滑动查看

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.