![]()
始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。wisemodel推出邀请注册奖励活动,最高可得算力券+token包380元奖励,欢迎参与和支持!
歌声合成(SVS)指的是给定歌词和旋律,系统自动“唱”出一段完整的歌声。歌声合成在音乐制作与互动娱乐中极具潜力,但要实现真正的“任意歌词配任意旋律”,仍然有很多工作需要做:
依赖高成本强对齐数据:传统 SVS 系统普遍依赖精确的音素级时长对齐和人工标注的 MIDI 信息,这不仅制作成本极高,限制了数据规模,也导致模型难以泛化。
歌词-旋律不匹配难题:现有模型通常只能在“固定歌词对应固定旋律”的场景下工作。当用户尝试更改歌词(尤其是字数改变)时,由于音素数量与原始旋律节拍不匹配,模型容易出现发音生硬、节奏错位或“挤字”现象 。
缺乏 Zero-shot 能力:大多数系统难以在未见过的音色或复杂的韵律结构下保持稳定,生成效果往往伴随音质退化,且推理时仍需依赖外部 MIDI 输入 。
针对上述痛点,巨人网络 AI Lab、西工大 ASLP-lab联合推出了 YingMusic-Singer,这是一套无需精确旋律标注、支持任意歌词与旋律自由组合的 SVS 模型 。现已上线始智AI-wisemodel开源社区,同时支持部署在线体验和API,欢迎使用。
![]()
模型地址
https://wisemodel.cn/models/Giant_AILab/YingMusic-Singer
01.
结构化旋律引导与GRPO强化学习
![]()
图1:YingMusic-Singer 模型整体架构图
1、基于DiT的无需标注的旋律引导
为了摆脱对人工强标注的依赖,同时确保歌词发音的可理解性,团队在原有 DiT 生成框架上引入了无需标注的旋律建模模块,并设计了相应的弱对齐机制,其核心设计包括:
在线旋律提取与联合优化:设计了一个参数可学的旋律编码器,直接从参考音频中提取帧级旋律表征,并与基于 DiT 的生成模型进行端到端联合训练 。通过引入教师模型的蒸馏约束,确保提取的表征既包含准确的旋律语义,又能自适应下游生成任务。
CKA 表示层对齐约束:为了确保生成歌声遵循参考旋律的走向,团队引入了中心核对齐(CKA)损失 。该机制显式地最大化旋律表征与 DiT 模型预测流(predicted flow)特征之间的相关性,使模型在优化中显示的关注输入特征中的旋律对齐关系,使模型可以精准复现参考音频中的旋律结构。
![]()
图2 :句级歌词处理逻辑
2、句级时长建模:
传统 SVS 系统往往难以在 不依赖精确音素标注的前提下,同时支持 灵活调整歌词结构与长度。为解决这一限制,我们的模型基于十万条仅带句级时间戳的弱标注数据进行训练,在无需精确音素对齐的情况下,仍能学习歌词音节在旋律中的合理布局。由此,系统在“改词”等高自由度场景中也能保持与目标旋律的稳定契合,从根本上降低了对昂贵标注和严格音素时长对齐的依赖。
![]()
图 3:YingMusic-Singer GRPO 实现方式图
3、基于 Flow-GRPO 的强化学习后训练
这是首次将强化学习引入 基于 DiT的SVS 任务 。为了进一步提升发音清晰度与旋律效果,使模型可以自适应的权衡内容生成准确度与旋律遵循度,团队进行了如下研究:
构建多维奖励函数:融合了内容准确度(Content Accuracy)和旋律准确性(Melody Similarity)作为奖励信号 。
Flow-GRPO 策略优化:采用组相对策略优化(GRPO)算法对模型网络进行微调 ,通过在生成空间中探索更优解,模型在保持多样性的同时,提升了在复杂歌词下的咬字清晰度和旋律还原度。
02.
实验效果
![]()
为评估YingMusic-Singer在内容与旋律控制方面的性能,我们完成了零样本歌声合成及歌声编辑(含结构与歌词修改)实验。在零样本音色转换任务中,模型通过目标歌词、乐谱符号(如MIDI)和参考音频,生成既符合目标内容与音符要求、又保留参考音色的歌声。本模型的独特性在于将类乐谱信息转化为参考演唱旋律,实现从旋律到歌声的端到端合成。
实验指标显示,经过后训练的 YingMusic-Singer 在多数任务中表现优异:其歌词转录错误率(WER)最低,音高相关性(FPC)达到竞争水平。此外,在主观评估中本模型的自然度评分更高,虽然客观旋律相似度指标 FPC 略低于 Vevo 但仍超过80% 阈值,且 WER 显著更低,说明其在保持旋律轮廓的同时实现了更优的内容还原。这印证了后训练策略能有效平衡内容准确度、自然度与旋律跟随这三个常相互制约的目标。
在改变歌词与句子结构的编辑任务中,Vevo 与本模型均保持低 WER 与高 F0 相关性,表明对于歌声编辑而言,保持音素单元的旋律走向比严格遵循原始歌词结构更为关键。
03.
结论
YingMusic-Singer 通过无需精确标注的旋律引导和Flow-GRPO 强化学习,摆脱了传统 SVS 技术对高成本的标注数据的依赖 。该系统在很大程度上缓解了歌词替换中“清晰度”与“旋律死板对齐”的矛盾,在大幅降低词错误率的同时保持了自然的音乐表现力。这一进步为大众用户提供了更自由、低门槛的音乐创作能力,推动 SVS 技术从“可用”向“好用、易用”迈出了关键一步。
04.
在线体验/API
wisemodel社区—镜像上线 了“巨人网络AI LAB/ YingMusic-Singer ” 的镜像 ,支持一键创建在线体验或者API服务, 选中该镜像,点击部署在线体验或者创建开发环境。
![]()
进入后,根据需要填写相应的信息,点击“提交订单”按钮,体验进入后台的启动阶段。大概等待1分钟左右,体验进入运行中的状态。
![]()
公开状态的在线体验可以在wisemodel社区-体验与API”的页面上点击相应的体验,进入体验的页面;私有状态的在线体验需要前往“用户中心-我的资源-体验”进入体验的页面。
![]()
![]()
巨人网络 AI Lab 成立于 2022 年,是隶属于巨人网络的人工智能技术落地与研究机构。今年以来,团队多项人工智能研究成果入选ACM MM、ICASSP、Interspeech等国际顶级学术会议,覆盖多模态生成、音视频合成及多智能体等技术方向。
----- END -----
![]()
wisemodel相关:
系列模型:
关于wisemodel更多
1
欢迎持续关注和支持
开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。
2
欢迎加盟wisemodel开源社区
始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn
3
欢迎投稿优质内容
欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。
4
关于wisemodel开源社区
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。
向上滑动查看
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.