网易首页 > 网易号 > 正文 申请入驻

YingMusic-Singer突破“改词挤字”难题,强化学习落地SVS

0
分享至


始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。wisemodel推出邀请注册奖励活动,最高可得算力券+token包380元奖励,欢迎参与和支持!

歌声合成(SVS)指的是给定歌词和旋律,系统自动“唱”出一段完整的歌声。歌声合成在音乐制作与互动娱乐中极具潜力,但要实现真正的“任意歌词配任意旋律”,仍然有很多工作需要做:

  • 依赖高成本强对齐数据:传统 SVS 系统普遍依赖精确的音素级时长对齐和人工标注的 MIDI 信息,这不仅制作成本极高,限制了数据规模,也导致模型难以泛化。

  • 歌词-旋律不匹配难题:现有模型通常只能在“固定歌词对应固定旋律”的场景下工作。当用户尝试更改歌词(尤其是字数改变)时,由于音素数量与原始旋律节拍不匹配,模型容易出现发音生硬、节奏错位或“挤字”现象 。

  • 缺乏 Zero-shot 能力:大多数系统难以在未见过的音色或复杂的韵律结构下保持稳定,生成效果往往伴随音质退化,且推理时仍需依赖外部 MIDI 输入 。

针对上述痛点,巨人网络 AI Lab、西工大 ASLP-lab联合推出了 YingMusic-Singer,这是一套无需精确旋律标注、支持任意歌词与旋律自由组合的 SVS 模型 。现已上线始智AI-wisemodel开源社区,同时支持部署在线体验和API,欢迎使用。


模型地址

https://wisemodel.cn/models/Giant_AILab/YingMusic-Singer

01.

结构化旋律引导与GRPO强化学习


图1:YingMusic-Singer 模型整体架构图

1、基于DiT的无需标注的旋律引导

为了摆脱对人工强标注的依赖,同时确保歌词发音的可理解性,团队在原有 DiT 生成框架上引入了无需标注的旋律建模模块,并设计了相应的弱对齐机制,其核心设计包括:

  • 在线旋律提取与联合优化:设计了一个参数可学的旋律编码器,直接从参考音频中提取帧级旋律表征,并与基于 DiT 的生成模型进行端到端联合训练 。通过引入教师模型的蒸馏约束,确保提取的表征既包含准确的旋律语义,又能自适应下游生成任务。

  • CKA 表示层对齐约束:为了确保生成歌声遵循参考旋律的走向,团队引入了中心核对齐(CKA)损失 。该机制显式地最大化旋律表征与 DiT 模型预测流(predicted flow)特征之间的相关性,使模型在优化中显示的关注输入特征中的旋律对齐关系,使模型可以精准复现参考音频中的旋律结构。


图2 :句级歌词处理逻辑

2、句级时长建模:

传统 SVS 系统往往难以在 不依赖精确音素标注的前提下,同时支持 灵活调整歌词结构与长度。为解决这一限制,我们的模型基于十万条仅带句级时间戳的弱标注数据进行训练,在无需精确音素对齐的情况下,仍能学习歌词音节在旋律中的合理布局。由此,系统在“改词”等高自由度场景中也能保持与目标旋律的稳定契合,从根本上降低了对昂贵标注和严格音素时长对齐的依赖。


图 3:YingMusic-Singer GRPO 实现方式图

3、基于 Flow-GRPO 的强化学习后训练

这是首次将强化学习引入 基于 DiT的SVS 任务 。为了进一步提升发音清晰度与旋律效果,使模型可以自适应的权衡内容生成准确度与旋律遵循度,团队进行了如下研究:

  • 构建多维奖励函数:融合了内容准确度(Content Accuracy)和旋律准确性(Melody Similarity)作为奖励信号 。

  • Flow-GRPO 策略优化:采用组相对策略优化(GRPO)算法对模型网络进行微调 ,通过在生成空间中探索更优解,模型在保持多样性的同时,提升了在复杂歌词下的咬字清晰度和旋律还原度。

02.

实验效果


为评估YingMusic-Singer在内容与旋律控制方面的性能,我们完成了零样本歌声合成及歌声编辑(含结构与歌词修改)实验。在零样本音色转换任务中,模型通过目标歌词、乐谱符号(如MIDI)和参考音频,生成既符合目标内容与音符要求、又保留参考音色的歌声。本模型的独特性在于将类乐谱信息转化为参考演唱旋律,实现从旋律到歌声的端到端合成。

  • 实验指标显示,经过后训练的 YingMusic-Singer 在多数任务中表现优异:其歌词转录错误率(WER)最低,音高相关性(FPC)达到竞争水平。此外,在主观评估中本模型的自然度评分更高,虽然客观旋律相似度指标 FPC 略低于 Vevo 但仍超过80% 阈值,且 WER 显著更低,说明其在保持旋律轮廓的同时实现了更优的内容还原。这印证了后训练策略能有效平衡内容准确度、自然度与旋律跟随这三个常相互制约的目标。

  • 在改变歌词与句子结构的编辑任务中,Vevo 与本模型均保持低 WER 与高 F0 相关性,表明对于歌声编辑而言,保持音素单元的旋律走向比严格遵循原始歌词结构更为关键。

03.

结论

YingMusic-Singer 通过无需精确标注的旋律引导Flow-GRPO 强化学习,摆脱了传统 SVS 技术对高成本的标注数据的依赖 。该系统在很大程度上缓解了歌词替换中“清晰度”与“旋律死板对齐”的矛盾,在大幅降低词错误率的同时保持了自然的音乐表现力。这一进步为大众用户提供了更自由、低门槛的音乐创作能力,推动 SVS 技术从“可用”向“好用、易用”迈出了关键一步。

04.

在线体验/API

wisemodel社区—镜像上线 了“巨人网络AI LAB/ YingMusic-Singer ” 的镜像 ,支持一键创建在线体验或者API服务, 选中该镜像,点击部署在线体验或者创建开发环境。


进入后,根据需要填写相应的信息,点击“提交订单”按钮,体验进入后台的启动阶段。大概等待1分钟左右,体验进入运行中的状态。


公开状态的在线体验可以在wisemodel社区-体验与API”的页面上点击相应的体验,进入体验的页面;私有状态的在线体验需要前往“用户中心-我的资源-体验”进入体验的页面。



巨人网络 AI Lab 成立于 2022 年,是隶属于巨人网络的人工智能技术落地与研究机构。今年以来,团队多项人工智能研究成果入选ACM MM、ICASSP、Interspeech等国际顶级学术会议,覆盖多模态生成、音视频合成及多智能体等技术方向。

----- END -----


wisemodel相关:

系列模型:

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
36岁哈登又发威,皮尔斯用19年书写的生涯纪录,被你强势打破

36岁哈登又发威,皮尔斯用19年书写的生涯纪录,被你强势打破

大西体育
2025-12-31 15:44:37
元旦后具备爆发潜力的板块及对应潜力个股

元旦后具备爆发潜力的板块及对应潜力个股

风风顺
2026-01-01 04:00:03
吉利“库里南”一炮而红,13分钟进账超54亿,李书福豪车梦实现了

吉利“库里南”一炮而红,13分钟进账超54亿,李书福豪车梦实现了

叮当当科技
2025-12-30 02:12:16
父亲再婚后没联系,我39岁申请车贷,银行经理:您名下有一账户

父亲再婚后没联系,我39岁申请车贷,银行经理:您名下有一账户

红豆讲堂
2025-12-23 12:50:05
70年代刘伯承被针对,私下向总理诉苦:现在没人瞧得起我这个元帅

70年代刘伯承被针对,私下向总理诉苦:现在没人瞧得起我这个元帅

元哥说历史
2025-12-31 16:30:03
国家发改委:正会同财政部组织全面梳理自查设备更新项目建设情况 加快项目建设实施

国家发改委:正会同财政部组织全面梳理自查设备更新项目建设情况 加快项目建设实施

财联社
2025-12-31 10:22:14
山西通报:情况基本属实,将进一步核查

山西通报:情况基本属实,将进一步核查

上观新闻
2025-12-31 12:09:08
离谱!死者兜里装9张证件,警方一张没看到!把他当无名氏放了一年...

离谱!死者兜里装9张证件,警方一张没看到!把他当无名氏放了一年...

英国那些事儿
2025-12-30 23:31:58
2026元旦送祝福,别只会说元旦快乐,精选30句祝福语,小众又高级

2026元旦送祝福,别只会说元旦快乐,精选30句祝福语,小众又高级

花小厨
2025-12-31 10:51:27
跨年晚会跑调名场面!沈佳润带偏毛不易,筷子兄弟唱哭青春却忘词

跨年晚会跑调名场面!沈佳润带偏毛不易,筷子兄弟唱哭青春却忘词

露珠聊影视
2026-01-01 01:15:32
郑告蒋家后代:蒋介石逝哪葬哪,是对全体中国人民的最好安排!

郑告蒋家后代:蒋介石逝哪葬哪,是对全体中国人民的最好安排!

扶苏聊历史
2025-12-26 16:08:12
用力过猛!51岁林志玲打扮“日系”现身上海,网友:又老又年轻

用力过猛!51岁林志玲打扮“日系”现身上海,网友:又老又年轻

完善法
2025-12-31 11:05:31
冲上热搜!跨年夜表演结束后,李川现场求婚锤娜丽莎

冲上热搜!跨年夜表演结束后,李川现场求婚锤娜丽莎

红星新闻
2025-12-31 23:30:21
广东男子钓到狗罗花,形似牛百叶,不敢碰直接丢,网友:可惜了!

广东男子钓到狗罗花,形似牛百叶,不敢碰直接丢,网友:可惜了!

狸猫之一的动物圈
2025-12-31 10:01:45
13岁小女孩说肚子里有东西,父母带她去检查,结果出来父母大哭

13岁小女孩说肚子里有东西,父母带她去检查,结果出来父母大哭

青青会讲故事
2025-07-02 17:20:57
往自己门里干!莫桑比克球员打进逆天乌龙,倒地后卧射自家空门

往自己门里干!莫桑比克球员打进逆天乌龙,倒地后卧射自家空门

懂球帝
2026-01-01 04:49:06
好消息传来!中方通知美国将统一两岸,2025台海或有大变?

好消息传来!中方通知美国将统一两岸,2025台海或有大变?

趣生活
2025-12-31 20:58:43
普约尔回忆西班牙黄金一代时不提皇马球员,卡纳瓦罗善意提醒

普约尔回忆西班牙黄金一代时不提皇马球员,卡纳瓦罗善意提醒

懂球帝
2025-12-31 09:57:09
今冬最冷时间表出炉了,啥时候最冷?2026年春节冷不冷?早了解

今冬最冷时间表出炉了,啥时候最冷?2026年春节冷不冷?早了解

阿龙美食记
2025-12-27 18:45:06
台湾TVBS电视台主持人谭伊伦:两岸如果要开战的话,我愿意上战场

台湾TVBS电视台主持人谭伊伦:两岸如果要开战的话,我愿意上战场

总在茶余后
2025-09-04 01:52:24
2026-01-01 07:47:00
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
431文章数 14关注度
往期回顾 全部

科技要闻

老罗,演砸了,也封神了?

头条要闻

土耳其宣布对持普通护照中国公民免签

头条要闻

土耳其宣布对持普通护照中国公民免签

体育要闻

罗马诺:内马尔与桑托斯就续约达成协议,合同期至2026年12月

娱乐要闻

官宣才两天就翻车?七七被连环爆料

财经要闻

高培勇:分配制度改革是提振消费的抓手

汽车要闻

凯迪拉克纯电中型SUV 售价不足24万/33寸曲面屏

态度原创

健康
旅游
教育
时尚
军事航空

元旦举家出行,注意防流感

旅游要闻

这项世界级荣誉何以是大理?60万人用1天时间回答

教育要闻

父母常说的3句话,会严重破坏孩子的内动力

灵感集结,能量共振

军事要闻

沉浸式感受"正义使命-2025"演习现场

无障碍浏览 进入关怀版