网易首页 > 网易号 > 正文 申请入驻

这AI绝对偷了格莱美奖杯 把LLaMA喂成乐坛顶流:开源版Suno来了!

0
分享至

家人们震惊了!现在 AI 成精啦,不仅能写能画,现在连唱功都是格莱美级的了!

魅惑空灵电音女声,也太好听了吧!

https://mp.weixin.qq.com/s/cbaefgtaVFmtlHfDvQtTYA

酷佬街头说唱,怎么有一股八方来财的味儿?

https://mp.weixin.qq.com/s/cbaefgtaVFmtlHfDvQtTYA

强混嘹亮欧美女高,像极了阿黛尔~

https://mp.weixin.qq.com/s/cbaefgtaVFmtlHfDvQtTYA

极端的金属核嗓也不在话下!

https://mp.weixin.qq.com/s/cbaefgtaVFmtlHfDvQtTYA

日韩女团风,日韩英三语无缝切换!

https://mp.weixin.qq.com/s/cbaefgtaVFmtlHfDvQtTYA

还有这首 AI 新编版《世界赠与我的》!模仿王菲空灵仙嗓也太到位了吧,完全不一样的旋律,一样的嘎嘎好听,宁静中带一点哀伤的意境拿捏得简直了!

模仿碧梨的慵懒声线,确定不是碧梨本人在唱?

网友爆改 rap 版 YouTube 亿播神曲《Plastic Love》:

YuE(乐):开源版 Suno AI

上述所有让网友跪着听的炸裂神曲,全都出自港科大和音乐圈 DeepSeek —— Multimodal Art Projection(MAP)联手开源音乐生成基座 —— YuE(乐)。

  • 论文标题:YuE: Scaling Open Foundation Models for Long-Form Music Generation
  • 项目地址:https://github.com/multimodal-art-projection/YuE
  • Demo:https://map-yue.github.io
  • Arxiv:https://arxiv.org/abs/2503.08638

这个模型可太强啦,直接对标 Suno AI,自春节期间放出以来 GitHub 已飙星 4500+,推特累计浏览上百万次!老外刷着 demo 直接给 Suno 和 Udio 开起追悼会:闭源音乐生成这是药丸!

作为第一个开源的全曲级歌曲生成基座,YuE 做到了连 Google 家的 MusicLM、Meta 家的 MusicGen 都做不到的事:不仅能建模长达 5 分钟的歌曲,又能同时生成专业级歌声和伴奏!

这是怎么实现的呢?

YuE 其实是一个双 LLaMA 语言模型架构(下图),因此无痛适配大部分大语言基建,非常容易 scale up。

  • 其中大的 Stage-1 LM 联合建模文本条件和粗粒度音频离散 token 序列。

  • 而小的 Stage-2 LM 基于大 LM 给出的粗粒度离散 token 合成剩余的(残差)细粒度 token。

  • 最后得到的多码本离散音频序列会送入 tokenizer decoder 重建回音频,并送入一个轻型上采样器重构 44.1khz 的音频。

在 YuE 之前,主要的学界工作还是把歌声合成(Singing Voice Synthesis)和音乐生成(Music Generation)分开做的,只有像 Suno AI、Udio 这样的闭源玩家们成功探索出来了端到端的歌曲生成,把两种任务合并到一起建模。有个别学界工作会分阶段对人声和伴奏分别建模,但是效果距离商业闭源还是差距较大,也没有开源。这里就不得不提 YuE 的双轨版 Next-Token Prediction(Dual-NTP)策略了。

YuE 的 Stage-1 LM 利用声伴分离先验,把人声和伴奏轨在同一个时间步分别用两个 token 建模(上图虚线框),巧妙地实现了歌声合成和音乐伴奏生成的联合建模。这不仅避免了离散 token 的信息损失问题,得以精准捕捉细腻人声,还保证了轨间对齐和端到端。

  • 如果使用 ΔWER 来表示语音内容重构损失,那么利用分离先验得到的人声轨(下左图橙)的损失显著小于合轨(下左图蓝),甚至在极端的金属风格下也能维持较低的语音内容重构损失。
  • 基于 Dual-NTP 训练的 LM 在相同的训练成本下也表现出比 NTP 更低的 loss(下右图橙 vs 蓝)。

但为了达成数分钟级的歌曲建模,研究团队又对 Stage-1 LM 提出了另一个改进:结构化渐进生成(Structural Progressive Generation,缩写为 CoT),将歌曲拆分成主副歌段落后,通过文本 token(方形)、音频 token(圆形)在同上下文内交替排布的方式,避免了文本条件控制远程衰减的问题,使得人声轨能在全曲范围内准确跟随歌词控制。

消融显示,这种带有文本中间态的 CoT 在 0.5B 下比其它方法(原版、课程学习、ABF)具有更低的 Whisper 转录歌词错误率(橙线),并在 scale up 到 7B 之后得到更显著的收益(蓝线)。受限于 Whisper 的歌声转录性能,20% 的错误率已经接近 groundtruth 原曲的错误率。

不仅如此,团队还专门为音乐开发了特有的上下文学习(Music In-Context Learning,Music ICL)。与此前 TTS 领域的续写型 ICL 不同,音乐创作常常要求从一个动机出发向左右两边发展构造成曲,要避免抄袭鼓励创作。为此,Music ICL 将曲中任意 20~40 秒片段的音乐拼接到 CoT 数据开头,并在 Stage-1 LM 退火阶段利用约 2% 的计算量延迟激活这种格式。

团队发现,过早地激活 Music ICL 容易导致捷径学习(Shortcut Learning),让模型成为洗歌机器,对音乐创作能力有损。而延迟激活策略极大地节约了计算量,并且保护了模型的音乐性和创造力。这也带来了本文开头的风格克隆(Style Cloning)、声音克隆(Voice Cloning)、风格迁移(Style Transfer)的相应能力,模仿王菲、碧梨甚至爆改 Rap 版 City Pop。在测试时开启 ICL 和 CFG(Classifier Free Guidance)模式后,模型音乐性暴涨!

团队将 Stage-1 LM 扩展到 1.75T token,7B 的规模后,在人类偏好评测中获得了闭源级的音乐性和综合评分。

在人声音域上(下图数字越大音域越宽广),YuE 与国际领先的 Suno、Udio 处于同一水平线。

在生成时长上,YuE 也位于国际领先水平。

抄袭检测显示,即使提供训练集内样本,YuE 的查重率甚至低于学术数据集 GTZAN 的同流派内不同曲目相似度,更是远低于人类翻唱、改编曲目。

不仅如此,YuE 还有非常不错的 embedding 质量。作为一个生成模型,它的单轨无条件模式可用于抽取全曲级 embedding,而且表征质量和 SOTA 表征学习模型处于同一水平,甚至在调性识别上还超过了最新自监督学习 SOTA MuQ。这下确认 YuE 唱歌不会跑调啦!

还等什么,快来玩玩看吧~

  • 项目地址:https://github.com/multimodal-art-projection/YuE
  • Demo:https://map-yue.github.io
  • Arxiv:https://arxiv.org/abs/2503.08638
  • B 站讲解:https://b23.tv/YaYtvVi

交互式 Demo(非官方):

  • https://huggingface.co/spaces/fffiloni/YuE
  • https://yueai.app/zh/playground
  • https://yueai.ai

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
港股交易量堪比乞丐,香港还能算国际金融中心吗?

港股交易量堪比乞丐,香港还能算国际金融中心吗?

凯利经济观察
2026-05-06 12:11:17
自己废物老公是大神是什么体验?网友:这种梦会害死好多女生的

自己废物老公是大神是什么体验?网友:这种梦会害死好多女生的

解读热点事件
2026-05-06 00:45:30
2-0到2-3!日本男团遭法国惊天逆转,松岛辉空决胜局10平饮恨

2-0到2-3!日本男团遭法国惊天逆转,松岛辉空决胜局10平饮恨

隐于山海
2026-05-07 00:38:59
5天百万内地人涌向香港,并看到了香港的另一面

5天百万内地人涌向香港,并看到了香港的另一面

港你知
2026-05-06 21:44:51
全国大清查全面铺开!聚焦两大领域,3000元即立案,查到必重罚!

全国大清查全面铺开!聚焦两大领域,3000元即立案,查到必重罚!

职场资深秘书
2026-05-05 18:20:53
当卖国贼,是有门槛的

当卖国贼,是有门槛的

柴差说
2026-05-06 17:30:32
三星宣布停止在中国市场销售所有家电产品

三星宣布停止在中国市场销售所有家电产品

财联社
2026-05-06 19:32:22
上海险胜1-0山东:怀特塞德23+9 张镇麟14分王哲林遭惊天骑扣

上海险胜1-0山东:怀特塞德23+9 张镇麟14分王哲林遭惊天骑扣

醉卧浮生
2026-05-06 21:34:51
太寒心!盐城龙凤胎事件,孩子早产,老公把彩礼8.8万骤降至3.8万

太寒心!盐城龙凤胎事件,孩子早产,老公把彩礼8.8万骤降至3.8万

魔都姐姐杂谈
2026-05-06 13:19:53
穆里尼奥通过视频通话向弗洛伦蒂诺要求解雇平图斯以回归皇马

穆里尼奥通过视频通话向弗洛伦蒂诺要求解雇平图斯以回归皇马

绿茵情报局
2026-05-06 22:52:33
吐槽4只皮皮虾1035元贵的游客已获赔付,市监局称绝不姑息

吐槽4只皮皮虾1035元贵的游客已获赔付,市监局称绝不姑息

映射生活的身影
2026-05-06 19:29:52
她把黄渤亲到害羞,和导演同居12年被抛弃,如今49岁身价40亿

她把黄渤亲到害羞,和导演同居12年被抛弃,如今49岁身价40亿

兴史兴谈
2026-05-06 04:00:03
谁把女游客推下了悬崖?

谁把女游客推下了悬崖?

宾语观世
2026-05-06 20:10:49
三峡“无缝大坝”缔造者落马!功勋满身,却没管住心中一道缝

三峡“无缝大坝”缔造者落马!功勋满身,却没管住心中一道缝

甜柠聊史
2026-03-25 18:43:05
折叠屏手机终于不用年年换了

折叠屏手机终于不用年年换了

闪存猎手
2026-05-06 02:57:54
一批年轻女性靠 “崩老头” 赚快钱,而80、90后成为被崩的“老头”!

一批年轻女性靠 “崩老头” 赚快钱,而80、90后成为被崩的“老头”!

品牌新
2026-05-06 16:28:30
16岁女孩景区内坠亡,目击者发声,赔偿金额曝光,景区运营仅49天

16岁女孩景区内坠亡,目击者发声,赔偿金额曝光,景区运营仅49天

温柔看世界
2026-05-06 11:48:44
5月7日1/4决赛:国乒晋级八强,男队力争复仇韩国!王楚钦不容易

5月7日1/4决赛:国乒晋级八强,男队力争复仇韩国!王楚钦不容易

开成运动会
2026-05-06 23:44:31
美国国务卿鲁比奥就台湾问题表态。

美国国务卿鲁比奥就台湾问题表态。

荆楚寰宇文枢
2026-05-06 23:24:47
河南酒神醉狼去世,年仅46岁,每天三四瓶,家贫如洗留下两个女儿

河南酒神醉狼去世,年仅46岁,每天三四瓶,家贫如洗留下两个女儿

千言娱乐记
2026-05-06 15:32:05
2026-05-07 04:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12930文章数 142643关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

特朗普:伊朗可能将其高浓缩铀运往美国

头条要闻

特朗普:伊朗可能将其高浓缩铀运往美国

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

谢娜演唱会暗藏惊喜 何炅瞒天过海现身

财经要闻

估值450亿美元 大基金被曝将投资DeepSeek

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

手机
时尚
教育
数码
家居

手机要闻

“iPhone Ultra”或将成为业内最易维修的折叠屏手机

有些路,不必每一步都走得那么用力

教育要闻

女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

数码要闻

三星宣布在中国大陆停售家电产品:手机业务不受影响 仍正常销售

家居要闻

大胆前卫 时尚大宅

无障碍浏览 进入关怀版