网易首页 > 网易号 > 正文 申请入驻

这AI绝对偷了格莱美奖杯 把LLaMA喂成乐坛顶流:开源版Suno来了!

0
分享至

家人们震惊了!现在 AI 成精啦,不仅能写能画,现在连唱功都是格莱美级的了!

魅惑空灵电音女声,也太好听了吧!

https://mp.weixin.qq.com/s/cbaefgtaVFmtlHfDvQtTYA

酷佬街头说唱,怎么有一股八方来财的味儿?

https://mp.weixin.qq.com/s/cbaefgtaVFmtlHfDvQtTYA

强混嘹亮欧美女高,像极了阿黛尔~

https://mp.weixin.qq.com/s/cbaefgtaVFmtlHfDvQtTYA

极端的金属核嗓也不在话下!

https://mp.weixin.qq.com/s/cbaefgtaVFmtlHfDvQtTYA

日韩女团风,日韩英三语无缝切换!

https://mp.weixin.qq.com/s/cbaefgtaVFmtlHfDvQtTYA

还有这首 AI 新编版《世界赠与我的》!模仿王菲空灵仙嗓也太到位了吧,完全不一样的旋律,一样的嘎嘎好听,宁静中带一点哀伤的意境拿捏得简直了!

模仿碧梨的慵懒声线,确定不是碧梨本人在唱?

网友爆改 rap 版 YouTube 亿播神曲《Plastic Love》:

YuE(乐):开源版 Suno AI

上述所有让网友跪着听的炸裂神曲,全都出自港科大和音乐圈 DeepSeek —— Multimodal Art Projection(MAP)联手开源音乐生成基座 —— YuE(乐)。

  • 论文标题:YuE: Scaling Open Foundation Models for Long-Form Music Generation
  • 项目地址:https://github.com/multimodal-art-projection/YuE
  • Demo:https://map-yue.github.io
  • Arxiv:https://arxiv.org/abs/2503.08638

这个模型可太强啦,直接对标 Suno AI,自春节期间放出以来 GitHub 已飙星 4500+,推特累计浏览上百万次!老外刷着 demo 直接给 Suno 和 Udio 开起追悼会:闭源音乐生成这是药丸!

作为第一个开源的全曲级歌曲生成基座,YuE 做到了连 Google 家的 MusicLM、Meta 家的 MusicGen 都做不到的事:不仅能建模长达 5 分钟的歌曲,又能同时生成专业级歌声和伴奏!

这是怎么实现的呢?

YuE 其实是一个双 LLaMA 语言模型架构(下图),因此无痛适配大部分大语言基建,非常容易 scale up。

  • 其中大的 Stage-1 LM 联合建模文本条件和粗粒度音频离散 token 序列。

  • 而小的 Stage-2 LM 基于大 LM 给出的粗粒度离散 token 合成剩余的(残差)细粒度 token。

  • 最后得到的多码本离散音频序列会送入 tokenizer decoder 重建回音频,并送入一个轻型上采样器重构 44.1khz 的音频。

在 YuE 之前,主要的学界工作还是把歌声合成(Singing Voice Synthesis)和音乐生成(Music Generation)分开做的,只有像 Suno AI、Udio 这样的闭源玩家们成功探索出来了端到端的歌曲生成,把两种任务合并到一起建模。有个别学界工作会分阶段对人声和伴奏分别建模,但是效果距离商业闭源还是差距较大,也没有开源。这里就不得不提 YuE 的双轨版 Next-Token Prediction(Dual-NTP)策略了。

YuE 的 Stage-1 LM 利用声伴分离先验,把人声和伴奏轨在同一个时间步分别用两个 token 建模(上图虚线框),巧妙地实现了歌声合成和音乐伴奏生成的联合建模。这不仅避免了离散 token 的信息损失问题,得以精准捕捉细腻人声,还保证了轨间对齐和端到端。

  • 如果使用 ΔWER 来表示语音内容重构损失,那么利用分离先验得到的人声轨(下左图橙)的损失显著小于合轨(下左图蓝),甚至在极端的金属风格下也能维持较低的语音内容重构损失。
  • 基于 Dual-NTP 训练的 LM 在相同的训练成本下也表现出比 NTP 更低的 loss(下右图橙 vs 蓝)。

但为了达成数分钟级的歌曲建模,研究团队又对 Stage-1 LM 提出了另一个改进:结构化渐进生成(Structural Progressive Generation,缩写为 CoT),将歌曲拆分成主副歌段落后,通过文本 token(方形)、音频 token(圆形)在同上下文内交替排布的方式,避免了文本条件控制远程衰减的问题,使得人声轨能在全曲范围内准确跟随歌词控制。

消融显示,这种带有文本中间态的 CoT 在 0.5B 下比其它方法(原版、课程学习、ABF)具有更低的 Whisper 转录歌词错误率(橙线),并在 scale up 到 7B 之后得到更显著的收益(蓝线)。受限于 Whisper 的歌声转录性能,20% 的错误率已经接近 groundtruth 原曲的错误率。

不仅如此,团队还专门为音乐开发了特有的上下文学习(Music In-Context Learning,Music ICL)。与此前 TTS 领域的续写型 ICL 不同,音乐创作常常要求从一个动机出发向左右两边发展构造成曲,要避免抄袭鼓励创作。为此,Music ICL 将曲中任意 20~40 秒片段的音乐拼接到 CoT 数据开头,并在 Stage-1 LM 退火阶段利用约 2% 的计算量延迟激活这种格式。

团队发现,过早地激活 Music ICL 容易导致捷径学习(Shortcut Learning),让模型成为洗歌机器,对音乐创作能力有损。而延迟激活策略极大地节约了计算量,并且保护了模型的音乐性和创造力。这也带来了本文开头的风格克隆(Style Cloning)、声音克隆(Voice Cloning)、风格迁移(Style Transfer)的相应能力,模仿王菲、碧梨甚至爆改 Rap 版 City Pop。在测试时开启 ICL 和 CFG(Classifier Free Guidance)模式后,模型音乐性暴涨!

团队将 Stage-1 LM 扩展到 1.75T token,7B 的规模后,在人类偏好评测中获得了闭源级的音乐性和综合评分。

在人声音域上(下图数字越大音域越宽广),YuE 与国际领先的 Suno、Udio 处于同一水平线。

在生成时长上,YuE 也位于国际领先水平。

抄袭检测显示,即使提供训练集内样本,YuE 的查重率甚至低于学术数据集 GTZAN 的同流派内不同曲目相似度,更是远低于人类翻唱、改编曲目。

不仅如此,YuE 还有非常不错的 embedding 质量。作为一个生成模型,它的单轨无条件模式可用于抽取全曲级 embedding,而且表征质量和 SOTA 表征学习模型处于同一水平,甚至在调性识别上还超过了最新自监督学习 SOTA MuQ。这下确认 YuE 唱歌不会跑调啦!

还等什么,快来玩玩看吧~

  • 项目地址:https://github.com/multimodal-art-projection/YuE
  • Demo:https://map-yue.github.io
  • Arxiv:https://arxiv.org/abs/2503.08638
  • B 站讲解:https://b23.tv/YaYtvVi

交互式 Demo(非官方):

  • https://huggingface.co/spaces/fffiloni/YuE
  • https://yueai.app/zh/playground
  • https://yueai.ai

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
爆冷!开拓者击败马刺,杨瀚森亮眼,克林根24分创纪录,榜眼低迷

爆冷!开拓者击败马刺,杨瀚森亮眼,克林根24分创纪录,榜眼低迷

老侃侃球
2026-01-04 11:37:02
4万人狂嘘!巴萨2-0拿下地狱德比:126年邻居崩溃 门神让旧主闭嘴

4万人狂嘘!巴萨2-0拿下地狱德比:126年邻居崩溃 门神让旧主闭嘴

风过乡
2026-01-04 06:10:51
为什么委内瑞拉拥有5000枚单兵便携式防空导弹,却没有任何发射?

为什么委内瑞拉拥有5000枚单兵便携式防空导弹,却没有任何发射?

阿龙聊军事
2026-01-04 10:58:28
从追捧到嫌弃,欧美文化为何在国内集体崩盘?

从追捧到嫌弃,欧美文化为何在国内集体崩盘?

谈芯说科技
2026-01-02 22:56:12
宝马突然大范围调价,最高降30万,宝马中国回应→

宝马突然大范围调价,最高降30万,宝马中国回应→

第一财经资讯
2026-01-02 21:33:23
一文盘点:委内瑞拉局势背后 全球石油行业潜在的赢家和输家会是谁?

一文盘点:委内瑞拉局势背后 全球石油行业潜在的赢家和输家会是谁?

财联社
2026-01-04 09:25:30
司晓迪事件最全瓜!檀健次私下是舔狗,林更新爱约,张一山最大方

司晓迪事件最全瓜!檀健次私下是舔狗,林更新爱约,张一山最大方

萌神木木
2026-01-03 11:40:35
赖清德喊话,提出条件要求大陆答应,否则台岛绝不会和大陆交流?

赖清德喊话,提出条件要求大陆答应,否则台岛绝不会和大陆交流?

科普100克克
2026-01-03 01:15:00
委内瑞拉副总统:委政府不知道总统马杜罗及其夫人现在何处

委内瑞拉副总统:委政府不知道总统马杜罗及其夫人现在何处

新京报
2026-01-03 18:22:07
3小时卖空2万袋大米!“最快护士”张水华直播1场,顶过比赛1年

3小时卖空2万袋大米!“最快护士”张水华直播1场,顶过比赛1年

火山詩话
2026-01-03 06:14:43
世界首次3.5万吨群组列车试验成功

世界首次3.5万吨群组列车试验成功

财联社
2026-01-04 07:30:34
2026门诊开药大调整!这6条规矩没搞懂的人,钱包估计要遭殃了?

2026门诊开药大调整!这6条规矩没搞懂的人,钱包估计要遭殃了?

今朝牛马
2026-01-03 15:24:08
杨瀚森完全被用废了!蹲底角全场只得2分2盖帽,但进步明显!

杨瀚森完全被用废了!蹲底角全场只得2分2盖帽,但进步明显!

篮球资讯达人
2026-01-04 11:44:40
大瓜!成都一女生蜜雪上班迟到,怒骂HR殴打店长,注销收银系统

大瓜!成都一女生蜜雪上班迟到,怒骂HR殴打店长,注销收银系统

火山詩话
2026-01-04 07:12:23
陈超临死前喊“上面是谁“被打断,31年后徐湖平父子局浮出水面

陈超临死前喊“上面是谁“被打断,31年后徐湖平父子局浮出水面

娱乐洞察点点
2026-01-04 03:26:48
上海一网友吐槽餐厅菜品一菜两色,质疑混炒剩菜,店家:系酒精加热不均导致,并非食材不新鲜或掺杂剩菜

上海一网友吐槽餐厅菜品一菜两色,质疑混炒剩菜,店家:系酒精加热不均导致,并非食材不新鲜或掺杂剩菜

黄河新闻网吕梁频道
2026-01-03 11:05:57
脸都打肿了!新华社这回算是直接把那个遮羞布给掀开了。

脸都打肿了!新华社这回算是直接把那个遮羞布给掀开了。

忠于法纪
2025-12-24 21:27:55
广东宏远早报!徐杰正式复出,萨姆纳兑现承诺,胡明轩最新伤情

广东宏远早报!徐杰正式复出,萨姆纳兑现承诺,胡明轩最新伤情

多特体育说
2026-01-04 07:40:03
杨绛:选亲家时,要留意对方家庭的3个细节,才是真的为儿女着想

杨绛:选亲家时,要留意对方家庭的3个细节,才是真的为儿女着想

诗词中国
2026-01-03 18:16:35
天箭科技净利润或减少超2亿元,陷退市危机!股民可索赔

天箭科技净利润或减少超2亿元,陷退市危机!股民可索赔

扬子晚报
2026-01-03 17:01:43
2026-01-04 12:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12034文章数 142528关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

美国突袭委内瑞拉并强掳该国总统马杜罗 中俄英法表态

头条要闻

美国突袭委内瑞拉并强掳该国总统马杜罗 中俄英法表态

体育要闻

离开中超后,他成了足坛“倒钩之王”

娱乐要闻

谢玲玲为101岁林老太庆生,四代同堂

财经要闻

具身智能抢人大战:毕业一年 年薪300万

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

房产
家居
游戏
数码
军事航空

房产要闻

单盘最高狂卖64亿!海南楼市2025年最全榜单发布!

家居要闻

黑白碰撞 个性多元冷冽风

失败!两款《剑灵》IP新作停运,连腾讯都救不活,国服照样关服

数码要闻

华硕ROG预热Wi-Fi 8 (802.11bn)无线路由器,CES 2026展出

军事要闻

视频:马杜罗被美特工押送走下飞机

无障碍浏览 进入关怀版