网易首页 > 网易号 > 正文 申请入驻

字节音乐大模型炸场!Seed-Music发布,支持一键生成高质量歌曲

0
分享至

机器之心发布

机器之心编辑部

高质量音乐生成、高灵活音乐编辑,Seed-Music 再次打开了 AI 音乐创作的天花板。

放假期间,本 i 人又领教了被 e 人支配的恐惧。

跟 e 人朋友出门玩,先被拉去饭局尬聊,再和陌生人组队打本,下面这首歌真是唱出了 i 人心声。

试听链接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

后两天假期就舒服多了。通关了黑神话悟空还不过瘾,我在家补经典 86 版的《西游记》。无论多少次重温,还是会被大圣的魅力吸引。

试听链接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

这歌怎么样,是不是感觉斗战胜佛活灵活现,如在眼前?

实际上,两首歌都并非真人所作,而是全靠字节最新发布的音乐大模型 ——Seed-Music。

Seed-Music 官网:https://team.doubao.com/seed-music

据豆包大模型团队官网介绍,Seed-Music 是一个具有灵活控制能力的音乐生成系统,包含 Lyrics2Song、Lyrics2Leadsheet2Song、Music Editing、Singing Voice Conversion 四大核心功能,具体涵盖十种创作任务。

刚发布,Seed-Music 就已经在海外平台引起了关注。

有音乐人表示:“(Seed-Music)生成的音乐质量比同类模型都高出一筹。已经期待它能作为一项服务被使用。”

AI 音乐难点重重

Seed-Music 放新招

虽说 AIGC 很火,但相较于语音合成、文本生成,音乐生成面临着更为复杂的挑战。

目前,业界在 AI 音乐领域的研究主要集中在以下几个核心问题:

  • 音乐信号的复杂性:音乐信号包含多个重叠音轨、丰富的音调和音色以及广泛的频率带宽,不仅要保持短期旋律的连贯性,还要在长期结构上展现出一致性。
  • 评估标准的缺乏:音乐作为一种开放、主观的艺术形式,缺乏一套通用的问题表述和用于比较的黄金指标,评估局限性大。
  • 用户需求的多样性:不同的用户群体,如音乐小白、音乐初学者、资深音乐人等,对音乐创作的需求差异很大。

无论是传统的音乐辅助创作工具,还是当下热门的 AI 音乐生成的研究和产品,面向上述问题,均还处于摸索阶段。

比如针对音乐信号复杂性,Google、Meta、Stability AI 等各家在音频、演奏、曲谱层面上做了建模尝试,效果各有优缺,而且各家的评估方法均有局限,人工评测仍必不可少。

面对这些挑战,字节 Seed-Music 采用了创新的统一框架,将语言模型和扩散模型的优势相结合,并融入符号音乐的处理。

视频链接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

通过官方视频展示,我们发现,与其他音乐模型相比,Seed-Music 能更好地满足不同群体的音乐创作需求。

满足多元需求

专门提供高灵活编辑

我们仔细研究了 Seed-Music 的音乐生成 demo,发现其能力真・丰富多样,且 demo 人声效果逼真度,绝了。

接下来,我制作成几个短视频,向大家直观展示下效果。

对于专业音乐人来说,使用 AI 工具辅助创作,最大痛点莫过于无法对音乐进行编辑。

Seed-Music 创新点之一,在于能通过 lead sheet(领谱)来编辑音乐,这增加了音乐创作可解释性。

在官方视频的 Lead2Song 部分,可以看到同一版歌词,通过领谱增减音轨、改变输入风格后,就能得到不同结果的歌曲,显著提高模型的实用性。

除领谱外,Seed-Music 也能直接调整歌词或旋律。比如,“情人节的玫瑰花,你送给了谁 / 你送给别人”,歌词修改前后,旋律保持不变,音乐的连贯性得以保持,过渡效果非常平滑。

视频链接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

即使是音乐小白,Seed-Music 也提供了简单有趣的创作场景。

文生音乐这一必备能力,自然少不了。

输入内容除了文本,也可以是音频,它能基于原曲输出续作或仿作。下面这首英文歌曲“摇身一变”,仿写成了中文古风歌。

视频链接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

哪怕输入临时录制的 10 秒人声, Seed-Music 的零样本音频转换技术都能够将其转化为流畅的声乐。

惊喜的是,Seed-Music 能将中文人声输入转换为英文声乐输出,实现了跨语种人声克隆,扩大了音乐小白们的创作空间。

视频链接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

统一框架

实现高质量音乐生成

  • 论文:《Seed-Music: Generating High-Quality Music in a Controlled Way》
  • 技术报告地址:https://arxiv.org/pdf/2409.09214

那为什么 Seed-Music 能做到生成高质量音乐、提供灵活编辑能力呢?

来自豆包大模型团队的研究者们表示,这主要得益于统一框架,关键技术贡献如下:

  • 提出了一种基于新型 token 和语言模型(LM)的方法,并引入了一种能够根据不同类型用户输入生成专业生成内容(PGC)质量音乐的训练方法。
  • 提出了一种全新的基于扩散模型的方法,特别适合音乐编辑。
  • 引入了一种在歌唱声音背景下的零样本声音转换的新颖方法。系统可以根据用户短至 10 秒的参考歌唱或甚至普通语音的音色生成完整的声乐混音。

Seed-Music 架构

根据官方论文,如上图所示,从高层次来看 Seed-Music 有着统一的音乐生成框架,主要包含以下三个核心组件:一个表征模型,用于将原始音频波形压缩成某种压缩表征形式;一个生成器,经过训练可以接受各种用户控制输入,并相应地生成中间表征;一个渲染器,能够从生成器输出的中间表征中,合成高质量的音频波形。

基于统一框架,Seed-Music 建立了三种适用于不同场景的中间表征:音频 token、符号音乐 token 和声码器 latent。

  • 音频 token:通常以低于音频采样率的标记率学习,旨在有效编码语义和声学信息,能轻松桥接不同模态,但不同音乐信息高度纠缠,给生成器带来挑战。
  • 符号音乐 token:如 MIDI、ABC 记号或钢琴卷帘记号等,本质上离散,可被大型语言模型操作,具有可解释性,便于用户在辅助音乐创作中交互,但缺乏声学信息,依赖渲染器生成声学细节。
  • 声码器 latent:在探索基于扩散模型的音乐音频生成中,可作为中间表征,与量化音频标记相比,信息损失少、渲染器权重更轻,但生成器输出不可解释,且由于仅用波形重建目标训练,可能不够有效作为训练生成器的预测目标。

Seed-Music pipeline

如图所示,中间表征对整个系统来说很重要,每种表征都有其特点和适用场景,具体选择取决于用户的音乐创作任务。

  • 基于音频 token 的链路:包括 tokenizer、自回归语言模型、token 扩散模型和声码器,音频 token 有效地存储了原始信号的显著音乐信息,语言模型根据用户控制输入生成音频 token,token 扩散模型处理音频 token 以生成具有增强声学细节的音频波形。
  • 基于符号音乐 token 的链路:采用符号音乐 token 作为中间表征,与音频 token 基于的管道类似,但有一些区别,如 lead sheet tokenizer 将信息编码为 token,语言模型学习预测 lead sheet token 序列,lead sheet token 是可解释的,并且允许在训练和推理中注入人类知识,但扩散模型从 lead sheet token 预测声码器 latent 更具挑战性,需要更大的模型规模。
  • 基于声码器 latent 的链路:遵循通过 latent 扩散建模从文本直接生成音乐到声学声码器 latent 表征的工作,通过变分自编码器和扩散模型将条件信号映射到归一化和连续的声码器 latent 空间。

在上述链路中,Seed-Music 经历三个训练阶段:预训练、微调和后训练。预训练旨在为音乐音频建模建立强大的基础模型;微调包括基于高质量音乐数据集的数据微调,以增强音乐性,或者针对特定创作任务提高可控性、可解释性和交互性的指令微调;后训练是通过强化学习进行的,从整体上提高了模型的稳定性。

此外,在推理时,样本解码方案对于从训练模型中诱导出最佳结果至关重要。研究者们同时会应用模型蒸馏和流式解码方案来提高系统的延迟。

音乐生成技术

激发社交新场景

回顾过往,新技术往往能够激发新创新。可以看到,Seed-Music 将音乐生成自然地嵌入不同创作群体的工作流中,使 AI 音乐具备独特的社交属性,这是其与传统音乐创作模式的不同之处。在未来,或许会由此涌现创作音乐、欣赏音乐、分享音乐的新场景。

就目前观察到的业界各玩家动向来说,Meta 和谷歌在 MusicGen 和 MusicLM 论文发布、Lyria 短暂内测之后,暂无更多消息放出。Suno、Udio 更为活跃,正侧重于改善效果。Seed-Music 此番在技术研发层面提供了更多可能。

期待 Seed-Music 乃至 AI 产业各类玩家能在未来获取更多突破。

最后,欢迎对 Seed-Music 感兴趣的朋友访问豆包大模型团队官网 https://team.doubao.com/seed-music,了解更多相关的信息。

https://team.doubao.com/en/special/seed-music?view_from=jiqizhixin

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗用中国导弹击落美国F-15战机,引发美中关系动荡,深度分析

伊朗用中国导弹击落美国F-15战机,引发美中关系动荡,深度分析

黑鹰观军事
2026-06-12 16:10:40
每天一杯“抗炎果汁”,连喝28天!美研究:体内炎症指标明显下降

每天一杯“抗炎果汁”,连喝28天!美研究:体内炎症指标明显下降

爱医斯坦
2026-06-10 12:20:08
世界杯球衣被三巨头垄断!李宁安踏何时能出头

世界杯球衣被三巨头垄断!李宁安踏何时能出头

多雨的天
2026-06-12 10:48:24
生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

蜉蝣说
2026-03-17 15:58:31
深圳山姆致歉!有市民称购买的面包大面积发霉!最新进展→

深圳山姆致歉!有市民称购买的面包大面积发霉!最新进展→

齐鲁壹点
2026-06-12 18:26:40
强制闭麦,菲防长特奥多罗口出狂言,被中国制裁,全家都被拉黑了

强制闭麦,菲防长特奥多罗口出狂言,被中国制裁,全家都被拉黑了

林子说事
2026-06-13 01:24:26
“中戏最丑女演员”:年轻时被李湘横刀夺爱,凭《主角》再次出圈

“中戏最丑女演员”:年轻时被李湘横刀夺爱,凭《主角》再次出圈

她时尚丫
2026-06-06 22:20:32
男单八强定4席:国乒锁定2席!陈垣宇涨球了,期待与温瑞博会师

男单八强定4席:国乒锁定2席!陈垣宇涨球了,期待与温瑞博会师

烧体坛
2026-06-12 19:20:02
妻子提离婚被追捅刺死,丈夫二审不认罪,“为了向被害人父母尽孝”

妻子提离婚被追捅刺死,丈夫二审不认罪,“为了向被害人父母尽孝”

中国新闻周刊
2026-06-12 11:17:38
若金价暴跌81%至800美元:央行巨亏3.92万亿将引发多大全球冲击?

若金价暴跌81%至800美元:央行巨亏3.92万亿将引发多大全球冲击?

三农老历
2026-06-12 01:32:43
就在今晚!加拿大VS波黑比赛前瞻:赛前必读

就在今晚!加拿大VS波黑比赛前瞻:赛前必读

铿锵格斗
2026-06-12 19:46:39
开封男童失联升级!中央记者跟踪报道,山东救援队网传被疏散?

开封男童失联升级!中央记者跟踪报道,山东救援队网传被疏散?

奇思妙想草叶君
2026-06-12 17:17:04
首钢放弃顶薪先生!巅峰场均14分,引众豪门争抢,有望回归老东家

首钢放弃顶薪先生!巅峰场均14分,引众豪门争抢,有望回归老东家

理工男评篮球
2026-06-12 22:55:28
新加坡翻脸!不认中国九段线,钓鱼岛改叫尖阁,要跟中国对着干?

新加坡翻脸!不认中国九段线,钓鱼岛改叫尖阁,要跟中国对着干?

深析古今
2026-06-13 01:59:01
C罗惨败10倍!皇马球迷亲手把梅西投成GOAT,那老詹拿什么超乔丹?

C罗惨败10倍!皇马球迷亲手把梅西投成GOAT,那老詹拿什么超乔丹?

生活观察员啊
2026-06-12 01:46:39
【2026.6.12】说说白鹿?谢娜什么后台?神仙姐姐的家庭的事情?李心洁吃到红利?20岁左右护肤上护肤项目建议?

【2026.6.12】说说白鹿?谢娜什么后台?神仙姐姐的家庭的事情?李心洁吃到红利?20岁左右护肤上护肤项目建议?

娱乐真爆姐
2026-06-12 23:42:12
为什么那么多酒店都倒闭了?网友:高铁+腾讯会议,干掉了90%酒店

为什么那么多酒店都倒闭了?网友:高铁+腾讯会议,干掉了90%酒店

夜深爱杂谈
2026-06-12 19:56:05
湖北省700万退休人员养老金将迎调整,看看过去3年是如何变化的?

湖北省700万退休人员养老金将迎调整,看看过去3年是如何变化的?

暖心人社
2026-06-12 17:50:52
上海交大解剖200名肺病死者,惊讶发现:易患肺癌的人,有4大恶习

上海交大解剖200名肺病死者,惊讶发现:易患肺癌的人,有4大恶习

芹姐说生活
2026-06-09 13:29:12
易青娥临终时才醒悟,真正拼命爱她的,不是刘红兵也不是封潇潇

易青娥临终时才醒悟,真正拼命爱她的,不是刘红兵也不是封潇潇

科学发掘
2026-06-09 20:01:02
2026-06-13 02:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13246文章数 142668关注度
往期回顾 全部

科技要闻

刚刚,人类历史上首位万亿美元富豪诞生!

头条要闻

美加墨世界杯第二场比赛就现空座 英媒:尴尬

头条要闻

美加墨世界杯第二场比赛就现空座 英媒:尴尬

体育要闻

欧洲恐韩?肉德维德?

娱乐要闻

一天4个瓜,肖战热巴最意外

财经要闻

万亿美元顺差背后,透露这些信号

汽车要闻

标配激光雷达/双动力可选 昊铂S600限时售17.99万起

态度原创

时尚
艺术
本地
教育
军事航空

夏天别总穿一身白或一身黑!试试一半彩色、一半基础色,高级亮眼

艺术要闻

砸了640亿,再赔160亿!沙特“The Line”项目彻底凉了?

本地新闻

AK刘彰邂逅河北南大港湿地

教育要闻

家长成了“疯女人”,被女儿作业搞崩溃,网友:太真实

军事要闻

伊朗媒体:已故最高领袖葬礼推迟举行

无障碍浏览 进入关怀版