网易首页 > 网易号 > 正文 申请入驻

字节音乐大模型炸场!Seed-Music发布,支持一键生成高质量歌曲

0
分享至

机器之心发布

机器之心编辑部

高质量音乐生成、高灵活音乐编辑,Seed-Music 再次打开了 AI 音乐创作的天花板。

放假期间,本 i 人又领教了被 e 人支配的恐惧。

跟 e 人朋友出门玩,先被拉去饭局尬聊,再和陌生人组队打本,下面这首歌真是唱出了 i 人心声。

试听链接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

后两天假期就舒服多了。通关了黑神话悟空还不过瘾,我在家补经典 86 版的《西游记》。无论多少次重温,还是会被大圣的魅力吸引。

试听链接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

这歌怎么样,是不是感觉斗战胜佛活灵活现,如在眼前?

实际上,两首歌都并非真人所作,而是全靠字节最新发布的音乐大模型 ——Seed-Music。

Seed-Music 官网:https://team.doubao.com/seed-music

据豆包大模型团队官网介绍,Seed-Music 是一个具有灵活控制能力的音乐生成系统,包含 Lyrics2Song、Lyrics2Leadsheet2Song、Music Editing、Singing Voice Conversion 四大核心功能,具体涵盖十种创作任务。

刚发布,Seed-Music 就已经在海外平台引起了关注。

有音乐人表示:“(Seed-Music)生成的音乐质量比同类模型都高出一筹。已经期待它能作为一项服务被使用。”

AI 音乐难点重重

Seed-Music 放新招

虽说 AIGC 很火,但相较于语音合成、文本生成,音乐生成面临着更为复杂的挑战。

目前,业界在 AI 音乐领域的研究主要集中在以下几个核心问题:

  • 音乐信号的复杂性:音乐信号包含多个重叠音轨、丰富的音调和音色以及广泛的频率带宽,不仅要保持短期旋律的连贯性,还要在长期结构上展现出一致性。
  • 评估标准的缺乏:音乐作为一种开放、主观的艺术形式,缺乏一套通用的问题表述和用于比较的黄金指标,评估局限性大。
  • 用户需求的多样性:不同的用户群体,如音乐小白、音乐初学者、资深音乐人等,对音乐创作的需求差异很大。

无论是传统的音乐辅助创作工具,还是当下热门的 AI 音乐生成的研究和产品,面向上述问题,均还处于摸索阶段。

比如针对音乐信号复杂性,Google、Meta、Stability AI 等各家在音频、演奏、曲谱层面上做了建模尝试,效果各有优缺,而且各家的评估方法均有局限,人工评测仍必不可少。

面对这些挑战,字节 Seed-Music 采用了创新的统一框架,将语言模型和扩散模型的优势相结合,并融入符号音乐的处理。

视频链接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

通过官方视频展示,我们发现,与其他音乐模型相比,Seed-Music 能更好地满足不同群体的音乐创作需求。

满足多元需求

专门提供高灵活编辑

我们仔细研究了 Seed-Music 的音乐生成 demo,发现其能力真・丰富多样,且 demo 人声效果逼真度,绝了。

接下来,我制作成几个短视频,向大家直观展示下效果。

对于专业音乐人来说,使用 AI 工具辅助创作,最大痛点莫过于无法对音乐进行编辑。

Seed-Music 创新点之一,在于能通过 lead sheet(领谱)来编辑音乐,这增加了音乐创作可解释性。

在官方视频的 Lead2Song 部分,可以看到同一版歌词,通过领谱增减音轨、改变输入风格后,就能得到不同结果的歌曲,显著提高模型的实用性。

除领谱外,Seed-Music 也能直接调整歌词或旋律。比如,“情人节的玫瑰花,你送给了谁 / 你送给别人”,歌词修改前后,旋律保持不变,音乐的连贯性得以保持,过渡效果非常平滑。

视频链接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

即使是音乐小白,Seed-Music 也提供了简单有趣的创作场景。

文生音乐这一必备能力,自然少不了。

输入内容除了文本,也可以是音频,它能基于原曲输出续作或仿作。下面这首英文歌曲“摇身一变”,仿写成了中文古风歌。

视频链接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

哪怕输入临时录制的 10 秒人声, Seed-Music 的零样本音频转换技术都能够将其转化为流畅的声乐。

惊喜的是,Seed-Music 能将中文人声输入转换为英文声乐输出,实现了跨语种人声克隆,扩大了音乐小白们的创作空间。

视频链接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

统一框架

实现高质量音乐生成

  • 论文:《Seed-Music: Generating High-Quality Music in a Controlled Way》
  • 技术报告地址:https://arxiv.org/pdf/2409.09214

那为什么 Seed-Music 能做到生成高质量音乐、提供灵活编辑能力呢?

来自豆包大模型团队的研究者们表示,这主要得益于统一框架,关键技术贡献如下:

  • 提出了一种基于新型 token 和语言模型(LM)的方法,并引入了一种能够根据不同类型用户输入生成专业生成内容(PGC)质量音乐的训练方法。
  • 提出了一种全新的基于扩散模型的方法,特别适合音乐编辑。
  • 引入了一种在歌唱声音背景下的零样本声音转换的新颖方法。系统可以根据用户短至 10 秒的参考歌唱或甚至普通语音的音色生成完整的声乐混音。

Seed-Music 架构

根据官方论文,如上图所示,从高层次来看 Seed-Music 有着统一的音乐生成框架,主要包含以下三个核心组件:一个表征模型,用于将原始音频波形压缩成某种压缩表征形式;一个生成器,经过训练可以接受各种用户控制输入,并相应地生成中间表征;一个渲染器,能够从生成器输出的中间表征中,合成高质量的音频波形。

基于统一框架,Seed-Music 建立了三种适用于不同场景的中间表征:音频 token、符号音乐 token 和声码器 latent。

  • 音频 token:通常以低于音频采样率的标记率学习,旨在有效编码语义和声学信息,能轻松桥接不同模态,但不同音乐信息高度纠缠,给生成器带来挑战。
  • 符号音乐 token:如 MIDI、ABC 记号或钢琴卷帘记号等,本质上离散,可被大型语言模型操作,具有可解释性,便于用户在辅助音乐创作中交互,但缺乏声学信息,依赖渲染器生成声学细节。
  • 声码器 latent:在探索基于扩散模型的音乐音频生成中,可作为中间表征,与量化音频标记相比,信息损失少、渲染器权重更轻,但生成器输出不可解释,且由于仅用波形重建目标训练,可能不够有效作为训练生成器的预测目标。

Seed-Music pipeline

如图所示,中间表征对整个系统来说很重要,每种表征都有其特点和适用场景,具体选择取决于用户的音乐创作任务。

  • 基于音频 token 的链路:包括 tokenizer、自回归语言模型、token 扩散模型和声码器,音频 token 有效地存储了原始信号的显著音乐信息,语言模型根据用户控制输入生成音频 token,token 扩散模型处理音频 token 以生成具有增强声学细节的音频波形。
  • 基于符号音乐 token 的链路:采用符号音乐 token 作为中间表征,与音频 token 基于的管道类似,但有一些区别,如 lead sheet tokenizer 将信息编码为 token,语言模型学习预测 lead sheet token 序列,lead sheet token 是可解释的,并且允许在训练和推理中注入人类知识,但扩散模型从 lead sheet token 预测声码器 latent 更具挑战性,需要更大的模型规模。
  • 基于声码器 latent 的链路:遵循通过 latent 扩散建模从文本直接生成音乐到声学声码器 latent 表征的工作,通过变分自编码器和扩散模型将条件信号映射到归一化和连续的声码器 latent 空间。

在上述链路中,Seed-Music 经历三个训练阶段:预训练、微调和后训练。预训练旨在为音乐音频建模建立强大的基础模型;微调包括基于高质量音乐数据集的数据微调,以增强音乐性,或者针对特定创作任务提高可控性、可解释性和交互性的指令微调;后训练是通过强化学习进行的,从整体上提高了模型的稳定性。

此外,在推理时,样本解码方案对于从训练模型中诱导出最佳结果至关重要。研究者们同时会应用模型蒸馏和流式解码方案来提高系统的延迟。

音乐生成技术

激发社交新场景

回顾过往,新技术往往能够激发新创新。可以看到,Seed-Music 将音乐生成自然地嵌入不同创作群体的工作流中,使 AI 音乐具备独特的社交属性,这是其与传统音乐创作模式的不同之处。在未来,或许会由此涌现创作音乐、欣赏音乐、分享音乐的新场景。

就目前观察到的业界各玩家动向来说,Meta 和谷歌在 MusicGen 和 MusicLM 论文发布、Lyria 短暂内测之后,暂无更多消息放出。Suno、Udio 更为活跃,正侧重于改善效果。Seed-Music 此番在技术研发层面提供了更多可能。

期待 Seed-Music 乃至 AI 产业各类玩家能在未来获取更多突破。

最后,欢迎对 Seed-Music 感兴趣的朋友访问豆包大模型团队官网 https://team.doubao.com/seed-music,了解更多相关的信息。

https://team.doubao.com/en/special/seed-music?view_from=jiqizhixin

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国造红旗导弹被击毁!

中国造红旗导弹被击毁!

烽火观天下
2026-03-06 20:23:13
写入教科书的一天:F-35在德黑兰完成全球首次实战空对空击杀

写入教科书的一天:F-35在德黑兰完成全球首次实战空对空击杀

斌闻天下
2026-03-06 07:30:03
被新帅用废?U23国足红星演砸中超首秀!0射门+0过人,13次丢球权

被新帅用废?U23国足红星演砸中超首秀!0射门+0过人,13次丢球权

我爱英超
2026-03-07 18:22:35
国家卫健委主任:已有3300万家庭领到育儿补贴,有人比喻“孩子一出生就自带口粮、自带工资”

国家卫健委主任:已有3300万家庭领到育儿补贴,有人比喻“孩子一出生就自带口粮、自带工资”

红星新闻
2026-03-07 12:41:11
可以基本确定,伊朗已经赢了

可以基本确定,伊朗已经赢了

大树乡谈
2026-03-06 23:32:06
后续!母子睡楼道132天:数名男子轮番守房,儿子大冬天睡帐篷

后续!母子睡楼道132天:数名男子轮番守房,儿子大冬天睡帐篷

离离言几许
2026-03-07 10:04:12
血亏466亿,京东亏的到底值不值?

血亏466亿,京东亏的到底值不值?

风声声
2026-03-06 18:21:45
最牛“软饭男”,身家900亿!学术“赶超爱因斯坦”

最牛“软饭男”,身家900亿!学术“赶超爱因斯坦”

大猫财经Pro
2026-03-05 18:54:35
女子实名举报某团外卖:不上大额券就让我变成“凌晨营业”,你们真黑!

女子实名举报某团外卖:不上大额券就让我变成“凌晨营业”,你们真黑!

回旋镖
2026-03-06 21:13:59
生涯首次!杨瀚森复出21+9+6+2+3帽创纪录 率混音拒20分逆转

生涯首次!杨瀚森复出21+9+6+2+3帽创纪录 率混音拒20分逆转

醉卧浮生
2026-03-07 12:30:45
大崩盘倒计时?顶级大牛警告:在“高息时代”,保命比赚钱更重要!

大崩盘倒计时?顶级大牛警告:在“高息时代”,保命比赚钱更重要!

澳洲财经见闻
2026-03-07 15:27:31
1230人遇难!美国5天烧200亿,终于承认:伊朗无人机真拦不住

1230人遇难!美国5天烧200亿,终于承认:伊朗无人机真拦不住

近史博览
2026-03-07 01:20:35
女子在杭州西湖景区把“西泠印社”认成“杜帅冷面”,网友:四个字认错五个,当事人:没有文化确实不行

女子在杭州西湖景区把“西泠印社”认成“杜帅冷面”,网友:四个字认错五个,当事人:没有文化确实不行

扬子晚报
2026-03-06 17:44:56
宇树科技创始人王兴兴相亲帖曝光!女友标准引热议

宇树科技创始人王兴兴相亲帖曝光!女友标准引热议

江南晚报
2026-03-07 14:39:25
对伊朗而言,胜利的定义不是打赢,而是“活下去”并持续消耗美国

对伊朗而言,胜利的定义不是打赢,而是“活下去”并持续消耗美国

识局Insight
2026-03-06 20:34:56
黄金回收业务量大降 水贝金银批发量暴跌

黄金回收业务量大降 水贝金银批发量暴跌

财联社
2026-03-07 15:08:13
“建议所有公司把程序员全裁掉!” OpenClaw爆火,六位资深“养虾人”自述与AI共生

“建议所有公司把程序员全裁掉!” OpenClaw爆火,六位资深“养虾人”自述与AI共生

新浪财经
2026-03-07 06:21:48
贾国龙的嘴,骗人的鬼?

贾国龙的嘴,骗人的鬼?

笔杆论道
2026-03-07 06:59:35
德黑兰突发巨大爆炸;伊朗称已做好长期战争准备,正研发新型武器,已掌握敌军的战线、装备和弹药情况

德黑兰突发巨大爆炸;伊朗称已做好长期战争准备,正研发新型武器,已掌握敌军的战线、装备和弹药情况

扬子晚报
2026-03-07 09:50:23
中国散货船“铁娘子”号通过霍尔木兹海峡,我们去了它在上海浦东的运营公司

中国散货船“铁娘子”号通过霍尔木兹海峡,我们去了它在上海浦东的运营公司

上观新闻
2026-03-07 17:17:07
2026-03-07 19:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12430文章数 142578关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

中国货船"铁娘子"号通过霍尔木兹海峡 大量船舶仍滞留

头条要闻

中国货船"铁娘子"号通过霍尔木兹海峡 大量船舶仍滞留

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

周杰伦田馥甄的“JH恋” 被扒得底朝天

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

家居
教育
健康
手机
艺术

家居要闻

暖棕撞色 轻法奶油风

教育要闻

现在学校已经不发教辅了,让家长自愿去书店购买!

转头就晕的耳石症,能开车上班吗?

手机要闻

vivo X300 Max手机原型曝光:预估6.78英寸屏幕、7000mAh电池

艺术要闻

米芾失传的34幅真迹,在岳飞孙子家中发现!

无障碍浏览 进入关怀版