网易首页 > 网易号 > 正文 申请入驻

火爆全球的AI音频大模型,最新技术细节揭秘

0
分享至


智东西
编译 孟强
编辑 云鹏

智东西7月24日消息,Satbility AI于7月19日在Arxiv上分享了Stable Audio Open的研究论文,公开了该模型背后的技术细节。

Stable Audio Open是StabilityAI于今年6月推出的开源文本转音频模型,可免费生成长达47秒的样本和音效,还可生成44.1kHz高质量立体声音频,并且能在消费级GPU上运行。除了免费、开源,该模型还注重保护创作者版权,在数据训练中尽力避免伦理道德问题。

论文透露,Stable Audio Open是StabilityAI于今年3月推出的商用Stable Audio 2的变体模型,整体架构保持一致,但在训练数据的采用和部分架构上采取了调整,关键架构由自动编码器、基于T5的文本嵌入以及扩散模型(DiT)构成。

论文地址:https://arxiv.org/html/2407.14358v1

一、3个关键架构提供支持,免费生成44.1kHz高质量立体声短音频

Stable Audio Open引入了一种文本转音频模型,有3个主要架构:

  1. 自动编码器:将波形数据压缩到可管理的序列长度;
  2. 基于T5的文本嵌入;
  3. 基于transformer的扩散模型(DiT):在自动编码器的潜在空间中运行。

自动编码器是一种神经网络架构,由编码器和解码器组成,编码器将输入的数据压缩成一个较小的潜在空间表示,解码器则将这个潜在表示解压还原。Stable Audio Open中的自动编码器把音频波形压缩成一个较短的序列,以便后续处理。


T5(Text-to-Text Transfer Transformer)是一个由谷歌开发的自然语言处理模型,它可以将输入的文本转换为另一种文本表示。在Stable Audio Open中,T5模型将用户输入的文本转换成文本嵌入(text embedding),以便于将文本信息融入到音频生成过程中。

DiT(Diffusion Transformer)是一种扩散模型,在自动编码器的潜在空间中运行,对编码器压缩后的数据进行处理和优化,确保解码器能还原出连贯、高质量的音频。

作为Stable Audio 2的变体模型,Stable Audio Open在训练数据的采用和部分架构上进行了调整。采取了完全不同的数据集,并且使用T5代替了CLAP(Contrastive Language-Audio Pretraining)。前者由谷歌开发,专注于文本数据,完成各种自然语言处理任务,而后者由OpenAI研发,即可处理语言数据,也可处理音频数据。

作为一个开源免费的模型,Stable Audio Open无法生成连贯完整的曲目,也不会针对完整的曲目、旋律或人声进行优化。

Stability AI称,Stable Audio Open专注于音频demo和音效制作,可免费生成最长47秒的44.1kHz高质量立体声音频。经过专业训练后,该模型非常适合创建鼓点、乐器重复乐段、环境音、拟音录音和其他用于音乐制作和声音设计的音频样本。

此次开源版本还有一个关键优势,即用户可以根据自己的自定义音频数据对模型进行微调,这样,用户就可以用自己的鼓声录音来训练模型,用自己的风格生成独特的节奏。

二、训练过程着重保护版权

在生成式AI快速发展的背景下,人们对音乐行业使用人工智能的争论日益激烈,特别是在版权问题上。Stability AI前音频副总裁Ed Newton-Rex于2023年底离职,理由是他不同意Stability AI在训练模型时使用受版权保护的音频,认为此举存违背伦理道德。他曾参与开发Stable Audio。

生成式AI的数据训练像是一个黑箱里进行,除了开发商,谁也不知道训练所使用的数据是否受版权保护。Newton-Rex说:“许多价值数十亿美元的科技公司在未经许可的情况下,利用创作者的作品训练生成式人工智能模型,然后使用这些模型生成新内容。”他在一封公开辞职信中表示,他不接受这种依靠侵犯创作者版权而牟利的行为。

Stability AI表示,为尊重创作者版权,Stable Audio Open使用的数据集来自Freesound和免费音乐档案(FMA),所有使用的录音均是CC(Creative Commons)许可下发布的音频录音。CC是一种版权许可机制,该机制允许创作者共享他们的作品,并规定他人如何使用这些作品。


为了确保避免使用任何受版权保护的材料,Stability AI称通过使用音频标记器识别Freesound中的音乐样本,并将识别出的样本被发送到Audible Magic的内容检测公司,以确保从数据集中删除潜在的受版权保护的音乐。

Stability AI表示:“这让我们能够创建一个开放的音频模型,同时又能充分尊重创作者的权利。”

结语:开源、免费模型让文生音频更普及

Stable Audio Open的推出展示了Stability AI在文本转音频模型领域的创新和进步。虽然该模型在生成音频长度和连贯性上存在一定的限制,但其优点也显而易见。它能免费生成高质量的44.1kHz立体声音频,并且能在消费级GPU上运行,降低了文生音频的使用门槛。

同时,Stable Audio Open在开放音频生成技术的同时,也为版权保护树立了新标杆。在今后,随着技术的不断进步和道德规范的完善,Stable Audio Open有望在更多应用场景中发挥其潜力,推动音频生成技术的发展和普及。

目前,Stable Audio Open模型权重可在机器学习模型平台Hugging Face上获取。Stability AI鼓励声音设计师、音乐家、开发人员以及任何对音频感兴趣的人探索该模型的功能并提供反馈。

来源:Stability AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
骑士7连胜背后掌控者曝光,击败黑马最大功臣非米切尔

骑士7连胜背后掌控者曝光,击败黑马最大功臣非米切尔

自己撑起一片天
2026-02-21 13:37:29
冯小刚的两个女儿:一个住美国大别墅,一个挤北京老小区

冯小刚的两个女儿:一个住美国大别墅,一个挤北京老小区

陈意小可爱
2026-02-21 01:45:29
喝牛奶时做一个小改变,血脂降了、血糖稳了、肠道好了→

喝牛奶时做一个小改变,血脂降了、血糖稳了、肠道好了→

大象新闻
2025-12-27 07:45:02
李一桐飞机上不雅行为?别太离谱

李一桐飞机上不雅行为?别太离谱

In风尚
2026-02-20 18:04:31
梅西确定揭幕战会上!

梅西确定揭幕战会上!

氧气是个地铁
2026-02-21 12:35:34
泽连斯基强硬警告俄罗斯:你们即使暗杀了我,也无法击垮乌克兰!

泽连斯基强硬警告俄罗斯:你们即使暗杀了我,也无法击垮乌克兰!

爱看剧的阿峰
2026-02-21 16:59:22
日本的大话变成笑话!让你吹,还吹上天

日本的大话变成笑话!让你吹,还吹上天

起喜电影
2026-02-21 16:16:28
反常识?技术门槛很低的增程技术,为什么越卖越贵?

反常识?技术门槛很低的增程技术,为什么越卖越贵?

少数派报告Report
2026-02-21 07:58:37
6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

小熊侃史
2025-12-25 11:24:12
痛心!7名中国游客沉入贝加尔湖溺亡,1月内发生2起,有游客前一天目击:到处都是冰裂...

痛心!7名中国游客沉入贝加尔湖溺亡,1月内发生2起,有游客前一天目击:到处都是冰裂...

极目新闻
2026-02-20 20:54:36
驱逐令沦为废纸!高市刚想庆祝,薛剑强势杀回,中方这次绝不惯着

驱逐令沦为废纸!高市刚想庆祝,薛剑强势杀回,中方这次绝不惯着

史智文道
2026-02-20 09:19:02
56岁鲁豫坐竹椅瘦脱相!手骨像枯枝,这病态美让人心疼又上头?

56岁鲁豫坐竹椅瘦脱相!手骨像枯枝,这病态美让人心疼又上头?

娱乐领航家
2026-02-12 23:00:04
才大年初四就走掉一半人,留下的大多是什么人?

才大年初四就走掉一半人,留下的大多是什么人?

老特有话说
2026-02-20 12:00:30
浙江明天最高温或达26℃!晴暖余额不足,一大波雨水要来

浙江明天最高温或达26℃!晴暖余额不足,一大波雨水要来

浙江发布
2026-02-21 15:35:47
“走路去洗车”热帖离谱刷屏,人类头一回被它耍得这么惨

“走路去洗车”热帖离谱刷屏,人类头一回被它耍得这么惨

新周刊
2026-02-21 16:06:14
86年,总政要演长征的话剧,尤太忠却怒道:不管是谁的指示都不演

86年,总政要演长征的话剧,尤太忠却怒道:不管是谁的指示都不演

搜史君
2026-02-15 07:00:08
保25-0不败铁律,湖人获4大喜讯!詹姆斯转型破纪录+2换1捡漏神射

保25-0不败铁律,湖人获4大喜讯!詹姆斯转型破纪录+2换1捡漏神射

锅子篮球
2026-02-21 16:20:02
银行内部实话:存款达这个金额,会被系统盯上

银行内部实话:存款达这个金额,会被系统盯上

小陆搞笑日常
2026-02-10 03:30:26
波神勇士的首秀,不切实际的最终幻想?

波神勇士的首秀,不切实际的最终幻想?

静易墨
2026-02-21 15:24:04
这才是“赵体”天花板,一个字价值60万!

这才是“赵体”天花板,一个字价值60万!

书法网
2026-02-13 17:22:41
2026-02-21 18:19:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11245文章数 116973关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

省直机关女工程师陷美男计 拉公职人员丈夫当间谍17年

头条要闻

省直机关女工程师陷美男计 拉公职人员丈夫当间谍17年

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

艺术
教育
数码
本地
公开课

艺术要闻

皇家秘藏的《金刚经》,这才叫最美中国字!

教育要闻

新春走基层 | 慢飞天使捏出 “年的形状”

数码要闻

华为手环11上架菲律宾官网:1.62英寸AMOLED屏,多色可选

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版