网易首页 > 网易号 > 正文 申请入驻

火爆全球的AI音频大模型,最新技术细节揭秘

0
分享至


智东西
编译 孟强
编辑 云鹏

智东西7月24日消息,Satbility AI于7月19日在Arxiv上分享了Stable Audio Open的研究论文,公开了该模型背后的技术细节。

Stable Audio Open是StabilityAI于今年6月推出的开源文本转音频模型,可免费生成长达47秒的样本和音效,还可生成44.1kHz高质量立体声音频,并且能在消费级GPU上运行。除了免费、开源,该模型还注重保护创作者版权,在数据训练中尽力避免伦理道德问题。

论文透露,Stable Audio Open是StabilityAI于今年3月推出的商用Stable Audio 2的变体模型,整体架构保持一致,但在训练数据的采用和部分架构上采取了调整,关键架构由自动编码器、基于T5的文本嵌入以及扩散模型(DiT)构成。

论文地址:https://arxiv.org/html/2407.14358v1

一、3个关键架构提供支持,免费生成44.1kHz高质量立体声短音频

Stable Audio Open引入了一种文本转音频模型,有3个主要架构:

  1. 自动编码器:将波形数据压缩到可管理的序列长度;
  2. 基于T5的文本嵌入;
  3. 基于transformer的扩散模型(DiT):在自动编码器的潜在空间中运行。

自动编码器是一种神经网络架构,由编码器和解码器组成,编码器将输入的数据压缩成一个较小的潜在空间表示,解码器则将这个潜在表示解压还原。Stable Audio Open中的自动编码器把音频波形压缩成一个较短的序列,以便后续处理。


T5(Text-to-Text Transfer Transformer)是一个由谷歌开发的自然语言处理模型,它可以将输入的文本转换为另一种文本表示。在Stable Audio Open中,T5模型将用户输入的文本转换成文本嵌入(text embedding),以便于将文本信息融入到音频生成过程中。

DiT(Diffusion Transformer)是一种扩散模型,在自动编码器的潜在空间中运行,对编码器压缩后的数据进行处理和优化,确保解码器能还原出连贯、高质量的音频。

作为Stable Audio 2的变体模型,Stable Audio Open在训练数据的采用和部分架构上进行了调整。采取了完全不同的数据集,并且使用T5代替了CLAP(Contrastive Language-Audio Pretraining)。前者由谷歌开发,专注于文本数据,完成各种自然语言处理任务,而后者由OpenAI研发,即可处理语言数据,也可处理音频数据。

作为一个开源免费的模型,Stable Audio Open无法生成连贯完整的曲目,也不会针对完整的曲目、旋律或人声进行优化。

Stability AI称,Stable Audio Open专注于音频demo和音效制作,可免费生成最长47秒的44.1kHz高质量立体声音频。经过专业训练后,该模型非常适合创建鼓点、乐器重复乐段、环境音、拟音录音和其他用于音乐制作和声音设计的音频样本。

此次开源版本还有一个关键优势,即用户可以根据自己的自定义音频数据对模型进行微调,这样,用户就可以用自己的鼓声录音来训练模型,用自己的风格生成独特的节奏。

二、训练过程着重保护版权

在生成式AI快速发展的背景下,人们对音乐行业使用人工智能的争论日益激烈,特别是在版权问题上。Stability AI前音频副总裁Ed Newton-Rex于2023年底离职,理由是他不同意Stability AI在训练模型时使用受版权保护的音频,认为此举存违背伦理道德。他曾参与开发Stable Audio。

生成式AI的数据训练像是一个黑箱里进行,除了开发商,谁也不知道训练所使用的数据是否受版权保护。Newton-Rex说:“许多价值数十亿美元的科技公司在未经许可的情况下,利用创作者的作品训练生成式人工智能模型,然后使用这些模型生成新内容。”他在一封公开辞职信中表示,他不接受这种依靠侵犯创作者版权而牟利的行为。

Stability AI表示,为尊重创作者版权,Stable Audio Open使用的数据集来自Freesound和免费音乐档案(FMA),所有使用的录音均是CC(Creative Commons)许可下发布的音频录音。CC是一种版权许可机制,该机制允许创作者共享他们的作品,并规定他人如何使用这些作品。


为了确保避免使用任何受版权保护的材料,Stability AI称通过使用音频标记器识别Freesound中的音乐样本,并将识别出的样本被发送到Audible Magic的内容检测公司,以确保从数据集中删除潜在的受版权保护的音乐。

Stability AI表示:“这让我们能够创建一个开放的音频模型,同时又能充分尊重创作者的权利。”

结语:开源、免费模型让文生音频更普及

Stable Audio Open的推出展示了Stability AI在文本转音频模型领域的创新和进步。虽然该模型在生成音频长度和连贯性上存在一定的限制,但其优点也显而易见。它能免费生成高质量的44.1kHz立体声音频,并且能在消费级GPU上运行,降低了文生音频的使用门槛。

同时,Stable Audio Open在开放音频生成技术的同时,也为版权保护树立了新标杆。在今后,随着技术的不断进步和道德规范的完善,Stable Audio Open有望在更多应用场景中发挥其潜力,推动音频生成技术的发展和普及。

目前,Stable Audio Open模型权重可在机器学习模型平台Hugging Face上获取。Stability AI鼓励声音设计师、音乐家、开发人员以及任何对音频感兴趣的人探索该模型的功能并提供反馈。

来源:Stability AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小泽玛利亚上节目自曝:曾在中国夜店跳舞30分钟进账100万,没想到从AV界引退后的她竟然改行当了老板...

小泽玛利亚上节目自曝:曾在中国夜店跳舞30分钟进账100万,没想到从AV界引退后的她竟然改行当了老板...

日本物语
2026-07-03 23:48:56
知名女企业家郭恒华遭刑拘,因涉陈年“非吸”案被持续举报?有涉案人称去年已配合调查!她曾参与成立“巾帼系”,爆雷后全身而退

知名女企业家郭恒华遭刑拘,因涉陈年“非吸”案被持续举报?有涉案人称去年已配合调查!她曾参与成立“巾帼系”,爆雷后全身而退

每日经济新闻
2026-07-03 15:39:04
吃相难看!韩雅平确认上清华,国家接连点名,媒体却将她逼至绝境

吃相难看!韩雅平确认上清华,国家接连点名,媒体却将她逼至绝境

天天热点见闻
2026-07-04 06:34:26
梅西头撞对手膝盖额头肿起大包,带伤鏖战加时!球迷:这是神的角

梅西头撞对手膝盖额头肿起大包,带伤鏖战加时!球迷:这是神的角

听我说球
2026-07-04 09:52:51
俄总统新闻秘书:普京宣布俄军“完全解放”卢甘斯克

俄总统新闻秘书:普京宣布俄军“完全解放”卢甘斯克

财联社
2026-07-04 04:41:06
佛得角2-3憾负阿根廷,阿根廷发文致敬“伟大的对手”,佛得角门将:很多人觉得阿根廷会轻松取胜,我为小伙子们和自己骄傲,我们已尽全力

佛得角2-3憾负阿根廷,阿根廷发文致敬“伟大的对手”,佛得角门将:很多人觉得阿根廷会轻松取胜,我为小伙子们和自己骄傲,我们已尽全力

鲁中晨报
2026-07-04 10:30:19
梅西开启世界杯历史射手榜“20球时代”

梅西开启世界杯历史射手榜“20球时代”

新京报
2026-07-04 08:04:46
恩佐:这场比赛可作为教训,我们知道不能再犯同样的错误

恩佐:这场比赛可作为教训,我们知道不能再犯同样的错误

懂球帝
2026-07-04 09:48:13
女子6.8万装爬楼机供全楼免费使用,邻居全抵制:楼道只剩67厘米

女子6.8万装爬楼机供全楼免费使用,邻居全抵制:楼道只剩67厘米

听心堂
2026-07-03 18:19:38
55岁黄政民戒酒一年判若两人,网友:像年轻了10岁

55岁黄政民戒酒一年判若两人,网友:像年轻了10岁

小椰的奶奶
2026-07-03 18:13:41
女子在洗浴店赤身吹头发时遭男顾客闯入,警方:系外地游客,因醉酒误入女浴室,未进行处罚,女顾客和店方已协商解决

女子在洗浴店赤身吹头发时遭男顾客闯入,警方:系外地游客,因醉酒误入女浴室,未进行处罚,女顾客和店方已协商解决

扬子晚报
2026-07-03 18:58:01
为什么部分中国球迷会为辱华球队摇旗呐喊?

为什么部分中国球迷会为辱华球队摇旗呐喊?

风铃草语
2026-07-02 06:35:06
这才是135 公里刀片网囚住泰山的底层逻辑

这才是135 公里刀片网囚住泰山的底层逻辑

李老逵乱摆龙门阵
2026-07-03 08:14:15
斯卡洛尼:我们之前休息了六天现在却只剩三天半,这很难理解

斯卡洛尼:我们之前休息了六天现在却只剩三天半,这很难理解

懂球帝
2026-07-04 12:07:08
梅西赛后称:佛得角连平西班牙、乌拉圭绝非偶然,淘汰赛没人会白送你什么,“今天我们犯的错误还真不少”

梅西赛后称:佛得角连平西班牙、乌拉圭绝非偶然,淘汰赛没人会白送你什么,“今天我们犯的错误还真不少”

鲁中晨报
2026-07-04 10:50:11
LED幕墙现巨型空调 制冷16°C还上下扫风 网友:太会整活了

LED幕墙现巨型空调 制冷16°C还上下扫风 网友:太会整活了

快科技
2026-07-02 18:09:39
山姆被吐槽“双标”“吃相难看”!女子抢在涨价前买MacBook,结果被取消订单……消费者:山姆“砍单”不是第一次了

山姆被吐槽“双标”“吃相难看”!女子抢在涨价前买MacBook,结果被取消订单……消费者:山姆“砍单”不是第一次了

大风新闻
2026-07-03 20:49:04
多名演员发文抵制!业内人士:很悲哀,收入猛降八成,几乎成“免费劳动力”

多名演员发文抵制!业内人士:很悲哀,收入猛降八成,几乎成“免费劳动力”

浙江之声
2026-07-04 08:13:16
阿根廷队3:2艰难险胜佛得角队,梅西赛后发声:这是一场“硬仗”,没人会轻易送你取胜

阿根廷队3:2艰难险胜佛得角队,梅西赛后发声:这是一场“硬仗”,没人会轻易送你取胜

环球网资讯
2026-07-04 11:56:16
韩国男足前主教练洪明甫突然前往美国,此前曾遭死亡威胁,离开前对记者表示:“我有话要说”

韩国男足前主教练洪明甫突然前往美国,此前曾遭死亡威胁,离开前对记者表示:“我有话要说”

鲁中晨报
2026-07-04 12:03:20
2026-07-04 13:16:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12176文章数 117119关注度
往期回顾 全部

科技要闻

iPhone 18 Pro泄密影响恶劣,印度调查塔塔

头条要闻

宜昌一女生高考582分 查分后立即给警察发了条短信

头条要闻

宜昌一女生高考582分 查分后立即给警察发了条短信

体育要闻

今夏最动人告别!世界从此记住佛得角

娱乐要闻

最富女歌手霉霉完婚 在纽约设宴庆贺

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

家居
旅游
手机
游戏
公开课

家居要闻

传奇筑 日常诗

旅游要闻

别跑空!贵州小七孔景区7月4日至8日继续闭园

手机要闻

vivo X300e已备案:6.6英寸中屏+骁龙8 Gen5

PS放弃实体游戏 《光环》力证实体未死并复兴Machinima

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版