网易首页 > 网易号 > 正文 申请入驻

音频生成加速革命:Stability AI团队突破毫秒级文本转音频技术

0
分享至

想象一下,你只需说出"给我来段拉丁风格的鼓点,115拍每分钟",然后在眨眼间—真的就是眨眼的时间—你的电脑或手机就能生成高质量的音频。这不再是科幻电影里的场景,而是得益于最新突破性研究《利用对抗性后训练实现快速文本到音频生成》(Fast Text-to-Audio Generation with Adversarial Post-Training)的现实。

这项研究由加州大学圣地亚哥分校和Stability AI的研究团队共同完成,主要作者包括Zachary Novack、Zach Evans、Zack Zukowski、Josiah Taylor、CJ Carr、Julian Parker等多位专家。该论文于2025年5月14日在arXiv预印平台上发布(arXiv:2505.08175v2),代表了文本到音频生成领域的重大技术突破。

一、研究背景:突破音频生成的"龟速瓶颈"

你是否曾等待过AI生成一段音频?不管是想要一段背景音乐、声音效果还是环境音,传统的文本到音频AI模型就像一位才华横溢但动作极其缓慢的音乐家—创作出色,但要花上好几分钟甚至更长时间才能完成一段短小的音频。

目前市场上的文本到音频系统,尽管质量越来越高,但它们的生成速度仍然是一个明显的痛点。想象一下,你正在制作一个视频,需要某种特定的音效,传统模型可能需要几秒到几分钟才能生成,这种等待就像是在微波炉前盯着的那几分钟,打断了创作的思路和流程。

"大多数现有的文本到音频模型需要数秒到数分钟才能生成一段音频,这让它们在大多数创意使用场景中几乎无法实用化,"研究团队在论文中指出。这就像你想要快速做一道菜,但每次需要往锅里加一种调料都得先等十分钟才行—这样的烹饪过程会让任何人失去耐心。

二、技术突破:ARC后训练法如何实现音频生成的"闪电加速"

研究团队提出了一种名为"对抗性相对-对比后训练"(Adversarial Relativistic-Contrastive post-training,简称ARC)的创新方法。这个名字听起来可能有点复杂,但其工作原理可以用一个简单的比喻来解释:

想象有两位艺术家—一位是生成器(Generator),另一位是鉴别器(Discriminator)。生成器负责创作音频,而鉴别器则负责评判这些音频的质量。在传统的生成模型中,这两位艺术家彼此独立工作,但在ARC方法中,它们形成了一种特殊的"竞争关系":

相对性竞争:不同于传统方法中鉴别器只是简单地判断"这是真的还是假的",在ARC中,鉴别器要判断"与真实音频相比,这个生成的音频有多真实"。这就像两个跳高选手不是单纯比谁跳得更高,而是比谁比对方跳得更高。生成器努力让每个生成的样本在鉴别器眼中"比配对的真实样本更真实",而鉴别器则试图让每个真实样本"比其配对的生成样本更真实"。

对比学习:研究团队还创新性地加入了对比学习机制。简单来说,就是训练鉴别器不仅要区分真假,还要判断音频和文本描述是否匹配。这就像训练一个美食评判员,他不仅要分辨食物的好坏,还要判断这道菜是否符合菜单上的描述。通过这种方式,生成的音频能更好地符合用户的文本提示。

这种方法有什么特别之处?与传统的"蒸馏"方法相比,ARC不需要存储大量的训练数据对,也不需要同时在内存中保存2-3个完整模型,这大大降低了训练成本。更重要的是,它避免了使用分类器自由引导(Classifier-Free Guidance,CFG)技术,这种技术虽然能提高质量,但会导致生成结果多样性降低和过饱和问题。

研究团队将ARC方法与Stable Audio Open模型进行了结合,并进行了一系列优化:

将模型维度从1536降至1024
层数从24减少到16
增加了QK-LayerNorm
移除了"seconds start"嵌入
使用ping-pong采样而非传统的常微分方程求解器

这些优化让模型体积从原来的10.6亿参数减少到3.4亿参数,同时保持了音频质量并大幅提升了速度。

三、惊人成果:音频生成从"慢工出细活"到"闪电响应"

研究成果令人瞠目结舌:优化后的模型能够在H100 GPU上以约75毫秒的速度生成约12秒的44.1kHz立体声音频,比原始SAO模型快了100倍!这就像是原本需要等待一杯手冲咖啡的时间(几分钟),现在眨眼间就能得到一杯品质相当的咖啡。

更令人惊讶的是,研究团队还针对移动设备进行了优化,使模型能够在智能手机等边缘设备上本地运行,生成时间约为7秒。这意味着你在手机上不需要联网,也能快速生成高质量的音频—这在文本到音频生成领域是前所未有的突破。

研究团队使用多种指标进行了全面评估:

音频质量评估:使用FDopenl3、KLpasst等指标
语义对齐和提示遵循度:使用CLAP分数
多样性评估:提出了CLAP条件多样性分数(CCDS)

评估结果显示,ARC方法不仅在保持音频质量的同时大幅提升了速度,还比其他加速方法表现出更好的多样性。这就像是一位既能迅速创作,又能保持创意多样性的音乐家,不会因为赶时间而让所有作品都千篇一律。

四、对比与创新:ARC方法如何脱颖而出

研究团队将ARC方法与几种现有的加速方法进行了对比,包括:

原始的Stable Audio Open(SAO):作为质量基准和加速参考点
预训练的整流流(Pre-trained RF):基础加速模型
Presto:一种先进的基于蒸馏的音频扩散加速方法

有趣的是,尽管每种方法都有各自的优势,但它们之间存在明显的权衡。例如,Presto方法生成的音频质量较高,但多样性明显较低,这就像是一位技术精湛但创作风格单一的音乐家。相比之下,ARC方法虽然在MOS(平均意见分)质量评分上略低,但在多样性方面表现出色,并在FDopenl3等客观指标上获得了最佳成绩。

研究团队还进行了多种变体实验,包括去除对比损失(LC)或用标准的最小二乘对抗性损失替代相对损失(LR)。结果表明,完整的ARC方法(结合相对损失和对比损失)提供了最佳的平衡。

五、创造性应用:从技术到实用的桥梁

这项研究的最终目标不仅仅是学术突破,而是为创意工作流程提供实用工具。研究团队表示,他们的主要目标是"加速文本到音频模型,使其在创意工作流程中实用"。为了感觉像一个令人信服的"乐器",文本到音频模型必须反应迅速。

研究团队将模型的延迟降至消费级GPU上低于200毫秒,这使得它能够像真实乐器一样即时响应。他们非正式地使用这个模型进行音乐创作,发现它在声音设计方面特别有启发性,这要归功于其速度、提示多样性和生成非常规声音的能力。

一个特别有趣的发现是,该模型还展示了音频到音频的能力,可用于风格转换,而无需额外训练。这是通过在ping-pong采样过程中使用任何录音作为初始噪声样本来实现的。这种方法使语音到音频控制成为可能(通过使用语音录音初始化),以及节拍对齐生成(通过使用具有强拍的录音初始化)。

六、未来展望:更快、更好、更实用的音频生成

虽然这项研究取得了令人印象深刻的成果,但研究团队也坦诚指出了当前模型的局限性,主要是其内存和存储需求,占用了几GB的RAM和磁盘空间,这可能对许多应用程序的集成和高效分发构成挑战。

未来的研究方向可能包括:

进一步降低内存和计算需求
针对特定音频类型的微调
改进音频到音频功能
更精确的声音设计控制

研究团队已经公开了他们的代码,并提供了一个演示网站,让更多人能够体验这一突破性技术。

结语:音频生成的新时代

这项研究代表了文本到音频生成领域的一个重要里程碑。通过ARC后训练方法,研究人员实现了前所未有的生成速度,同时保持了音频质量并提升了多样性。这不仅是技术上的突破,更是创意表达方式的革命。

想象未来的创作者可以像弹奏乐器一样"弹奏"AI音频生成工具,实时获得反馈,不断调整和完善。或者游戏开发者能够在游戏中实时生成响应玩家动作的独特音效。这些应用场景不再是遥不可及的梦想,而是即将到来的现实。

正如研究团队总结的那样:"我们希望,随着效率和多样性的提高,文本到音频模型很快将能够支持更广泛的创意应用。"这不仅是对技术未来的展望,也是对创意表达新时代的期许。

有兴趣深入了解这项研究的读者可以访问arXiv网站查阅完整论文,或通过研究团队提供的演示网站亲身体验这一突破性技术。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026年,结婚人数又破纪录了!

2026年,结婚人数又破纪录了!

巢客HOME
2026-06-21 07:20:07
彝族姑娘查分后转头先喂猪,她心仪的武汉大学回应了!

彝族姑娘查分后转头先喂猪,她心仪的武汉大学回应了!

环球网资讯
2026-06-28 08:09:11
出口美国恶评如潮,亏损39亿美元:越南VinFast证明纯电车不好造

出口美国恶评如潮,亏损39亿美元:越南VinFast证明纯电车不好造

周哥一影视
2026-06-28 08:29:21
市值暴跌2.2万亿!王兴公开认错自救,美团还能重回巅峰吗?

市值暴跌2.2万亿!王兴公开认错自救,美团还能重回巅峰吗?

老特有话说
2026-06-29 00:15:03
7闺蜜众筹70万开咖啡馆  4个月后从“七仙女”变成“战国七雄”

7闺蜜众筹70万开咖啡馆 4个月后从“七仙女”变成“战国七雄”

尘埃里的看客
2026-06-28 10:42:41
为什么今年没人提“消费降级”了?

为什么今年没人提“消费降级”了?

黯泉
2026-05-20 17:47:21
2026世界杯1-16决赛赛程时间表及对阵图高清完整版

2026世界杯1-16决赛赛程时间表及对阵图高清完整版

格斗联盟王大锤
2026-06-28 18:05:57
笑喷!吴艳妮:早上比赛太早我赖床睡过头了 不化妆了直接素颜上场

笑喷!吴艳妮:早上比赛太早我赖床睡过头了 不化妆了直接素颜上场

818体育
2026-06-28 15:08:57
西太平洋中俄轰炸机编队遭美日拦截,歼16迎战F35

西太平洋中俄轰炸机编队遭美日拦截,歼16迎战F35

夏末moent
2026-06-28 18:41:47
泽连斯基要把列宁旧址换人:立起被俄骂了300年的乌克兰名将

泽连斯基要把列宁旧址换人:立起被俄骂了300年的乌克兰名将

桂系007
2026-06-28 23:58:17
妻子心梗住院95天儿子不探望,出院后父亲卖掉婚房,儿子质问

妻子心梗住院95天儿子不探望,出院后父亲卖掉婚房,儿子质问

三农老历
2026-06-28 21:34:45
世界杯32强全部出炉,12个AI的第一张成绩单来了

世界杯32强全部出炉,12个AI的第一张成绩单来了

21世纪经济报道
2026-06-28 21:09:04
什么东西让你体会到贵有贵的道理?网友:买完之后真香了!

什么东西让你体会到贵有贵的道理?网友:买完之后真香了!

阿康四岁啦
2026-06-26 10:40:55
民主刚果3-1战胜乌兹!韩国队正式出局 韩媒解脱:煎熬终于结束了

民主刚果3-1战胜乌兹!韩国队正式出局 韩媒解脱:煎熬终于结束了

风过乡
2026-06-28 09:32:20
莱利换字母哥后,给维金斯3年6000万,维金斯看都没看直接拒了

莱利换字母哥后,给维金斯3年6000万,维金斯看都没看直接拒了

海阔山遥YAO
2026-06-27 15:47:06
两性关系,只要你的女人碰了其他男人,你就必须接受一件事

两性关系,只要你的女人碰了其他男人,你就必须接受一件事

风起见你
2026-06-29 00:05:52
韩国伊朗出局!亚洲9队参赛,7队被淘汰,亚足联8.5个名额太多了

韩国伊朗出局!亚洲9队参赛,7队被淘汰,亚足联8.5个名额太多了

侃球熊弟
2026-06-28 12:05:35
2026新生儿走势反转,跌破700万预言落空,现实超出想象

2026新生儿走势反转,跌破700万预言落空,现实超出想象

小蜜情感说
2026-06-28 15:34:40
王楚钦说孙颖莎除了打球,其他啥也不会

王楚钦说孙颖莎除了打球,其他啥也不会

最爱乒乓球
2026-06-29 00:06:20
7月1日正式实施!60岁以上老人 只要身在上海 都可以找人陪着去医院

7月1日正式实施!60岁以上老人 只要身在上海 都可以找人陪着去医院

娱乐洞察点点
2026-06-28 20:35:06
2026-06-29 01:07:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8947文章数 565关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

正式测定:四川宜宾市高县发生5.5级地震

头条要闻

正式测定:四川宜宾市高县发生5.5级地震

体育要闻

两周飞5万公里!因凡蒂诺遭环保人士猛批

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

省钱,我只服梁文锋

汽车要闻

搭载华为乾崑六件套 东风奕派M8预售19.98万起

态度原创

健康
艺术
旅游
时尚
军事航空

“无糖汤圆”是否隐藏着健康陷阱?

艺术要闻

她不用笔,她用刀

旅游要闻

逛遍昆明滇池湿地,最治愈的还是这里,遛娃养老拍照全都适配!

夏天裙子不用买多,建议入手一条蓝裙子,清爽高级又耐看

军事要闻

特朗普又发文威胁:伊朗将不复存在

无障碍浏览 进入关怀版