网易首页 > 网易号 > 正文 申请入驻

音频生成加速革命:Stability AI团队突破毫秒级文本转音频技术

0
分享至

想象一下,你只需说出"给我来段拉丁风格的鼓点,115拍每分钟",然后在眨眼间—真的就是眨眼的时间—你的电脑或手机就能生成高质量的音频。这不再是科幻电影里的场景,而是得益于最新突破性研究《利用对抗性后训练实现快速文本到音频生成》(Fast Text-to-Audio Generation with Adversarial Post-Training)的现实。

这项研究由加州大学圣地亚哥分校和Stability AI的研究团队共同完成,主要作者包括Zachary Novack、Zach Evans、Zack Zukowski、Josiah Taylor、CJ Carr、Julian Parker等多位专家。该论文于2025年5月14日在arXiv预印平台上发布(arXiv:2505.08175v2),代表了文本到音频生成领域的重大技术突破。

一、研究背景:突破音频生成的"龟速瓶颈"

你是否曾等待过AI生成一段音频?不管是想要一段背景音乐、声音效果还是环境音,传统的文本到音频AI模型就像一位才华横溢但动作极其缓慢的音乐家—创作出色,但要花上好几分钟甚至更长时间才能完成一段短小的音频。

目前市场上的文本到音频系统,尽管质量越来越高,但它们的生成速度仍然是一个明显的痛点。想象一下,你正在制作一个视频,需要某种特定的音效,传统模型可能需要几秒到几分钟才能生成,这种等待就像是在微波炉前盯着的那几分钟,打断了创作的思路和流程。

"大多数现有的文本到音频模型需要数秒到数分钟才能生成一段音频,这让它们在大多数创意使用场景中几乎无法实用化,"研究团队在论文中指出。这就像你想要快速做一道菜,但每次需要往锅里加一种调料都得先等十分钟才行—这样的烹饪过程会让任何人失去耐心。

二、技术突破:ARC后训练法如何实现音频生成的"闪电加速"

研究团队提出了一种名为"对抗性相对-对比后训练"(Adversarial Relativistic-Contrastive post-training,简称ARC)的创新方法。这个名字听起来可能有点复杂,但其工作原理可以用一个简单的比喻来解释:

想象有两位艺术家—一位是生成器(Generator),另一位是鉴别器(Discriminator)。生成器负责创作音频,而鉴别器则负责评判这些音频的质量。在传统的生成模型中,这两位艺术家彼此独立工作,但在ARC方法中,它们形成了一种特殊的"竞争关系":

相对性竞争:不同于传统方法中鉴别器只是简单地判断"这是真的还是假的",在ARC中,鉴别器要判断"与真实音频相比,这个生成的音频有多真实"。这就像两个跳高选手不是单纯比谁跳得更高,而是比谁比对方跳得更高。生成器努力让每个生成的样本在鉴别器眼中"比配对的真实样本更真实",而鉴别器则试图让每个真实样本"比其配对的生成样本更真实"。

对比学习:研究团队还创新性地加入了对比学习机制。简单来说,就是训练鉴别器不仅要区分真假,还要判断音频和文本描述是否匹配。这就像训练一个美食评判员,他不仅要分辨食物的好坏,还要判断这道菜是否符合菜单上的描述。通过这种方式,生成的音频能更好地符合用户的文本提示。

这种方法有什么特别之处?与传统的"蒸馏"方法相比,ARC不需要存储大量的训练数据对,也不需要同时在内存中保存2-3个完整模型,这大大降低了训练成本。更重要的是,它避免了使用分类器自由引导(Classifier-Free Guidance,CFG)技术,这种技术虽然能提高质量,但会导致生成结果多样性降低和过饱和问题。

研究团队将ARC方法与Stable Audio Open模型进行了结合,并进行了一系列优化:

将模型维度从1536降至1024
层数从24减少到16
增加了QK-LayerNorm
移除了"seconds start"嵌入
使用ping-pong采样而非传统的常微分方程求解器

这些优化让模型体积从原来的10.6亿参数减少到3.4亿参数,同时保持了音频质量并大幅提升了速度。

三、惊人成果:音频生成从"慢工出细活"到"闪电响应"

研究成果令人瞠目结舌:优化后的模型能够在H100 GPU上以约75毫秒的速度生成约12秒的44.1kHz立体声音频,比原始SAO模型快了100倍!这就像是原本需要等待一杯手冲咖啡的时间(几分钟),现在眨眼间就能得到一杯品质相当的咖啡。

更令人惊讶的是,研究团队还针对移动设备进行了优化,使模型能够在智能手机等边缘设备上本地运行,生成时间约为7秒。这意味着你在手机上不需要联网,也能快速生成高质量的音频—这在文本到音频生成领域是前所未有的突破。

研究团队使用多种指标进行了全面评估:

音频质量评估:使用FDopenl3、KLpasst等指标
语义对齐和提示遵循度:使用CLAP分数
多样性评估:提出了CLAP条件多样性分数(CCDS)

评估结果显示,ARC方法不仅在保持音频质量的同时大幅提升了速度,还比其他加速方法表现出更好的多样性。这就像是一位既能迅速创作,又能保持创意多样性的音乐家,不会因为赶时间而让所有作品都千篇一律。

四、对比与创新:ARC方法如何脱颖而出

研究团队将ARC方法与几种现有的加速方法进行了对比,包括:

原始的Stable Audio Open(SAO):作为质量基准和加速参考点
预训练的整流流(Pre-trained RF):基础加速模型
Presto:一种先进的基于蒸馏的音频扩散加速方法

有趣的是,尽管每种方法都有各自的优势,但它们之间存在明显的权衡。例如,Presto方法生成的音频质量较高,但多样性明显较低,这就像是一位技术精湛但创作风格单一的音乐家。相比之下,ARC方法虽然在MOS(平均意见分)质量评分上略低,但在多样性方面表现出色,并在FDopenl3等客观指标上获得了最佳成绩。

研究团队还进行了多种变体实验,包括去除对比损失(LC)或用标准的最小二乘对抗性损失替代相对损失(LR)。结果表明,完整的ARC方法(结合相对损失和对比损失)提供了最佳的平衡。

五、创造性应用:从技术到实用的桥梁

这项研究的最终目标不仅仅是学术突破,而是为创意工作流程提供实用工具。研究团队表示,他们的主要目标是"加速文本到音频模型,使其在创意工作流程中实用"。为了感觉像一个令人信服的"乐器",文本到音频模型必须反应迅速。

研究团队将模型的延迟降至消费级GPU上低于200毫秒,这使得它能够像真实乐器一样即时响应。他们非正式地使用这个模型进行音乐创作,发现它在声音设计方面特别有启发性,这要归功于其速度、提示多样性和生成非常规声音的能力。

一个特别有趣的发现是,该模型还展示了音频到音频的能力,可用于风格转换,而无需额外训练。这是通过在ping-pong采样过程中使用任何录音作为初始噪声样本来实现的。这种方法使语音到音频控制成为可能(通过使用语音录音初始化),以及节拍对齐生成(通过使用具有强拍的录音初始化)。

六、未来展望:更快、更好、更实用的音频生成

虽然这项研究取得了令人印象深刻的成果,但研究团队也坦诚指出了当前模型的局限性,主要是其内存和存储需求,占用了几GB的RAM和磁盘空间,这可能对许多应用程序的集成和高效分发构成挑战。

未来的研究方向可能包括:

进一步降低内存和计算需求
针对特定音频类型的微调
改进音频到音频功能
更精确的声音设计控制

研究团队已经公开了他们的代码,并提供了一个演示网站,让更多人能够体验这一突破性技术。

结语:音频生成的新时代

这项研究代表了文本到音频生成领域的一个重要里程碑。通过ARC后训练方法,研究人员实现了前所未有的生成速度,同时保持了音频质量并提升了多样性。这不仅是技术上的突破,更是创意表达方式的革命。

想象未来的创作者可以像弹奏乐器一样"弹奏"AI音频生成工具,实时获得反馈,不断调整和完善。或者游戏开发者能够在游戏中实时生成响应玩家动作的独特音效。这些应用场景不再是遥不可及的梦想,而是即将到来的现实。

正如研究团队总结的那样:"我们希望,随着效率和多样性的提高,文本到音频模型很快将能够支持更广泛的创意应用。"这不仅是对技术未来的展望,也是对创意表达新时代的期许。

有兴趣深入了解这项研究的读者可以访问arXiv网站查阅完整论文,或通过研究团队提供的演示网站亲身体验这一突破性技术。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
帮忙带娃被网暴后续,小姑子晒出多张证据,亲戚透露更多内情

帮忙带娃被网暴后续,小姑子晒出多张证据,亲戚透露更多内情

丁丁鲤史纪
2026-01-07 11:13:43
日名模古谷惠大肠癌病逝! 「生前弃化疗」最后发文惹鼻酸

日名模古谷惠大肠癌病逝! 「生前弃化疗」最后发文惹鼻酸

ETtoday星光云
2026-01-07 17:42:07
再抠门,也不要在网上买这6样东西,会致癌,看完真会后怕的!

再抠门,也不要在网上买这6样东西,会致癌,看完真会后怕的!

古事寻踪记
2026-01-07 07:18:22
美国派16名特工暗杀斯诺登,驻澳特战队击退CIA,荣获集体一等功

美国派16名特工暗杀斯诺登,驻澳特战队击退CIA,荣获集体一等功

富强巨靠谱
2025-02-26 09:30:43
终于轮到日本“强烈抗议”了:80年了,日本从未像今天这样憋屈

终于轮到日本“强烈抗议”了:80年了,日本从未像今天这样憋屈

剑道万古似长夜
2026-01-08 09:17:20
岳云鹏宣布退出2026春晚,不再参加

岳云鹏宣布退出2026春晚,不再参加

观察者海风
2026-01-07 17:11:33
挪媒:索帅若执教曼联周薪约5-6万镑,进欧冠奖金300-400万镑

挪媒:索帅若执教曼联周薪约5-6万镑,进欧冠奖金300-400万镑

懂球帝
2026-01-08 18:26:20
没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

健康之光
2026-01-04 09:31:45
1分险胜火箭!开拓者弃用29岁中锋:沦为杨瀚森的替补!无缘出场

1分险胜火箭!开拓者弃用29岁中锋:沦为杨瀚森的替补!无缘出场

球场没跑道
2026-01-08 15:12:11
金晨疑整形脸肿如馒头引网友抵制,恐无缘《庆余年3》

金晨疑整形脸肿如馒头引网友抵制,恐无缘《庆余年3》

魔法污
2026-01-07 14:45:03
中美日26年GDP预测出炉:美31万亿,日跌破4.5万亿,中国令人意外

中美日26年GDP预测出炉:美31万亿,日跌破4.5万亿,中国令人意外

亿通电子游戏
2026-01-08 05:56:41
涉多起在菲律宾绑架杀害中国公民案件,“成功商人”施纯芳被捕遣返,其妻发声:不敢相信是认识的他

涉多起在菲律宾绑架杀害中国公民案件,“成功商人”施纯芳被捕遣返,其妻发声:不敢相信是认识的他

红星新闻
2026-01-07 18:21:34
性能力与寿命关系被发现!男性40岁后,睾酮越高,死亡风险越低

性能力与寿命关系被发现!男性40岁后,睾酮越高,死亡风险越低

药师说健康
2025-12-05 09:47:10
天助国际米兰:2-2,意甲争冠热门遭倒数第一阻击,落后榜首4分

天助国际米兰:2-2,意甲争冠热门遭倒数第一阻击,落后榜首4分

凌空倒钩
2026-01-08 07:44:57
期待!恒大传奇球星欲重返中国足坛,改行当经纪人,帮中超队引援

期待!恒大传奇球星欲重返中国足坛,改行当经纪人,帮中超队引援

国足风云
2026-01-08 13:38:14
日本梅毒感染人数持续处于高位,年轻人聚众晒梅毒,为何会这样?

日本梅毒感染人数持续处于高位,年轻人聚众晒梅毒,为何会这样?

之乎者也小鱼儿
2026-01-07 13:51:26
包养情人无数,玩老婆闺蜜,娶初中同学女儿为妻,孙道存有多荒唐

包养情人无数,玩老婆闺蜜,娶初中同学女儿为妻,孙道存有多荒唐

瓜汁橘长Dr
2026-01-06 10:11:41
陪睡陪玩只是冰山一角!万达蒸发800亿后,王思聪再次传出大丑闻

陪睡陪玩只是冰山一角!万达蒸发800亿后,王思聪再次传出大丑闻

阿器谈史
2025-12-26 15:26:05
惋惜,38岁副教授坠亡

惋惜,38岁副教授坠亡

超级数学建模
2026-01-07 23:03:35
中国车企在新西兰爆卖,销量大涨91.8%

中国车企在新西兰爆卖,销量大涨91.8%

后视镜里de未来
2026-01-07 16:16:20
2026-01-09 00:27:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6819文章数 546关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

19岁小伙在柬疑被16万转卖 与母亲视频时按"酒窝"求救

头条要闻

19岁小伙在柬疑被16万转卖 与母亲视频时按"酒窝"求救

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

房产
教育
家居
健康
军事航空

房产要闻

豪宅抢疯、刚需捡漏……2025年,一张房票改写了广州市场格局

教育要闻

浙江首考地理:牛拉屎放屁,我该怎么办(减排)?!

家居要闻

理性主义 冷调自由居所

这些新疗法,让化疗不再那么痛苦

军事要闻

特朗普提出将美国军费提升至1.5万亿美元

无障碍浏览 进入关怀版