网易首页 > 网易号 > 正文 申请入驻

音频生成加速革命:Stability AI团队突破毫秒级文本转音频技术

0
分享至

想象一下,你只需说出"给我来段拉丁风格的鼓点,115拍每分钟",然后在眨眼间—真的就是眨眼的时间—你的电脑或手机就能生成高质量的音频。这不再是科幻电影里的场景,而是得益于最新突破性研究《利用对抗性后训练实现快速文本到音频生成》(Fast Text-to-Audio Generation with Adversarial Post-Training)的现实。

这项研究由加州大学圣地亚哥分校和Stability AI的研究团队共同完成,主要作者包括Zachary Novack、Zach Evans、Zack Zukowski、Josiah Taylor、CJ Carr、Julian Parker等多位专家。该论文于2025年5月14日在arXiv预印平台上发布(arXiv:2505.08175v2),代表了文本到音频生成领域的重大技术突破。

一、研究背景:突破音频生成的"龟速瓶颈"

你是否曾等待过AI生成一段音频?不管是想要一段背景音乐、声音效果还是环境音,传统的文本到音频AI模型就像一位才华横溢但动作极其缓慢的音乐家—创作出色,但要花上好几分钟甚至更长时间才能完成一段短小的音频。

目前市场上的文本到音频系统,尽管质量越来越高,但它们的生成速度仍然是一个明显的痛点。想象一下,你正在制作一个视频,需要某种特定的音效,传统模型可能需要几秒到几分钟才能生成,这种等待就像是在微波炉前盯着的那几分钟,打断了创作的思路和流程。

"大多数现有的文本到音频模型需要数秒到数分钟才能生成一段音频,这让它们在大多数创意使用场景中几乎无法实用化,"研究团队在论文中指出。这就像你想要快速做一道菜,但每次需要往锅里加一种调料都得先等十分钟才行—这样的烹饪过程会让任何人失去耐心。

二、技术突破:ARC后训练法如何实现音频生成的"闪电加速"

研究团队提出了一种名为"对抗性相对-对比后训练"(Adversarial Relativistic-Contrastive post-training,简称ARC)的创新方法。这个名字听起来可能有点复杂,但其工作原理可以用一个简单的比喻来解释:

想象有两位艺术家—一位是生成器(Generator),另一位是鉴别器(Discriminator)。生成器负责创作音频,而鉴别器则负责评判这些音频的质量。在传统的生成模型中,这两位艺术家彼此独立工作,但在ARC方法中,它们形成了一种特殊的"竞争关系":

相对性竞争:不同于传统方法中鉴别器只是简单地判断"这是真的还是假的",在ARC中,鉴别器要判断"与真实音频相比,这个生成的音频有多真实"。这就像两个跳高选手不是单纯比谁跳得更高,而是比谁比对方跳得更高。生成器努力让每个生成的样本在鉴别器眼中"比配对的真实样本更真实",而鉴别器则试图让每个真实样本"比其配对的生成样本更真实"。

对比学习:研究团队还创新性地加入了对比学习机制。简单来说,就是训练鉴别器不仅要区分真假,还要判断音频和文本描述是否匹配。这就像训练一个美食评判员,他不仅要分辨食物的好坏,还要判断这道菜是否符合菜单上的描述。通过这种方式,生成的音频能更好地符合用户的文本提示。

这种方法有什么特别之处?与传统的"蒸馏"方法相比,ARC不需要存储大量的训练数据对,也不需要同时在内存中保存2-3个完整模型,这大大降低了训练成本。更重要的是,它避免了使用分类器自由引导(Classifier-Free Guidance,CFG)技术,这种技术虽然能提高质量,但会导致生成结果多样性降低和过饱和问题。

研究团队将ARC方法与Stable Audio Open模型进行了结合,并进行了一系列优化:

将模型维度从1536降至1024
层数从24减少到16
增加了QK-LayerNorm
移除了"seconds start"嵌入
使用ping-pong采样而非传统的常微分方程求解器

这些优化让模型体积从原来的10.6亿参数减少到3.4亿参数,同时保持了音频质量并大幅提升了速度。

三、惊人成果:音频生成从"慢工出细活"到"闪电响应"

研究成果令人瞠目结舌:优化后的模型能够在H100 GPU上以约75毫秒的速度生成约12秒的44.1kHz立体声音频,比原始SAO模型快了100倍!这就像是原本需要等待一杯手冲咖啡的时间(几分钟),现在眨眼间就能得到一杯品质相当的咖啡。

更令人惊讶的是,研究团队还针对移动设备进行了优化,使模型能够在智能手机等边缘设备上本地运行,生成时间约为7秒。这意味着你在手机上不需要联网,也能快速生成高质量的音频—这在文本到音频生成领域是前所未有的突破。

研究团队使用多种指标进行了全面评估:

音频质量评估:使用FDopenl3、KLpasst等指标
语义对齐和提示遵循度:使用CLAP分数
多样性评估:提出了CLAP条件多样性分数(CCDS)

评估结果显示,ARC方法不仅在保持音频质量的同时大幅提升了速度,还比其他加速方法表现出更好的多样性。这就像是一位既能迅速创作,又能保持创意多样性的音乐家,不会因为赶时间而让所有作品都千篇一律。

四、对比与创新:ARC方法如何脱颖而出

研究团队将ARC方法与几种现有的加速方法进行了对比,包括:

原始的Stable Audio Open(SAO):作为质量基准和加速参考点
预训练的整流流(Pre-trained RF):基础加速模型
Presto:一种先进的基于蒸馏的音频扩散加速方法

有趣的是,尽管每种方法都有各自的优势,但它们之间存在明显的权衡。例如,Presto方法生成的音频质量较高,但多样性明显较低,这就像是一位技术精湛但创作风格单一的音乐家。相比之下,ARC方法虽然在MOS(平均意见分)质量评分上略低,但在多样性方面表现出色,并在FDopenl3等客观指标上获得了最佳成绩。

研究团队还进行了多种变体实验,包括去除对比损失(LC)或用标准的最小二乘对抗性损失替代相对损失(LR)。结果表明,完整的ARC方法(结合相对损失和对比损失)提供了最佳的平衡。

五、创造性应用:从技术到实用的桥梁

这项研究的最终目标不仅仅是学术突破,而是为创意工作流程提供实用工具。研究团队表示,他们的主要目标是"加速文本到音频模型,使其在创意工作流程中实用"。为了感觉像一个令人信服的"乐器",文本到音频模型必须反应迅速。

研究团队将模型的延迟降至消费级GPU上低于200毫秒,这使得它能够像真实乐器一样即时响应。他们非正式地使用这个模型进行音乐创作,发现它在声音设计方面特别有启发性,这要归功于其速度、提示多样性和生成非常规声音的能力。

一个特别有趣的发现是,该模型还展示了音频到音频的能力,可用于风格转换,而无需额外训练。这是通过在ping-pong采样过程中使用任何录音作为初始噪声样本来实现的。这种方法使语音到音频控制成为可能(通过使用语音录音初始化),以及节拍对齐生成(通过使用具有强拍的录音初始化)。

六、未来展望:更快、更好、更实用的音频生成

虽然这项研究取得了令人印象深刻的成果,但研究团队也坦诚指出了当前模型的局限性,主要是其内存和存储需求,占用了几GB的RAM和磁盘空间,这可能对许多应用程序的集成和高效分发构成挑战。

未来的研究方向可能包括:

进一步降低内存和计算需求
针对特定音频类型的微调
改进音频到音频功能
更精确的声音设计控制

研究团队已经公开了他们的代码,并提供了一个演示网站,让更多人能够体验这一突破性技术。

结语:音频生成的新时代

这项研究代表了文本到音频生成领域的一个重要里程碑。通过ARC后训练方法,研究人员实现了前所未有的生成速度,同时保持了音频质量并提升了多样性。这不仅是技术上的突破,更是创意表达方式的革命。

想象未来的创作者可以像弹奏乐器一样"弹奏"AI音频生成工具,实时获得反馈,不断调整和完善。或者游戏开发者能够在游戏中实时生成响应玩家动作的独特音效。这些应用场景不再是遥不可及的梦想,而是即将到来的现实。

正如研究团队总结的那样:"我们希望,随着效率和多样性的提高,文本到音频模型很快将能够支持更广泛的创意应用。"这不仅是对技术未来的展望,也是对创意表达新时代的期许。

有兴趣深入了解这项研究的读者可以访问arXiv网站查阅完整论文,或通过研究团队提供的演示网站亲身体验这一突破性技术。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国十大领域全球领跑,差距还在拉大,正视实力才是真清醒!

美国十大领域全球领跑,差距还在拉大,正视实力才是真清醒!

保德全
2026-02-03 19:30:03
被联合国认为无药可救的黄土高原,中国死磕治理70年,成效如何?

被联合国认为无药可救的黄土高原,中国死磕治理70年,成效如何?

朗威谈星座
2026-02-20 18:34:43
乌克兰的打击,终结俄罗斯预警机制造企业

乌克兰的打击,终结俄罗斯预警机制造企业

走进乌克兰2022
2026-02-21 14:23:25
隔河相望的国家,两个国家的全部陆上边界都在河里,你知道几个?

隔河相望的国家,两个国家的全部陆上边界都在河里,你知道几个?

田园小归
2026-02-23 09:30:17
普京要的不是停火而是终战!美专家公开发文:西方正步步走向死局

普京要的不是停火而是终战!美专家公开发文:西方正步步走向死局

飘逸的云朵
2026-02-23 11:30:59
开年就封杀!从网红顶流到人人驱赶,房车为啥成了城市“公敌”

开年就封杀!从网红顶流到人人驱赶,房车为啥成了城市“公敌”

番外行
2026-02-13 08:58:27
小皮蓬陷禁赛风波!皮蓬前妻拉尔萨晒照力挺儿子:我是你头号球迷

小皮蓬陷禁赛风波!皮蓬前妻拉尔萨晒照力挺儿子:我是你头号球迷

Emily说个球
2026-02-23 11:35:09
尼克松访华,毛主席只送了4两茶叶被嫌弃?周总理笑着说出4个字,美国总统立马变了脸色

尼克松访华,毛主席只送了4两茶叶被嫌弃?周总理笑着说出4个字,美国总统立马变了脸色

文史明鉴
2025-12-13 22:15:21
特朗普忒来劲了!全球关税提高到15%立即生效,中方:日本没资格

特朗普忒来劲了!全球关税提高到15%立即生效,中方:日本没资格

健身狂人
2026-02-22 13:28:04
世界上唯一不穿裤子的国家,男女老少都一样,出门简直“辣眼睛”

世界上唯一不穿裤子的国家,男女老少都一样,出门简直“辣眼睛”

千秋历史
2026-02-10 21:23:52
订单排到四季度,这一产业爆发

订单排到四季度,这一产业爆发

环球网资讯
2026-02-23 09:56:26
美国和伊朗还能打起来吗?双方都做足了准备,结果全是在演戏

美国和伊朗还能打起来吗?双方都做足了准备,结果全是在演戏

安逸安逸
2026-02-23 11:12:30
节后财运不降反升的3生肖,正财横财双来袭,生活谁都比不了

节后财运不降反升的3生肖,正财横财双来袭,生活谁都比不了

毅谈生肖
2026-02-23 10:54:28
官宣了,歼16锁定两架F22,歼20驱离F35

官宣了,歼16锁定两架F22,歼20驱离F35

三叔的装备空间
2026-02-22 21:33:58
顾顺章叛变,导致千名同志被害,为何到死也没提“一号机密”?

顾顺章叛变,导致千名同志被害,为何到死也没提“一号机密”?

雍亲王府
2026-02-21 10:45:05
48小时两件大事搅动全球!美军上将急呼:必须死死盯紧中国

48小时两件大事搅动全球!美军上将急呼:必须死死盯紧中国

兵器海陆空视频
2026-02-21 10:04:04
“感谢你给浙江生这么多廉价劳工”,贵州妈妈炫耀,尴尬的是自己

“感谢你给浙江生这么多廉价劳工”,贵州妈妈炫耀,尴尬的是自己

泽泽先生
2026-01-23 21:37:21
安娜・默多克辞世:她不是豪门配角,是家族权力的幕后设计者

安娜・默多克辞世:她不是豪门配角,是家族权力的幕后设计者

澳洲财经见闻
2026-02-23 03:36:03
闹大了!上海一家长哭诉,孩子刚上大学提出要把20多万压岁钱拿走

闹大了!上海一家长哭诉,孩子刚上大学提出要把20多万压岁钱拿走

火山詩话
2026-02-13 07:30:50
“难怪同学聚会不准拍照”,15秒互啃视频流出,揭穿老一辈人

“难怪同学聚会不准拍照”,15秒互啃视频流出,揭穿老一辈人

泽泽先生
2026-01-18 21:24:07
2026-02-23 12:16:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7289文章数 550关注度
往期回顾 全部

科技要闻

腾讯字节,“火拼”漫剧

头条要闻

海湖庄园被击毙男子身份确认:21岁美国人 曾发布画作

头条要闻

海湖庄园被击毙男子身份确认:21岁美国人 曾发布画作

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

谷爱凌奶奶去世,谷爱凌泪奔

财经要闻

结婚五金迈入10万大关 年轻人结婚更难了

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

房产
教育
数码
家居
艺术

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

教育要闻

福耀科技大学,揭牌首个境外机构

数码要闻

英国硬盘价格高得让人飞到美国购买:跨越半个地球竟省一大笔钱

家居要闻

本真栖居 爱暖伴流年

艺术要闻

十大名家画春,送给春天的你!

无障碍浏览 进入关怀版