网易首页 > 网易号 > 正文 申请入驻

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

0
分享至

来源:市场资讯

(来源:机器之心Pro)


本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。


研究背景

文生音频系统旨在合成与自然语言描述一致的音频内容(如「鸟儿正在鸣叫」),在高保真生成方面已取得显著进展,但在精细化控制维度仍存在明显不足:

然而,由于带有精确时间标注和语音转录的信息难以大规模获取,可控 TTA 系统在规模化训练与生成能力上仍受到限制。同时,现有方法通常仅关注单一控制维度,尚未在统一框架下同时实现时间控制与可理解语音生成。

核心方法

本文提出 ControlAudio,一种渐进式扩散建模方法,通过逐步建模文本、时间与音素等不同粒度的条件信息,实现可控的 TTA 生成。整体方法包含三个核心部分:


渐进式扩散建模

ControlAudio 将多条件建模拆解为一个由粗到细的渐进过程。

在训练阶段,模型分三步逐步引入控制信号:首先在大规模文本 - 音频数据上预训练,学习基础的文本到音频生成能力;随后在包含时间标注的数据上进行微调,使模型能够控制声音事件的时间结构;最后进一步引入音素信息进行联合训练,实现对语音内容的建模。

在这一过程中,通过使用 Text、Text + Timing 以及 Text + Timing + Phoneme 等不同条件组合,逐步提升模型对细粒度控制信号的建模能力。


在推理阶段,方法提出了渐进式引导采样策略:在扩散早期,仅使用文本与时间条件进行引导,先生成整体的时间结构;在后期阶段,再引入音素信息并提高引导强度,用于细化语音内容。该设计与扩散模型由粗到细的生成过程一致,从而在时间对齐与语音清晰度上取得更好的效果。

数据集构建

针对可控 TTA 所需的时间标注与语音内容数据稀缺问题,ControlAudio 构建了一个多来源的数据体系,将真实标注与仿真数据相结合。

首先,在真实数据方面,基于具有时间标注的 AudioSet-SL,筛选包含语音的片段,并通过分离与转写流程,获得带有时间戳与语音内容的信息,将原始的 ⟨text, audio⟩ 扩展为 ⟨text, timing, phoneme, audio⟩ 的细粒度数据。在此基础上,进一步构建大规模仿真数据。

方法从真实数据中统计语音活动分布,并据此合成单人或多人语音片段,按照合理的时间结构进行排列,并与背景音频混合生成复杂音频场景。该流程额外扩展了超过 17 万条训练样本,提升了数据规模与多样性。

此外,在结构化提示词的构建过程中,ControlAudio 引入基于链式推理(Chain-of-Thought, CoT)的自动生成流程,将自然语言描述解析为「事件 — 时间 — 语音内容」的结构化表示,为模型提供更加清晰的条件输入。


实验结果

为了验证 ControlAudio 的有效性,团队首先在时间可控音频生成的 AudioCondition 测试集上进行评估。相比现有方法,在事件时间对齐指标上取得显著提升,同时在 FAD、CLAP 等音频质量指标上保持竞争力甚至更优表现。


在包含语音生成的评测任务中,ControlAudio 同样展现出更强的语音可理解性与整体音频质量,验证了其在统一框架下同时建模时间结构与语音内容的能力。


在文生音频任务中,ControlAudio 同样取得了与当前主流方法相当甚至更优的生成质量,在引入时间与语音控制能力的同时,并未降低基础的文本到音频生成性能。


总结与展望

ControlAudio 从数据构建、模型训练到采样策略三个层面系统性地解决了文生音频中的精细化控制问题,在统一框架下实现了文本、时间与语音内容的协同建模,并在多项任务上取得了优于现有方法的表现。

相比以往仅关注单一控制维度的工作,ControlAudio 展现了更强的通用性与扩展潜力。

随着音频与多模态生成模型的发展,越来越多系统开始探索 Speech、Audio、Music 的统一建模范式。研究团队希望ControlAudio 所提出的「多粒度条件统一建模 + 渐进式生成」思路,能够为通用音频生成提供一种可扩展的技术路径,推动模型从单一任务走向更复杂、多维度可控的内容生成。

样本展示

Text Prompt:Music plays, followed by mechanisms, typing, beeps, and an alarm.

Timing Prompt:Music : 0.00s - 10.00s; Beeps : 1.00s - 1.20s 3.00s - 3.20s 4.90s - 5.10s 6.90s - 7.10s; Typing : 1.20s - 7.80s; Alarm : 7.85s - 8.50s.

Structured prompt:Music plays, followed by mechanisms, typing, beeps, and an alarm. @{Music. & <0.00,10.00>}@{Beeps. & <1.00,1.20><3.00,3.20><4.90,5.10><6.90,7.10>}@{Typing. & <1.20,7.80>}@{Alarm. & <7.85,8.50>}


Text Prompt:A man speaking over an intercom as a crowd of people talk followed by a dog barking.

Content Prompt:and contain them until that person can be taken into custody effectively and safely on the part of the other team of police sheriffs.

Structured prompt:A man speaking over an intercom as a crowd of people talk followed by a dog barking. @{Crowd talking ambience & <0.00,10.00>}@{Male speech, man speaking & <0.46,5.14>"And contain them until that person can be taken into custody effectively and safely."<5.64,8.22>"On the part of the other team of police sheriffs."}@{Dog barking & <9.26,9.46>}


Text Prompt:Females voice narrating a scene as music is playing and rain drops are falling.

Content Prompt:Daniel came out of the airport. He raised one arm to hail a taxi.

Structured prompt:Females voice narrating a scene as music is playing and rain drops are falling. @{Music & <0.00,10.00>}@{Female speech, woman narrating & <2.62,4.65>"Daniel came out of the airport."<5.37,8.26>"He raised one arm to hail a taxi."}@{Rain falling & <8.26,10.00>}


Text Prompt:Splashing water followed by a girl speaking then scraping and spitting.

Content Prompt:This is the last time you did that first thing. Same thing.

Structured prompt:Splashing water followed by a girl speaking then scraping and spitting. @{Splashing water & <0.00,1.38>}@{Female speech, girl speaking & <1.57,4.52>"This is the last time you did that first thing. Same thing."}@{Scraping & <4.66,6.81><7.10,8.00>}@{Spitting & <8.10,8.48>}


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我知道那两名保安为啥不让退伍老兵上厕所的原因

我知道那两名保安为啥不让退伍老兵上厕所的原因

笔杆论道
2026-04-23 01:25:03
世锦赛战报:世界亚军2-10一轮游!中国名将连输5局,3-6爆冷落后

世锦赛战报:世界亚军2-10一轮游!中国名将连输5局,3-6爆冷落后

小火箭爱体育
2026-04-23 05:46:22
美以失算!伊朗强硬派全面掌权,温和派靠边站,美伊谈判又熄火

美以失算!伊朗强硬派全面掌权,温和派靠边站,美伊谈判又熄火

国是直通车
2026-04-22 20:39:30
中央定调!4月起公务员退休彻底取消弹性延迟,体制内真绷不住了

中央定调!4月起公务员退休彻底取消弹性延迟,体制内真绷不住了

爱下厨的阿椅
2026-04-22 17:30:09
榜首易主!曼城反超阿森纳登顶,同分同净胜球进球多3球

榜首易主!曼城反超阿森纳登顶,同分同净胜球进球多3球

懂球帝
2026-04-23 05:03:54
中组部人社部规定:公职人员违纪后待遇一文讲清

中组部人社部规定:公职人员违纪后待遇一文讲清

笑熬浆糊111
2026-04-23 00:05:18
重庆警方发布警情通报

重庆警方发布警情通报

极目新闻
2026-04-23 01:13:12
反转了!三明女司机踹人、保安扇耳光,网友:女子在学校门口占道

反转了!三明女司机踹人、保安扇耳光,网友:女子在学校门口占道

火山詩话
2026-04-23 06:54:22
全国首例职场性侵精神工伤案明日开庭,崔丽丽:我不再需要那件衣服做我的盔甲!

全国首例职场性侵精神工伤案明日开庭,崔丽丽:我不再需要那件衣服做我的盔甲!

潇湘晨报
2026-04-22 22:31:09
取消午休,改成16点下班,你愿意吗?网友吵翻!

取消午休,改成16点下班,你愿意吗?网友吵翻!

鲁中晨报
2026-04-22 14:28:23
美女大学生被骗泰国卖园区被质疑!网友:要过5个关口,配合才行

美女大学生被骗泰国卖园区被质疑!网友:要过5个关口,配合才行

火山詩话
2026-04-23 09:28:14
狂妄到没边!以色列大使联合国发飙,当众逼问中国给伊朗多少钱

狂妄到没边!以色列大使联合国发飙,当众逼问中国给伊朗多少钱

岁暮的归南山
2026-04-23 08:23:06
英国议会通过法案,2008年后出生者终身不得购烟

英国议会通过法案,2008年后出生者终身不得购烟

澎湃新闻
2026-04-22 14:53:04
鸿蒙智行发布会被质疑出意外,仅尚界新车最后停留在舞台上没有移动,“尚界Z7 趴窝”冲上热搜,工作人员:请大家不要过度解读传播

鸿蒙智行发布会被质疑出意外,仅尚界新车最后停留在舞台上没有移动,“尚界Z7 趴窝”冲上热搜,工作人员:请大家不要过度解读传播

鲁中晨报
2026-04-23 07:04:04
多头下注?苏林回国态度大变,中方刚收紧钨矿出口,越南立马填上

多头下注?苏林回国态度大变,中方刚收紧钨矿出口,越南立马填上

世界圈
2026-04-22 15:43:35
快讯!印度这次下血本了!

快讯!印度这次下血本了!

达文西看世界
2026-04-23 07:30:29
乌克兰没钱打俄罗斯了?国库见底外援青黄不接,普通人积蓄一夜缩水民不聊生

乌克兰没钱打俄罗斯了?国库见底外援青黄不接,普通人积蓄一夜缩水民不聊生

网易新闻出品
2026-04-22 18:42:46
教育部新规落地!9月上学全变了,家长趁早看

教育部新规落地!9月上学全变了,家长趁早看

笑熬浆糊111
2026-04-23 00:05:18
一个残酷的医学事实

一个残酷的医学事实

黄先生斜杠青年
2026-04-23 05:11:46
最新法规4.30号执行!带烟出门要留心!不抽不用,也可能违规被罚

最新法规4.30号执行!带烟出门要留心!不抽不用,也可能违规被罚

复转这些年
2026-04-22 20:23:34
2026-04-23 10:31:01
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2971690文章数 6873关注度
往期回顾 全部

科技要闻

车没卖爆,利润却大涨,特斯拉发布财报

头条要闻

女子出差被老板性侵后向公司索赔250万 此前年薪120万

头条要闻

女子出差被老板性侵后向公司索赔250万 此前年薪120万

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

蜜雪冰城泰国代言人 被扒出辱华黑历史

财经要闻

全球第一个国家宣布:储备6月耗尽

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

教育
亲子
时尚
家居
公开课

教育要闻

相似三角形与抛物线,一个视频学会!

亲子要闻

服了

卷首语|“这些书有啥用?”“没用,但好看!”

家居要闻

极简绘梦 克制和谐

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版