7月23日消息,清华大学与生数科技近日联合发布革命性文生音频系统 FreeAudio,首次攻克长时、多声音事件音频生成中的时间精准控制难题。
当前主流文本生成音频(Text-to-Audio, T2A)模型受限于时序对齐数据的稀缺,面对"猫头鹰在2.4至5.2秒鸣叫"等精准时间控制时,常常表现不佳。虽已有部分研究尝试在10秒 T2A 系统上实现时间可控生成,但生成质量仍不够理想。为应对上述问题,清华大学和生数科技最新科研成果提出了一种免训练方法——FreeAudio,利用短时T2A系统,实现了长时 + 多声音事件 + 精准时间可控的文生音频效果。
时间可控音频生成的 LLM Planning 和 Decoupling & Aggregating Attention Control 模块
据介绍,FreeAudio可基于自然语言文本与时间提示,对每一声音事件实现精确的时间可控:
- 秒级精准控制:响应复合时间指令(如" 0 - 8秒溪流声 + 2.4 - 5.2秒猫头鹰鸣叫 + 0 - 24秒蟋蟀声")
- 长时生成能力:支持10秒以上复杂场景音效生成
在时间可控音频生成实验中,FreeAudio 在 AudioCondition 测试集上显著优于现有主流方法,全面提升了时间对齐精度与音频质量。在长时音频生成任务中,FreeAudio 在 AudioCaps 和 MusicCaps 数据集上展现出优越的扩展性与稳定性。在10秒、26秒和90秒的生成长度,FreeAudio 始终在多个指标上表现出色,充分验证了其对不同时长的生成能力。同时,主观评估结果显示,FreeAudio 在音质、连贯性与风格一致性等维度均取得最好效果。
目前,该工作已被 ACM Multimedia 2025录用,并被AC推荐为 Oral 录取。据了解,FreeAudio 系统未来或考虑在 Vidu 产品端上线。(定西)
本文来自网易科技报道,更多资讯和深度内容,关注我们。
