Meta近日发布Audiobox,一款基于自然语言提示的统一音频生成系统。用户只需输入文字描述,即可生成语音、音效和环境音,无需分别使用不同工具。
该系统核心创新在于"流匹配"技术,将语音合成与音频生成整合到同一框架。区别于传统方案需要独立模型处理不同任务,Audiobox通过统一的扩散模型架构,支持语音克隆、音效生成、噪声消除等多种功能。
![]()
技术层面,Audiobox采用双阶段训练:先以大规模无监督数据预训练,再用高质量标注数据微调。模型支持零样本语音克隆,用户上传3秒音频样本即可复刻特定声线。
![]()
Meta同步开源了研究版本Audiobox-Medium,供学术机构和非商业用途使用。商业应用仍需通过官方API申请。
![]()
这一发布延续了Meta在生成式AI领域的开源策略。此前其语音合成模型Voicebox已展示类似能力,Audiobox进一步扩展至通用音频领域,直接竞争ElevenLabs等专注语音合成的创业公司。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.