腾讯混元正式开源 HunyuanVideo-Foley,打造端到端视频音效生成模型!这是一款面向视频创作者的专业级 AI 工具,可广泛应用于短视频、影视制作、广告创意和游戏开发等场景,能够为内容创作带来更高效、更沉浸的视听体验。HunyuanVideo-Foley 采用新型文本-视频-音频(TV2A)生成框架,结合REPA策略,实现高保真音频,并在视觉动态与文本语义间均衡对齐,同时配备高效数据管线,支持 TV2A 数据扩展。(链接在文章底部)
HunyuanVideo-Foley 具备三大核心优势:其一,支持复杂场景下的高质量视听同步,让音效与画面、语义自然契合;其二,平衡视觉与文本多模态语义分析,智能组合音效元素,满足个性化需求;其三,凭借自研 48kHz 音频 VAE,实现专业级音效、音乐与人声的高保真重建,树立行业新标杆。
01 技术原理
HunyuanVideo-Foley 模型架构概览:该模型将编码后的文本(CLAP)、视觉(SigLIP-2)和音频(DAC-VAE)输入,通过混合框架进行整合,先经过多模态 Transformer 块,再通过单模态 Transformer 块处理。混合 Transformer 块通过同步特征和时间步嵌入进行调制与门控。预训练的 ATST-Frame 用于计算单模态 Transformer 块潜空间表示的REPA损失。生成的音频潜空间表示最终由 DAC-VAE 解码器解码为音频波形。
HunyuanVideo-Foley可适配人物互动、动物活动、自然景观、卡通、科幻等各种场景,生成与画面精准匹配的音频。
文本-视频到音频(TV2A)任务是一项复杂的多模态生成挑战,需要大规模、高质量的数据集。因此设计的全面数据处理管线能够系统地识别并剔除不适宜内容,从而提升音频生成的稳健性和泛化能力。
得益于创新的结构设计,HunyuanVideo-Foley既能理解视频画面,又能结合文字描述,自动平衡不同信息源, 生成层次丰富的复合音效,不会因为过度依赖于文本语义而只生成部分音效。
HunyuanVideo-Foley极大程度抑制了底噪和不一致的音效瑕疵的出现,保证了专业级的音频保真度。
https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
https://arxiv.org/pdf/2508.16930
https://huggingface.co/tencent/HunyuanVideo-Foley
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.