重新定义跨模态生成的流匹配范式，VAFlow让视频「自己发声」|高斯|时序|编码器|新模型

重新定义跨模态生成的流匹配范式，VAFlow让视频「自己发声」

2025-10-31 15:25:11　来源: 机器之心Pro

北京举报

分享至

本文第一作者是中国人民大学高瓴人工智能学院 2021 级博士生王希华（导师宋睿华），他的主要研究兴趣方向是多模态生成。本文通讯作者是宋睿华长聘副教授，她的 AIMind 团队主要研究方向是多模态感知、交互与生成。

背景：从「噪声到声音」到「视频到声音」

在多模态生成领域，由视频生成音频（Video-to-Audio，V2A）的任务要求模型理解视频语义，还要在时间维度上精准对齐声音与动态。早期的 V2A 方法采用自回归（Auto-Regressive）的方式将视频特征作为前缀来逐个生成音频 token，或者以掩码预测（Mask-Prediction）的方式并行地预测音频 token，逐步生成完整音频。

这两种方法都依赖于音频的离散化表示，而离散化处理往往由于信息损失会限制音质上限。

最近主流方法大多采用扩散模型或流匹配架构，通过「从噪声生成音频」的方式来实现视频驱动的声音合成。这种方式不依赖离散 token 表征，直接在连续的隐空间进行建模。通过采样随机噪声，并将视频信息作为条件，模型从噪声中逐步去噪，最终生成音频。但是这样的范式仍然存在两个天然瓶颈：

同一视频条件下的多对一映射：在训练阶段，模型被训练从不同的采样噪声中预测同一个音频，多对一的映射关系增加了训练难度；推理阶段，由于不同噪声样本通过 ODE 求解得到的推理结果差异较大，生成的音频质量难以保持一致，甚至出现「抽奖」现象。
不同视频条件下的一对多映射：在训练和推理阶段，模型被要求从相同的采样噪声出发只根据不同视频条件生成不同的音频，这要求模型具备极强的条件处理能力。

主流扩散模型或流匹配架构的挑战

因此，模型需要从随机噪声中逐步「听懂」视频，这一过程依赖复杂的条件机制，导致路径复杂、训练低效且生成结果不稳定。

在这一背景下，中国人民大学宋睿华带领的 AIMind 团队与值得买科技 AI 团队提出了一个全新的框架 —— VAFlow。研究者提出：既然从噪声到声音依赖复杂的视频条件机制并且有上述局限，为什么不直接从视频出发生成声音？

基于这一思路，团队设计了一个直接建模「视频→音频」映射的跨模态流匹配框架 VAFlow。它摆脱了对高斯噪声先验的依赖，首次实现了从视频分布直接生成音频的范式转变，并在生成质量、语义对齐与同步精度上取得了显著突破。该研究已正式发表于 ICCV 2025。

不同生成范式对比

论文链接：https://openaccess.thecvf.com/content/ICCV2025/papers/Wang_VAFlow_Video-to-Audio_Generation_with_Cross-Modality_Flow_Matching_ICCV_2025_paper.pdf
主页地址：https://vaflow.github.io/demo/

VAFlow：让视频直接「流」向声音

流匹配（Flow Matching）作为多媒体领域主流的生成算法，它学习一条从起点分布到目标分布的最优传输线路，模型沿着路线一步步把原始分布映射到目标分布。主流的流匹配方法中，模型往往将随机采样的高斯噪声作为起点，以视频为条件输入，逐步将噪声映射到音频分布，这种范式对模型的条件建模能力提出了很大的挑战。而 VAFlow 的核心思想简单又直观：不再从噪声出发，而是直接从视频出发，首次实现了视频分布到音频分布的直接映射。

这意味着模型不再从噪声中解读视频条件「猜测」声音，而是顺着视频的信息流自然生成声音，让视觉与听觉真正合而为一。

VAFlow 框架图

VAFlow 的框架由两个关键模块组成：

跨模态对齐自编码器（Alignment VAE）：流匹配模型要求路径两端的分布形状相同，而视频和音频之间的时序和特征维度都存在差异。因此 VAFlow 借助跨模态对齐的变分自编码器调整视频特征以匹配音频特征，解决了视频与音频在时间长度和特征维度上的不匹配问题。
视频驱动的流匹配生成器（Video-Conditioned Flow Matching Estimator）：VAFlow 采用 Diffusion transformer (DiT) 架构，直接在视频分布与音频分布之间学习最优传输路径，避免了传统噪声先验带来的不稳定效果。

除此之外，VAFlow 保留了 DiT 结构中的交叉注意力层，让模型能够在流匹配采样过程中持续融合原始视频特征，同时支持推理过程中的无分类器引导。

先验分析：为什么「视频先验」（V-Prior）更优？

为了验证「以视频为先验」的合理性，团队对比分析了高斯先验 (Gaussian Prior) 与视频先验 (V-Prior)的表现，从统计特性、可视化结构和生成质量三方面展开实验。

统计对齐性分析

研究者计算了先验与音频潜向量之间的均方误差（MSE）和中心核对齐度（CKA），并在有条件（Cond.）与无条件（Uncond.）两种设置下训练模型。结果如下表：

可以看出，V-Prior 与音频潜空间的对齐度显著更高（MSE 更低、CKA 更高），同时生成音质（FD）也更优。

这说明：视频先验本身携带了更贴近音频的结构信息，能天然作为更合理的生成起点。

团队进一步利用 t-SNE 将两种先验与目标音频潜空间进行可视化。

不同先验空间及生成过程可视化对比

结果显示：

高斯先验分布随机且离散，其到音频空间的映射路径交叉密集；
视频先验分布则与音频潜空间结构更一致，流动路径平滑，语义结构更清晰。

这说明视频先验在空间结构上更贴合目标模态，能有效减少跨模态传输中的「弯路」，实现更稳定、更高效的生成。

性能对比：更快、更稳、更强、可规模化提升

Diffusion vs Flow vs VAFlow

作者在相同配置下（视觉特征、网络结构、初始化与超参数完全一致）对比了三种不同的生成范式以探究它们的性能差异。分别为：扩散模型（标准 DDPM）、主流流匹配模型（高斯噪声先验）以及 VAFlow（以视频特征为原始分布）。

结果表明：两种流匹配模型在收敛速度与 FD 指标上均优于扩散模型，验证了流匹配在训练效率上的天然优势；而 VAFlow 虽在早期收敛略慢，但最终经过联合训练阶段取得了最低 FD。这种提升得益于它直接建模了更具结构性的视频 - 音频传输路径，避免了高斯噪声先验下的模糊映射。

Scaling Analysis

本文作者发现，VAFlow 随模型规模增大仍保持持续性能提升，这意味着VAFlow 不仅在小模型上高效，参数量增加时同样稳定可拓展，这为未来构建更强大的多模态生成模型奠定了基础。

Benchmark 结果：超越现有 SOTA

研究团队在 V2A 领域常用的数据集 VGGSound 上对 VAFlow 和其他基线模型进行了对比测试。

实验结果显示，VAFlow 在音频生成质量（Quality）相关指标上全面超越了现有 SOTA，获得了最佳分数。尽管没有设计复杂的视频条件模块，在音视频的时序同步（Sync）和语义相关性（Semantic）方面，也达到了与 SOTA 相当的效果。

值得一提的是，与经过文本 - 音频数据增强的 V2A 模型（表格中的灰色行）相比，VAFlow 在没有任何文本标注数据的前提下，语义相关性方面的表现仍能更优或相当。

真实效果

作者展示了一个沙滩场景视频的例子，该视频包括背景中的海浪声和来自不同角色的声音（人群的嘈杂声、女人说话）。可视化结果对比了真值和不同方法生成的音频的梅尔谱图。从图中可以观察到，VAFlow 不仅能精准理解复杂场景并生成所有必要的声音，而且还能与视觉时序保持同步。模型的其他生成结果可在主页试听。

总结与展望

VAFlow 为 V2A 开辟了一条从视频直接映射到音频的全新流匹配生成范式，也为构建通用跨模态生成基础模型提供了新思路。未来，团队将继续探索 VAFlow 在语音、音乐等更广泛音频领域的应用。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.