网易首页 > 网易号 > 正文 申请入驻

重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

0
分享至



本文第一作者是中国人民大学高瓴人工智能学院 2021 级博士生王希华(导师宋睿华),他的主要研究兴趣方向是多模态生成。本文通讯作者是宋睿华长聘副教授,她的 AIMind 团队主要研究方向是多模态感知、交互与生成。

背景:从「噪声到声音」到「视频到声音」

在多模态生成领域,由视频生成音频(Video-to-Audio,V2A)的任务要求模型理解视频语义,还要在时间维度上精准对齐声音与动态。早期的 V2A 方法采用自回归(Auto-Regressive)的方式将视频特征作为前缀来逐个生成音频 token,或者以掩码预测(Mask-Prediction)的方式并行地预测音频 token,逐步生成完整音频。

这两种方法都依赖于音频的离散化表示,而离散化处理往往由于信息损失会限制音质上限。

最近主流方法大多采用扩散模型或流匹配架构,通过「从噪声生成音频」的方式来实现视频驱动的声音合成。这种方式不依赖离散 token 表征,直接在连续的隐空间进行建模。通过采样随机噪声,并将视频信息作为条件,模型从噪声中逐步去噪,最终生成音频。但是这样的范式仍然存在两个天然瓶颈:

  1. 同一视频条件下的多对一映射:在训练阶段,模型被训练从不同的采样噪声中预测同一个音频,多对一的映射关系增加了训练难度;推理阶段,由于不同噪声样本通过 ODE 求解得到的推理结果差异较大,生成的音频质量难以保持一致,甚至出现「抽奖」现象。
  2. 不同视频条件下的一对多映射:在训练和推理阶段,模型被要求从相同的采样噪声出发只根据不同视频条件生成不同的音频,这要求模型具备极强的条件处理能力。



主流扩散模型或流匹配架构的挑战

因此,模型需要从随机噪声中逐步「听懂」视频,这一过程依赖复杂的条件机制,导致路径复杂、训练低效且生成结果不稳定。

在这一背景下,中国人民大学宋睿华带领的 AIMind 团队与值得买科技 AI 团队提出了一个全新的框架 —— VAFlow。研究者提出:既然从噪声到声音依赖复杂的视频条件机制并且有上述局限,为什么不直接从视频出发生成声音?

基于这一思路,团队设计了一个直接建模「视频→音频」映射的跨模态流匹配框架 VAFlow。它摆脱了对高斯噪声先验的依赖,首次实现了从视频分布直接生成音频的范式转变,并在生成质量、语义对齐与同步精度上取得了显著突破。该研究已正式发表于 ICCV 2025。



不同生成范式对比



  • 论文链接:https://openaccess.thecvf.com/content/ICCV2025/papers/Wang_VAFlow_Video-to-Audio_Generation_with_Cross-Modality_Flow_Matching_ICCV_2025_paper.pdf
  • 主页地址:https://vaflow.github.io/demo/

VAFlow:让视频直接「流」向声音

流匹配(Flow Matching)作为多媒体领域主流的生成算法,它学习一条从起点分布到目标分布的最优传输线路,模型沿着路线一步步把原始分布映射到目标分布。主流的流匹配方法中,模型往往将随机采样的高斯噪声作为起点,以视频为条件输入,逐步将噪声映射到音频分布,这种范式对模型的条件建模能力提出了很大的挑战。而 VAFlow 的核心思想简单又直观:不再从噪声出发,而是直接从视频出发,首次实现了视频分布到音频分布的直接映射。

这意味着模型不再从噪声中解读视频条件「猜测」声音,而是顺着视频的信息流自然生成声音,让视觉与听觉真正合而为一。



VAFlow 框架图

VAFlow 的框架由两个关键模块组成:

  • 跨模态对齐自编码器(Alignment VAE):流匹配模型要求路径两端的分布形状相同,而视频和音频之间的时序和特征维度都存在差异。因此 VAFlow 借助跨模态对齐的变分自编码器调整视频特征以匹配音频特征,解决了视频与音频在时间长度和特征维度上的不匹配问题。
  • 视频驱动的流匹配生成器(Video-Conditioned Flow Matching Estimator):VAFlow 采用 Diffusion transformer (DiT) 架构,直接在视频分布与音频分布之间学习最优传输路径,避免了传统噪声先验带来的不稳定效果。

除此之外,VAFlow 保留了 DiT 结构中的交叉注意力层,让模型能够在流匹配采样过程中持续融合原始视频特征,同时支持推理过程中的无分类器引导。

先验分析:为什么「视频先验」(V-Prior)更优?

为了验证「以视频为先验」的合理性,团队对比分析了高斯先验 (Gaussian Prior) 与视频先验 (V-Prior)的表现,从统计特性、可视化结构和生成质量三方面展开实验。

统计对齐性分析

研究者计算了先验与音频潜向量之间的 均方误差(MSE) 和 中心核对齐度(CKA),并在有条件(Cond.)与无条件(Uncond.)两种设置下训练模型。结果如下表:



可以看出,V-Prior 与音频潜空间的对齐度显著更高(MSE 更低、CKA 更高),同时生成音质(FD)也更优。

这说明:视频先验本身携带了更贴近音频的结构信息,能天然作为更合理的生成起点。

团队进一步利用 t-SNE 将两种先验与目标音频潜空间进行可视化。



不同先验空间及生成过程可视化对比

结果显示:

  • 高斯先验分布随机且离散,其到音频空间的映射路径交叉密集;
  • 视频先验分布则与音频潜空间结构更一致,流动路径平滑,语义结构更清晰。

这说明视频先验在空间结构上更贴合目标模态,能有效减少跨模态传输中的「弯路」,实现更稳定、更高效的生成。

性能对比:更快、更稳、更强、可规模化提升

Diffusion vs Flow vs VAFlow

作者在相同配置下(视觉特征、网络结构、初始化与超参数完全一致)对比了三种不同的生成范式以探究它们的性能差异。分别为:扩散模型(标准 DDPM)、主流流匹配模型(高斯噪声先验)以及 VAFlow(以视频特征为原始分布)。

结果表明:两种流匹配模型在收敛速度与 FD 指标上均优于扩散模型,验证了流匹配在训练效率上的天然优势;而 VAFlow 虽在早期收敛略慢,但最终经过联合训练阶段取得了最低 FD。这种提升得益于它直接建模了更具结构性的视频 - 音频传输路径,避免了高斯噪声先验下的模糊映射。



Scaling Analysis

本文作者发现,VAFlow 随模型规模增大仍保持持续性能提升,这意味着VAFlow 不仅在小模型上高效,参数量增加时同样稳定可拓展,这为未来构建更强大的多模态生成模型奠定了基础。



Benchmark 结果:超越现有 SOTA




研究团队在 V2A 领域常用的数据集 VGGSound 上对 VAFlow 和其他基线模型进行了对比测试。

实验结果显示,VAFlow 在音频生成质量(Quality)相关指标上全面超越了现有 SOTA,获得了最佳分数。尽管没有设计复杂的视频条件模块,在音视频的时序同步(Sync)和语义相关性(Semantic)方面,也达到了与 SOTA 相当的效果。

值得一提的是,与经过文本 - 音频数据增强的 V2A 模型(表格中的灰色行)相比,VAFlow 在没有任何文本标注数据的前提下,语义相关性方面的表现仍能更优或相当。

真实效果



作者展示了一个沙滩场景视频的例子,该视频包括背景中的海浪声和来自不同角色的声音(人群的嘈杂声、女人说话)。可视化结果对比了真值和不同方法生成的音频的梅尔谱图。从图中可以观察到,VAFlow 不仅能精准理解复杂场景并生成所有必要的声音,而且还能与视觉时序保持同步。模型的其他生成结果可在主页试听。

总结与展望

VAFlow 为 V2A 开辟了一条从视频直接映射到音频的全新流匹配生成范式,也为构建通用跨模态生成基础模型提供了新思路。未来,团队将继续探索 VAFlow 在语音、音乐等更广泛音频领域的应用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
哈梅内伊之死和伊朗性史

哈梅内伊之死和伊朗性史

哲空空
2026-03-01 11:14:17
特朗普:美国正在“大规模”打击伊朗 消息人士:伊朗遇难者身份将令人震惊

特朗普:美国正在“大规模”打击伊朗 消息人士:伊朗遇难者身份将令人震惊

环球网资讯
2026-02-28 16:16:05
哈梅内伊身亡,布达诺夫:俄罗斯会接受美国为乌克兰提供的安全保证 | 狼叔看世界

哈梅内伊身亡,布达诺夫:俄罗斯会接受美国为乌克兰提供的安全保证 | 狼叔看世界

狼叔看世界
2026-03-01 11:40:52
快讯!伊朗大捷!

快讯!伊朗大捷!

达文西看世界
2026-03-01 16:46:09
中国男篮100-93中国台北 球员评价:5人优秀,2人及格,5人低迷

中国男篮100-93中国台北 球员评价:5人优秀,2人及格,5人低迷

篮球资讯达人
2026-03-01 18:00:37
网友预测明天早上10点半 deepseek 发布V4 模型,首次没给英伟达权限,选择与华为合作

网友预测明天早上10点半 deepseek 发布V4 模型,首次没给英伟达权限,选择与华为合作

风向观察
2026-03-01 17:11:32
笑发财,那些年港媒取的标题真的狠毒!网友:鸭脖也是鸭,没毛病

笑发财,那些年港媒取的标题真的狠毒!网友:鸭脖也是鸭,没毛病

夜深爱杂谈
2026-03-01 20:12:43
复旦神级教授“预言”:美国不敢打伊朗,国力严重下降难支撑全球霸权

复旦神级教授“预言”:美国不敢打伊朗,国力严重下降难支撑全球霸权

回旋镖
2026-03-01 21:20:11
哈梅内伊接班人真狠人,一夜打遍中东美军:打出半个世纪最强战绩

哈梅内伊接班人真狠人,一夜打遍中东美军:打出半个世纪最强战绩

社会日日鲜
2026-03-01 13:37:07
为全球股市打样,沙特埃及股市开盘大跌5%,但很快反弹

为全球股市打样,沙特埃及股市开盘大跌5%,但很快反弹

上观新闻
2026-03-01 20:07:17
回顾:浙江幼师幼儿园潜伏22年,警察曝光真实身份,家长后怕不已

回顾:浙江幼师幼儿园潜伏22年,警察曝光真实身份,家长后怕不已

谈史论天地
2026-03-01 09:49:38
1971年伊朗花20亿干这么愚蠢的事情,最终成为最昂贵的葬礼

1971年伊朗花20亿干这么愚蠢的事情,最终成为最昂贵的葬礼

爆角追踪
2026-03-01 15:28:53
可怜的内贾德,为何被杀?

可怜的内贾德,为何被杀?

雪中风车
2026-03-01 22:16:05
北京,男子贷款70万买155万的迈巴赫s480跑滴滴,每天睡到自然醒,网友:不敢相信!

北京,男子贷款70万买155万的迈巴赫s480跑滴滴,每天睡到自然醒,网友:不敢相信!

神奇故事
2026-03-01 23:49:43
今年,北京已无离职潮

今年,北京已无离职潮

微微热评
2026-03-01 18:45:40
云淡风轻!网传特朗普指挥袭击伊朗前几分钟,还在家中参加派对

云淡风轻!网传特朗普指挥袭击伊朗前几分钟,还在家中参加派对

小萝卜丝
2026-03-01 13:10:35
美以空袭伊朗,阿拉伯国家联盟发声:“阿拉伯-以色列冲突升级为全面地区战争的时刻”

美以空袭伊朗,阿拉伯国家联盟发声:“阿拉伯-以色列冲突升级为全面地区战争的时刻”

环球网资讯
2026-03-01 11:00:18
外媒称哈梅内伊在其工作场所遇害,为何没躲避?为何能精准定位?

外媒称哈梅内伊在其工作场所遇害,为何没躲避?为何能精准定位?

之乎者也小鱼儿
2026-03-01 11:44:00
今起,这些钱不用交了!国家明确:3月1日起,一批收费取消

今起,这些钱不用交了!国家明确:3月1日起,一批收费取消

陈博世财经
2026-03-01 10:46:47
3月3日元宵节,牢记:1不留,2不洗,3不穿,4不空!马年大吉

3月3日元宵节,牢记:1不留,2不洗,3不穿,4不空!马年大吉

阿龙美食记
2026-03-01 16:17:49
2026-03-02 03:52:51
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12382文章数 142573关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

房产
家居
旅游
手机
数码

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

家居要闻

素色肌理 品意式格调

旅游要闻

青州春雨刷屏,千年古城烟雨朦胧,藏着最动人的东方浪漫!

手机要闻

现场直击!荣耀Robot Phone机器人手机长啥样

数码要闻

曝苹果WWDC 26将推Core AI框架取代Core ML并公布多项AI功能

无障碍浏览 进入关怀版