网易首页 > 网易号 > 正文 申请入驻

港大联合字节跳动提出JoVA: 联合自注意力视频-音频联合生成模型

0
分享至



作者介绍:本文第一作者黄小虎同学,目前是香港大学的三年级在读博士生,导师是韩锴教授。黄小虎的研究方向是以视频为中心的领域,包括音视频生成、视频理解以及视频识别。

视频 - 音频联合生成的研究近期在开源与闭源社区都备受关注,其中,如何生成音视频对齐的内容是研究的重点。

近日,来自香港大学和字节跳动的研究团队提出了一种简单有效的框架 ——JoVA,它支持视频和音频的 Token 在一个 Transformer 的注意力模块中直接进行跨模态交互。为了解决人物说话时的 “口型 - 语音同步” 问题,JoVA 引入了一个基于面部关键点检测的嘴部区域特定损失 (Mouth-area specific loss)。

实验表明,JoVA 只采用了约 190 万条训练数据,便在口型同步准确率、语音质量和整体生成保真度上,达到了先进水平。



  • 项目主页: https://visual-ai.github.io/jova/
  • 论文地址:https://arxiv.org/abs/2512.13677

一、研究背景与动机

目前的开源解决方案通常分为两大类别:一类是 “级联式”,即先生成视频再配音,或者先生成语音再驱动视频生成,这种方式在一定程度上会导致音频和画面的割裂;另一类是 “端到端的联合生成”,试图同时输出视频和音频。

如下图 a, 现有的端到端方法(如 OVi 和 Universe 等),为了实现双模态对齐,需要在自注意力层 (self-attention) 之外,额外设计融合模块或跨注意力层 (Cross-attention)。这不仅破坏了 Transformer 架构的简洁性,还可能阻碍进一步的数据和模态扩展。

相比之下,JoVA 采用了更加简洁的设计(如图 b),直接使用联合自注意力层 (joint self-attention) 进行两种模态特征的融合与对齐。它同时承担了单模态内的建模以及跨模态的融合任务,无需引入任何新的模块。



二、方法设计

1. 架构描述

JoVA 采用 Waver 作为基础模型。为了实现音频生成,JoVA 首先通过复制预训练视频主干网络 (Backbone) 的参数来初始化音频扩散模型。在特征提取方面,采用了 MMAudio VAE 将原始音频转换为声谱图潜在表示 (Latent Representation)。

音频分支的训练沿用了与视频分支相同的流匹配 (Flow Matching) 目标函数。在预训练阶段,视频和音频模态是独立训练的;而在后续阶段,两者被统一整合进同一个架构中进行并行处理。此外,对于视频生成,模型支持参考图像 (Reference Image) 作为条件输入。该图像经由视频 VAE 编码后,在通道维度上与噪声视频潜特征进行拼接。



2. 音频 - 视频 - 文本联合自注意力层

为了实现模态间的融合,JoVA 在 Transformer 块内部采用联合自注意力机制(Joint Self-Attention)。具体而言,视频 Token、音频 Token 以及对应的文本 Token 被拼接在一起,输入到共享的自注意力层中进行处理。这种设计允许不同模态的 Token 在每一层都进行直接的信息交换,既保留了各自的预训练知识,又实现了特征融合。为了确保视频与音频在时间维度上的精确同步,模型采用了源自 MMAudio 的时间对齐旋转位置编码(Temporal-aligned RoPE),在时间维度上同步了两种模态的位置编码。

3. 潜空间嘴部区域感知监督(Mouth-Aware Supervision)

为了解决人像生成中的唇形同步问题,JoVA 引入了一种针对嘴部区域的增强监督策略。该过程包含三个步骤:

1. 区域定位:首先在原始视频帧上进行面部关键点检测,计算出覆盖嘴部区域的像素级边界框。

2. 潜空间映射:将像素空间的边界框映射到 VAE 的潜空间。这包括空间上的缩放(除以空间下采样因子 s)和时间上的滑动窗口聚合(根据时间下采样因子 t 合并窗口内的边界框),以精确定位潜特征中的嘴部区域。

3. 加权损失:在训练目标函数中引入了专门的嘴部损失项。该损失仅对视频潜特征中的嘴部掩码区域计算流匹配损失,并通过权重系数进行调节。最终的总损失函数由视频损失、音频损失和嘴部区域损失共同构成,从而在不增加推理阶段架构复杂度的前提下,强制模型学习细粒度的唇形 - 语音对齐。



如下图,我们可以发现,这种映射方式可以很好地在潜空间定位到嘴部区域:



三、训练数据集构建

作者构建了包含三个部分的训练数据集:Text2Audio(环境音)、Text2Video-Audio(自然场景视听对)以及 Text2Avatar-Speech(数字人 / 说话人视频),总共约 1.9M 的训练样本。数据标注采用了一套自动化流水线:使用 Tarsier2 生成视频描述,Audio-flamingo3 生成音频描述,并利用 Whisper 进行自动语音识别(ASR)以获取语音文本。

在实施细节上,采用两阶段训练策略:先进行语音单模态独立训练(80K 步),再进行联合视听训练(50K 步),并在推理时使用了分类器无关引导(Classifier-Free Guidance)以提升生成质量。



四、实验结果

1. SOTA 方法对比

在 UniAvatar-Bench(作者精选的 100 个样本)和 Verse-Bench(600 个多样化样本)两个基准上进行了评估。对比对象包括两类:一是使用真实音频驱动的视频生成模型(如 Wan-S2V, Fantasy-Talking),二是联合视听生成模型(如 Universe-1, OVI)。

UniAvatar-Bench 表现:JoVA 在整体性能上表现最佳。

  • 唇形同步(LSE-C):得分为 6.64,不仅优于联合生成模型 OVI (6.41) 和 Universe-1 (1.62),甚至超过了使用真实音频驱动的 Wan-S2V (6.43),证明了嘴部监督策略的有效性。
  • 语音与音频质量:在文本转语音准确性上,JoVA 取得了最低的词错误率(WER 0.18);在音频生成指标(FD, KL, CE, CU, PQ)上均取得最佳分数。
  • 视频质量:在动态程度(MS 0.98)和美学评分(AS 0.47)上均领先。虽然身份一致性(ID 0.78)低于音频驱动模型,但在联合生成任务中处于合理范围。



Verse-Bench 表现:JoVA 展现了在多样化场景下的鲁棒性。

  • 语音准确性:WER 低至 0.11,验证了其稳健的语音合成能力。
  • 视听对齐:LSE-C 得分为 6.51,略低于 OVI (6.61) 但远高于 Universe (1.62)。
  • 综合质量:在保持最高视频动态(MS 0.80)和美学质量(AS 0.48)的同时,音频生成的一致性(CS, CE)也达到了最优水平。



模型扩展性与效率分析

研究进一步对比了基于 Waver-1.6B(总参数量 3.2B)和 Waver-12B(总参数量 24B)主干网络的 JoVA 模型性能:

  • 小模型的高效性:仅使用 3.2B 参数和 1.9M 训练数据的 JoVA 模型,其 LSE-C 得分达到 6.20,显著优于参数量更大(7.1B)且训练数据更多(6.4M)的 Universe-1 模型(LSE-C 1.62),并与 10.9B 参数的 OVI 模型具备竞争力。
  • 大模型的性能上限:随着参数量增加至 24B,JoVA 在各项指标上均达到最佳水平(LSE-C 提升至 6.64,WER 降至 0.18)。



2. 融合实验对比

为了验证各模块的有效性,作者进行了多项消融实验:

嘴部感知损失(Mouth-Aware Loss)的影响:

  • 当权重为 0.0 时,模型无法学习细粒度的唇形对齐(LSE-C 仅为 1.39)。
  • 增加权重至 5.0 时,LSE-C 显著提升至 6.64,且未损害其他音频或视频质量指标。这表明针对嘴部区域的显式监督对于实现精确同步至关重要。



时间对齐 RoPE 的影响:

  • 采用时间对齐的 RoPE(视频和音频共享时间维度的位置编码)相比未对齐版本,LSE-C 从 6.58 提升至 6.64。
  • 尽管在音频分布相似度(FD)上存在轻微折损(0.58 vs 0.69),但该设计显著增强了帧级的时间对应关系,更利于人像视频生成。



联合自注意力 vs. 交叉注意力:

  • 对比结果显示,联合自注意力(Joint Self-Attention) 机制在唇形同步(LSE-C 6.64)和语音准确性(WER 0.18)上均优于交叉注意力变体。
  • 特别是带线性适配层的交叉注意力方案表现最差(LSE-C 1.63)。这证实了在统一的注意力空间内直接处理多模态 Token,比通过独立的交叉注意力模块更能促进特征的有效对齐。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
傅斯年怒斥苏联“集罪恶之大成”:那些敢向苏联开炮的中国硬骨头

傅斯年怒斥苏联“集罪恶之大成”:那些敢向苏联开炮的中国硬骨头

顾史
2026-03-21 19:52:44
房价上涨的最强信号!

房价上涨的最强信号!

米宅
2026-03-24 07:26:02
土耳其单周抛售22吨黄金 创2018年以来新高

土耳其单周抛售22吨黄金 创2018年以来新高

财联社
2026-03-26 20:58:17
她是两百年难遇的美人,靠美貌“征服”无数男人,如今49岁仍未婚

她是两百年难遇的美人,靠美貌“征服”无数男人,如今49岁仍未婚

林雁飞
2026-03-22 14:47:54
华为Pura新机定了,4月全球首发!

华为Pura新机定了,4月全球首发!

3C毒物
2026-03-26 00:07:53
冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

澳洲红领巾
2026-03-26 12:22:58
所有退休人员注意了:如果收到这条短信,一定要抓紧时间解决!

所有退休人员注意了:如果收到这条短信,一定要抓紧时间解决!

小鹿姐姐情感说
2026-03-26 16:22:36
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

似水流年忘我
2026-03-26 02:13:59
国家出手!“京圈富少”被判入狱,和童瑶关系被扒,真实身份曝光

国家出手!“京圈富少”被判入狱,和童瑶关系被扒,真实身份曝光

林轻吟
2026-03-25 07:23:12
全球最大弹药库:澳门大搬空需6年,是否足够美国打次世界大战?

全球最大弹药库:澳门大搬空需6年,是否足够美国打次世界大战?

小蒨喜欢解说
2026-03-23 17:51:09
张雪峰离世后,再看撒贝宁三亚休假,才懂阶层差距最扎心的是什么

张雪峰离世后,再看撒贝宁三亚休假,才懂阶层差距最扎心的是什么

砚底沉香
2026-03-27 00:34:35
中方未收道歉,日本自卫官被转移,沉默24小时后,小泉进次郎发文

中方未收道歉,日本自卫官被转移,沉默24小时后,小泉进次郎发文

策前论
2026-03-26 19:03:46
德转列世预赛附加赛球队身价排行:意大利8.39亿欧居首

德转列世预赛附加赛球队身价排行:意大利8.39亿欧居首

懂球帝
2026-03-26 15:59:41
马英九接受《联合报》专访,谈萧旭岑违规,称: 决不私了!

马英九接受《联合报》专访,谈萧旭岑违规,称: 决不私了!

混沌录
2026-03-25 16:22:07
欧股美股期货 全线下挫 布油涨超4% WTI涨超3%

欧股美股期货 全线下挫 布油涨超4% WTI涨超3%

每日经济新闻
2026-03-26 20:40:39
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
外媒:专家警告,中国海军在回收坠毁飞机方面难以与美国匹敌

外媒:专家警告,中国海军在回收坠毁飞机方面难以与美国匹敌

兴史兴谈
2026-03-25 05:15:46
伊朗正式回应“15点停火协议”

伊朗正式回应“15点停火协议”

澎湃新闻
2026-03-26 23:03:02
连续两个月从中国进口镓锗为零后,日本宣布无人机要做世界第一!

连续两个月从中国进口镓锗为零后,日本宣布无人机要做世界第一!

共工之锚
2026-03-27 00:28:43
现货黄金突破4540美元/盎司

现货黄金突破4540美元/盎司

证券时报
2026-03-26 09:22:05
2026-03-27 01:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
手机
游戏
公开课
军事航空

家居要闻

傍海而居 静观蝴蝶海

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版