清华打破多模态音频生成通才困境：Omni2Sound 音频基础模型开源|鲁棒性|omni|sound

分享至

近年来，音频生成技术发展迅猛。随着应用场景的复杂化，业界呈现出一个显著趋势：音频生成模型正从单一条件控制走向多模态协同控制。研究者期望在一个统一的模型架构中，同时支持文本生成音频（T2A）、视频生成音频（V2A）以及视频-文本联合生成音频（VT2A）。

相比为每个任务独立部署专用模型的传统做法，统一模型能大幅降低架构冗余与部署成本，为用户提供更为灵活的音频生成方式。然而，随着研究的深入，业界发现了一个极具挑战的「通才困境」——旨在处理多任务的统一模型，在各项子任务上的性能表现，往往不及专门针对单一任务优化的专家模型。

由清华大学与 Monash University 联合提出的 Omni2Sound，正是对这一痛点的系统性破局。该工作明确指出，通用音频生成绝非多模态的简单融合，而是极具难度的动态路由与博弈过程。为了真正跨越这一鸿沟，Omni2Sound 溯本清源，直接从最底层的数据语义错位与多任务竞争难题入手进行攻克。

同时，该工作秉持 Less is More 的设计哲学，拒绝堆砌复杂的定制化网络，仅凭一个朴素的、开箱即用的 Diffusion Transformer 骨干网络，便成功赋予了模型跨模态的逻辑推理与动态感知能力。

凭借这些底层的范式创新，Omni2Sound 成功打破了统一模型的「通才困境」，在三大基础音频生成任务上均取得了优于现有专家模型的表现。更重要的是，在极具挑战的画外音场景及输入文本不完整等苛刻条件下，模型展现出了强大的鲁棒性与零样本泛化能力。

目前，该工作已被CVPR 2026接收，并被评委会推荐为Highlight工作。本文涉及的技术报告、模型权重、评测基准等均已开源，旨在为后续的多模态音频生成与通用架构研究，提供一个坚实、开源的核心基线。

论文标题：Omni2Sound: Towards Unified Video-Text-to-Audio Generation
论文地址：https://arxiv.org/pdf/2601.02731
项目主页：https://omni2sound.github.io
代码仓库：https://github.com/omni2sound/Omni2Sound
模型权重：https://huggingface.co/collections/Dalision/omni2sound

Omni2Sound 在 OOD、VT2A、V2A、T2A、Off-screen Generation 上的生成效果

视频链接：https://mp.weixin.qq.com/s/j4kBbh_JIus-nXwweZ7GRA

统一音频生成模型为何会陷入「通才困境」？

业界曾乐观地预估，既然现有的专家模型已能分别胜任单一模态的生成，例如文本生音频和视频生音频，那么将它们整合，训练出一个通用的视文联合音频生成模型，理应是水到渠成之事。但事实并非如此。多模态条件下的音频生成，绝非视觉与文本特征的简单线性叠加，而是一个极具挑战的多模态动态协同与博弈过程。这一困境的根源，在于业界普遍低估了多模态音频生成的内生难度。

难点一：跨模态信息的严重不对称与动态路由困境

在真实的视听世界中，视觉显著性与声学能量往往是不成比例的。举个极其典型的场景：「一个正在安静自习的学生，耳边突然飞过一只蚊子」。在这个场景中，蚊子在视觉画面上哪怕只占极小的一个像素点，但在音频空间里，高频的嗡嗡声却占据了绝对的能量主导。如果是纯粹的视频生音频模型，由于视觉特征过于微弱，大概率只会生成翻书的摩擦声或环境白噪音；此时，必须引入文本指令作为核心引导。这就要求通用模型必须具备极强的动态路由能力——它需要自主领悟出，在这个特定的瞬间，文本决定了生成什么音色，而视频仅仅用来对齐什么时候发声。

难点二：模态间的极端语义冲突与画外音推理

在更复杂的开放场景中，输入的文本和视频甚至可能在语义上南辕北辙，或遭遇模态缺失。例如，画面是一个人正平静地喝着咖啡，但输入的文本指令却是：「窗外突然传来巨大的爆炸声」。此时，视觉和文本构成了极其严重的内部冲突。如果通用模型机械地将视觉和文本的特征强行融合，生成的音频必然会陷入混乱崩溃。要完美处理这一场景，模型必须具备类似人类的逻辑推理能力，敏锐意识到这是一个画外音场景，从而果断切断对无用视觉特征的依赖，将生成重心完全偏移到文本指令上。同理，当面临某一模态完全缺失时，系统也必须能丝滑退化，稳健地完成单一的文本或视频生音频任务。

「通才困境」的爆发：

底层数据与训练机制的坍塌

正因为通用 VT2A 生成任务本身要求模型在极其复杂的模态输入中，时刻寻找动态的最优解（既要兼顾，又要懂得在矛盾时偏移重心），如果我们只是简单粗暴地把所有数据揉在一起联合训练，模型必然会陷入崩溃。具体而言，这种复杂的建模需求在现有体系下，直接引爆了两个灾难性的基础问题：

第一，数据基座的坍塌：多模态数据的「语义错位与冲突」。要让模型学会复杂的动态路由，前提是必须拥有精准对齐的高质量 V-A-T 数据。现有多模态数据中存在显著的「模态语义冲突」，这主要由两方面叠加导致：一方面，音频信息天然具有多义性，许多在视觉和语义上截然不同的事件，其声学特征却高度重合（例如，「煎肉时的滋滋油烟声」与「倾盆大雨的白噪音」极易混淆，「篝火燃烧的噼啪声」与「揉搓塑料袋 / 踩碎干树叶的声音」在频谱上极其相似）；另一方面，早期音频 - 语言模型自身的幻觉率较高，容易遗漏关键事件或产生错误描述。在这两层因素作用下，现有主流数据集仅靠音频自动生成的文本标签，经常与视频画面发生严重错位。当模型长期在相互矛盾的监督信号下训练时，其多模态对齐能力自然会受到限制。

音频多义性导致的语义冲突。打网球声常被错误标注为远处的烟花声，与视觉语义矛盾

原生多模态大模型的视觉偏置。画面里两个人物会让模型幻觉出男女对话，即便音频中只有女声

第二，联合训练中固有的「任务竞争」。当把多个子任务置于同一框架下优化时，模型内部会发生显著的资源竞争与内耗：

跨任务竞争（Cross-task Competition）：文本生音频（T2A）和视频生音频（V2A）在联合优化时常面临相互牵制的局面，提升一方往往以牺牲另一方为代价。
模态偏置（Intra-task Modality Bias）：在处理图文联合生成（VT2A）时，模型极易产生依赖单一模态的偏置现象。若模型过度依赖文本，生成的音频往往与画面动作脱节，丧失时空同步性；若过度依赖视觉信息，在遇到画外音（画面中无可视发声源，需依赖文本提示）场景时，模型便会忽略文本指令，产生显著的生成幻觉。

Omni2Sound 的破局思路

面对上述挑战，Omni2Sound 的核心思路在于：不过度依赖复杂的网络结构设计，而是通过「高质量数据与渐进式训练」的底层方案来打破通才困境。围绕这一目标，研究团队没有对模型架构进行复杂的定制化修改（全篇仅采用标准的 Vanilla DiT 骨干），而是从数据源头、多任务调度以及客观评测三个维度，进行了一整套协同设计。

1. 破局数据稀缺：构建高质量 V-T-A 音频标注数据集 SoundAtlas

要解决语义冲突，首先需要构建高质量的对齐数据。回顾目前的自动化数据标注方案，早期主要依赖纯音频生成文本，但受限于音频模态的歧义性，这类方法幻觉率较高、准确度不足，难以满足统一模型对跨模态对齐的要求。近期的研究趋势是，直接将原视频画面与音频输入给原生多模态大模型（如 Gemini），借助其强大能力生成字幕。

然而，研究团队在实践中发现，直接输入原视频面临两大瓶颈：一是高昂的计算成本，密集的视频帧会带来极大的 Token 消耗，难以支持百万级数据的规模化构建；二是大模型存在明显的视觉偏置（Visual Bias）。例如，画面里出现静止的乐器或挥棒的指挥（实际并未发声），大模型也极易错误推断出对应的音乐；反之，对画面中看不见的真实音源（画外音），模型又容易直接忽略。

为在控制成本的同时克服视觉幻觉，团队设计了一套高效的多轮智能体流水线（Agentic Pipeline），并以此构建了包含 47 万对高质量 V-A-T 联合对齐的数据集SoundAtlas

视觉到语言压缩（Vision-to-Language Compression）：团队放弃直接输入原视频，转而利用视觉模型（如 Qwen-2.5-VL）先将视频画面「压缩」为一段精简的文本描述。这一设计的核心优势在于，它不仅大幅削减了视频 Token 成本，还将强烈的视觉刺激降维成辅助上下文，从而有效约束了大模型过度依赖画面产生的幻觉倾向。

SoundAtlas 智能体标注流水线

初高级智能体接力（Junior-Senior Agent Handoff）：在获取压缩文本与音频后，系统首先调用高性价比的轻量级模型（Junior Agent）生成基础字幕；仅当检测到复杂场景或高频幻觉词汇时，才会将任务路由给推理能力更强的模型（Senior Agent）进行复核。

通过这套协同流水线，SoundAtlas 在将数据生成成本降低约 5 倍的同时，产出了高保真度的多模态对齐样本。主客观评测均显示，其文本-音频的对齐质量甚至优于开源社区中的人类专家标注水平。

2. 化解任务竞争：三阶段渐进式多任务训练

在构建高质量数据之后，若直接对 T2A、V2A 和 VT2A 进行常规的联合训练，模型性能并不能达到最优。实验表明，直接联合训练会引发显著的任务内耗：一方面，V2A 与 T2A 任务间存在明显的性能权衡（Trade-off）；另一方面，模型在联合生成时容易产生模态偏置。

为系统性化解上述问题，Omni2Sound 团队从优化动力学的角度出发，设计了三阶段渐进式训练策略（Three-stage Progressive Training）：

Omni2Sound 三阶段渐进式训练框架

Stage 1：大规模 T2A 预训练。在引入异构的视频条件之前，模型首先利用海量文本-音频数据进行独立的 T2A 训练，为模型建立稳健的音频生成先验。同时，拥有这一基础底座后，在后续多任务阶段仅需保持极低频率的 T2A 数据采样，即可有效防止「灾难性遗忘」，将更多计算资源分配给视频相关任务。
Stage 2：多任务交织训练。该阶段旨在解决 V2A 与 T2A 的跨任务竞争。团队采用按任务采样的交织训练策略（Task-Balanced Sampling），避免不同任务在同一批次内发生梯度冲突。更重要的是，研究发现高质量的 VT2A 数据在联合训练中起到了关键的「语义桥梁」作用。由于 VT2A 强迫模型同时对齐文本、视频与音频，它有效拉平了视觉特征与语言特征的异构空间，将原本相互竞争的跨任务目标转化为了底层特征的协同优化。
Stage 3：解耦的鲁棒性训练。尽管第二阶段缓解了跨任务竞争，但模型在处理具体输入时仍存在对单一模态的依赖倾向。研究发现，若在第二阶段直接引入数据增强，会破坏联合优化的稳定性，因此团队将其解耦至第三阶段独立进行。该阶段采用两种互补策略：一是文本 Dropout，通过随机遮蔽文本提示，迫使模型更多地依赖视觉流，显著增强音视频的时空同步性；二是画外音合成（Off-screen Synthesis），通过引入无可视发声源的合成数据，强制模型在缺乏视觉线索时提升对文本指令的依赖，从而有效缓解画外音场景下的幻觉问题。

3. 填补评测空白：构建 VGGSound-Omni 全景基准

由于缺乏包含高质量文本描述的多任务基准，统一音频生成模型长期难以得到全面的评估。现有的评估基准（如原始的 VGGSound）通常仅提供稀疏的事件标签，无法客观验证模型对复杂指令的细粒度理解。

为解决这一问题，研究团队基于前期打磨的智能体流水线，并结合严谨的人工校验，构建了多轨道的全景式基准测试VGGSound-Omni，为 T2A、V2A 和 VT2A 任务提供了统一的度量标准。

尤为值得注意的是，针对现有模型在缺乏可视发声源时普遍表现不佳的问题，该基准引入了具有挑战性的画外音（Off-screen）专属评测赛道。该赛道不仅严格筛选了天然音画相关性较低的真实视频（如纯环境音），还专门构建了背景音乐（BGM）合成子集。这一赛道的设立，为评估模型在非理想视觉条件下的文本忠实度与抗幻觉能力，提供了可靠的客观依据。

核心实验表现

在未添加任何额外架构设计的前提下，Omni2Sound 展现出了优异的性能。在严苛的 VGGSound-Omni 基准测试中，它不仅在音频质量、时空同步性等客观指标上处于领先地位，在人类主观盲测中同样获得了最高评价。

VGGSound-Omni 基准上三任务客观指标对比：Omni2Sound 在分布匹配（KL/FD/FAD）、音频质量（PQ/IS）、模态对齐（DS/IB/MS-CLAP）三大维度全面领先

最终，Omni2Sound 在 T2A、V2A、VT2A 三大任务上一致优于现有的专业模型与统一模型，取得了全新的 SOTA 性能。此外，在 Kling-Audio-Eval 等第三方独立测试集上，Omni2Sound 依然展现出了良好的泛化鲁棒性。

第三方基准 Kling-Audio-Eval 上的泛化测试：Omni2Sound 在不同视频与字幕风格下依然取得最优表现

总结

从 Omni2Sound 这项工作可以看出，阻碍多模态音频生成走向统一的核心瓶颈，或许并非网络架构不够复杂，而是底层模态对齐的缺失与多任务训练方式的粗放。Omni2Sound 的核心价值在于，它证明了「大道至简（Data & Strategy is all you need）」的有效性。通过高质量的基石数据搭桥，配合科学的渐进式任务调度，一个朴素的标准 DiT 模型完全可以打破「通才困境」，成为性能卓越的统一架构。这不仅为统一音视频生成树立了新的标杆，也为未来更广泛的多模态融合大模型提供了一条清晰且优雅的探索路径。

作者介绍

代宇盛，澳大利亚 Monash University 博士生，导师为 Jianfei Cai 教授，主要研究方向为音视频生成模型，交互式世界模型。在多模态和语音领域的重要会议上持续发表相关研究工作。

陈泽华，清华大学计算机系水木学者博士后、助理研究员，博士毕业于英国帝国理工学院电气与电子工程系，主要研究方向为概率生成模型，及其在音频、视觉、健康监测等方面的应用。在机器学习和内容生成方向持续在重要会议与期刊上发表相关研究工作。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.