开源即爆火！英伟达重磅推出OmniVinci全模态大模型|信号|引擎|显式|深度思考模型

开源即爆火！英伟达重磅推出OmniVinci全模态大模型

2025-11-06 15:54:29　来源: 机器之心Pro

北京举报

分享至

全模态智能，英伟达的下一步

你是否想过，未来的 AI 将会是什么样子？

是只会打字的 Chat Bot，只会看图的 VLM，还是只能分辨声音的 ALM？

都不是！真正的智能，应该像我们人类一样，能够同时看、听、说、写，既能看懂世界的五彩斑斓，也能听懂万物的声音。

在不久前结束的英伟达华盛顿 GTC 大会上，老黄再三强调 “研究人员需要开源。开发者依赖开源。全球的公司，包括我们都离不开开源模型。开源非常，非常，重要。” 在老黄的号召下，全模态理解模型迎来重量级新玩家 —— 英伟达（NVIDIA）开源了 OmniVinci, 一款能理解多模态世界的全模态大语言模型（Omni-Modal LLM）。该模型实现了视觉、音频、语言在同一潜空间（latent space）中的统一理解，让 AI 不仅能识别图像、听懂语音，还能推理、对话、生成内容。这个 9B 的视觉 - 语音理解全模态模型刚上线就爆火，一周时间 Huggingface 模型权重目前已经有超过10000次下载量！

论文标题：OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
项目地址：https://github.com/NVlabs/OmniVinci
论文地址：https://arxiv.org/abs/2510.15870
开源模型：https://huggingface.co/nvidia/omnivinci

秀翻全场！多模态理解性能全面超越

和相近尺寸的全模态模型竞品相比，OmniVinci 在多项常用多模态基准测试榜单中取得了显著优势，包括视频 - 音频跨模态理解任务（DailyOmni +19.05)，音频理解 (MMAR + 1.7)，和视频理解 (Video-MME +3.9)，展现出卓越的全模态理解能力。更重要的是，OmniVinci 少用了近 6 倍的数据量实现了超越，展现了其架构和数据引擎的卓越效率。

三大架构创新：让视觉与听觉在同一空间共鸣

OmniVinci 不仅具备炸裂的榜单性能，其论文中通过大量科学实验探索最优全模态模型架构的方法，而不是粗暴堆叠训练数据，这种做法显然更值得借鉴。想象一下，AI 看视频时，画面（视觉）和声音（音频）是两条独立的信息流。如果模型架构对此处理不好，AI 就会 “精神分裂”。而 OmniVinci 的目标就是让它们完美同步，通过三项核心创新设计来实现：

OmniAlignNet：跨模态语义对齐网络

这就像一个 “超级翻译器”，让模型在同一空间中 “看得见声音，听得懂画面”。它创建了一个共享空间，通过对比学习，让视觉信号和音频信号能在这里用同一种 “语言” 无障碍交流，实现跨模态深度对齐。

Temporal Embedding Grouping (TEG)：时间嵌入分组机制

将视觉帧与音频信号按时间戳重组，使模型能跨模态感知事件的相对先后关系。AI 终于能搞清楚，是 “先开枪再有枪声”，还是 “先有闪电再有雷声”。它通过按时间戳分组，让 AI 理解事件的先后顺序。

Constrained Rotary Time Embedding (CRTE)：受约束旋转时间嵌入

通过时间旋转编码，模型获得绝对时间感知能力。AI 不仅知道 “先” 和 “后”，还知道这件事发生在视频的第 5 秒，还是第 50 秒。

有了这三板斧，OmniVinci 才真正拥有了准确感知视觉，音频和时间流逝的能力。

数据引擎：24M 多模态对话的背后

模型强度离不开数据支撑。OmniVinci 团队构建了一个庞大的全模态数据引擎（Omni-Modal Data Engine），共涵盖2400 万条多模态对话样本，覆盖图像、视频、音频、语音四大领域。数据分布中，图像占 36%、音频与语音共占 38%、视频 11%、全模态数据 15%。其中包括两种创新的全模态学习方式：

隐式全模态学习（Implicit Learning）

直接利用现有视频自带音频的问答数据，让模型在 “看视频” 的同时 “听声音”。

显式全模态学习（Explicit Learning）

通过 AI 单独生成视觉和音频模态专属的描述，再由 LLM 进行交叉修正与融合，解决了单模态模型常见的 “幻觉”（如只看画面误判语义）。

实验：打造全模态模型的关键洞察

[关键洞察 1] 单一模态打标 = 不靠谱！告别 “模态幻觉”

团队发现，很多 AI 模型都有 “模态幻觉”：只看图（视觉）：AI 看到一个深海机器人，可能会 “脑补” 说这是人类高科技的胜利。只听声（音频）：AI 听到旁白说 “地球最深处”，可能会 “瞎猜” 说这是关于地心的纪录片。因此一个集成了两种模态的联合字幕方法对于全面理解至关重要。

[关键洞察 2] 1 + 1 > 2！当听觉 “点亮” 视觉

加上音频，模型真的变强了吗？答案是肯定的！团队发现，声音为视觉提供了全新的信息维度，音视频联合学习能显著提高视频的理解能力。只用视觉 (Visual Alone) 视觉 + 音频 (隐式学习 IL) 视觉 + 音频 + 全模态数据引擎 (显式学习 EL) 结果显示 (见下表)，每增加一步，性能都在飙升！特别是加入了数据引擎的 “显式学习” 后，模型性能在多个基准上都实现了巨大飞跃。

[关键洞察 3] 王牌对王牌：当 OmniVinci 遇上 “强化学习”

基础模型已经这么强了，还能再进化吗？能！通过强化学习 (RL)！

音频，让强化学习 “如虎添翼”！团队在使用 GRPO 强化学习框架时发现了一个 “隐藏 Buff”：只给 AI 看视频（视觉）去训练，远不如 “边看边听”（视听结合）的效果好！如图所示，加入音频后，模型的收敛速度更快。

强强对决，OmniVinci 更胜一筹！在这个多模态 RL 框架下，OmniVinci 和 Qwen2.5-Omni 都能获益。但是，OmniVinci 凭借更强的基础性能和指令跟随能力，在 15 步内就超越了 Qwen2.5-Omni 的准确率，并且格式奖励收敛速度快了 2.7 倍！最终，经过 RL 训练的 OmniVinci+RL，在所有全模态基准上再次实现全面提升！

不止是 SOTA，是全能 Agent

跑分只是基础，真正的全模态 AI，必须能在真实世界 “大显身手”。

OmniVinci 做到了。研究团队用它测试了 N 个真实场景，效果非常好：

场景一：联合视听感知

你给它一段播客视频，它不仅能看懂主持人和嘉宾的外形，更能 “听懂” 他们讨论的复杂话题。

场景二：语音转录 + 翻译

你对它说话，它能瞬间转录成文字。

场景三：全语音交互

你用语音问：“这个演讲者的公司使命是啥？”

它立刻用语音答：“他的公司使命是在火星上建立一个自我维持的文明。”

场景四：指挥机器人，直接 “张嘴说”！

OmniVinci 能直接听懂你的语音指令（比如 “进入卧室，在床脚站住” ），然后规划下一步行动。这才是真正实用的人机交互！

场景五：AI 看懂 “专家会诊”！

医生一边滚动查看 CT 影像，一边用嘴说出诊断（“这里我们看到一些肺大疱和相关的纤维化改变...” ）。OmniVinci 能同时 “看” CT 影像的动态变化，并 “听” 懂医生的专业解说，准确回答 “肺部纹理随时间如何变化？” 这类高难度问题，在医疗 AI 上大展身手！

场景六：AI “全能解说” 体育比赛！

看网球比赛，AI 不再是 “睁眼瞎”。OmniVinci 能同步理解激烈的视觉动作（谁在发球、谁赢了这一分）和解说员的评论。在预测得分结果和回合长度上，它完胜 Qwen2.5-Omni。更重要的是，量化后在消费级显卡 GeForce RTX 4090 上它延迟极低，完全可以用于电视直播！

这不就是贾维斯吗？

OmniVinci 的出现，可能不仅仅是一个新 SOTA 9B 全模态模型的诞生，它更代表了一种全新的 AI 范式。

未来，AI 不再是割裂的 “视觉模型” 或 “音频模型”，而是统一的 “全模态感知系统”。

更低的训练成本，意味着更快的迭代和更广泛的应用。从能听懂指令的机器人，到能理解医生口述和 CT 影像的医疗 AI，再到监控异常声音和画面的智能工厂，一个更智能的未来，正在加速到来。

英伟达这次，又交出了一份惊艳的答卷。

对于 OmniVinci，你怎么看？你最期待它被用在什么地方？欢迎在评论区留下你的 “神预言”！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.