网易首页 > 网易号 > 正文 申请入驻

开源即爆火!英伟达重磅推出OmniVinci全模态大模型

0
分享至



全模态智能,英伟达的下一步

你是否想过,未来的 AI 将会是什么样子?

是只会打字的 Chat Bot,只会看图的 VLM,还是只能分辨声音的 ALM?

都不是! 真正的智能,应该像我们人类一样,能够同时看、听、说、写,既能看懂世界的五彩斑斓,也能听懂万物的声音。



在不久前结束的英伟达华盛顿 GTC 大会上,老黄再三强调 “研究人员需要开源。开发者依赖开源。全球的公司,包括我们都离不开开源模型。开源非常,非常,重要。” 在老黄的号召下,全模态理解模型迎来重量级新玩家 —— 英伟达(NVIDIA)开源了 OmniVinci, 一款能理解多模态世界的全模态大语言模型(Omni-Modal LLM)。该模型实现了视觉、音频、语言在同一潜空间(latent space)中的统一理解, 让 AI 不仅能识别图像、听懂语音,还能推理、对话、生成内容。这个 9B 的视觉 - 语音理解全模态模型刚上线就爆火,一周时间 Huggingface 模型权重目前已经有超过10000次下载量!



  • 论文标题:OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
  • 项目地址:https://github.com/NVlabs/OmniVinci
  • 论文地址:https://arxiv.org/abs/2510.15870
  • 开源模型:https://huggingface.co/nvidia/omnivinci

秀翻全场!多模态理解性能全面超越



和相近尺寸的全模态模型竞品相比,OmniVinci 在多项常用多模态基准测试榜单中取得了显著优势,包括视频 - 音频跨模态理解任务(DailyOmni +19.05),音频理解 (MMAR + 1.7),和视频理解 (Video-MME +3.9),展现出卓越的全模态理解能力。更重要的是,OmniVinci 少用了近 6 倍的数据量实现了超越,展现了其架构和数据引擎的卓越效率。

三大架构创新:让视觉与听觉在同一空间共鸣





OmniVinci 不仅具备炸裂的榜单性能,其论文中通过大量科学实验探索最优全模态模型架构的方法,而不是粗暴堆叠训练数据,这种做法显然更值得借鉴。想象一下,AI 看视频时,画面(视觉)和声音(音频)是两条独立的信息流。如果模型架构对此处理不好,AI 就会 “精神分裂”。而 OmniVinci 的目标就是让它们完美同步,通过三项核心创新设计来实现:

OmniAlignNet:跨模态语义对齐网络

这就像一个 “超级翻译器”,让模型在同一空间中 “看得见声音,听得懂画面”。它创建了一个共享空间,通过对比学习 ,让视觉信号和音频信号能在这里用同一种 “语言” 无障碍交流,实现跨模态深度对齐。



Temporal Embedding Grouping (TEG):时间嵌入分组机制

将视觉帧与音频信号按时间戳重组,使模型能跨模态感知事件的相对先后关系。AI 终于能搞清楚,是 “先开枪再有枪声”,还是 “先有闪电再有雷声”。它通过按时间戳分组,让 AI 理解事件的先后顺序 。



Constrained Rotary Time Embedding (CRTE):受约束旋转时间嵌入

通过时间旋转编码,模型获得绝对时间感知能力。AI 不仅知道 “先” 和 “后”,还知道这件事发生在视频的第 5 秒,还是第 50 秒。



有了这三板斧,OmniVinci 才真正拥有了准确感知视觉,音频和时间流逝的能力。

数据引擎:24M 多模态对话的背后





模型强度离不开数据支撑。OmniVinci 团队构建了一个庞大的全模态数据引擎(Omni-Modal Data Engine),共涵盖2400 万条多模态对话样本,覆盖图像、视频、音频、语音四大领域。数据分布中,图像占 36%、音频与语音共占 38%、视频 11%、全模态数据 15%。其中包括两种创新的全模态学习方式:

  • 隐式全模态学习(Implicit Learning)

直接利用现有视频自带音频的问答数据,让模型在 “看视频” 的同时 “听声音”。

  • 显式全模态学习(Explicit Learning)

通过 AI 单独生成视觉和音频模态专属的描述,再由 LLM 进行交叉修正与融合,解决了单模态模型常见的 “幻觉”(如只看画面误判语义)。

实验:打造全模态模型的关键洞察


[关键洞察 1] 单一模态打标 = 不靠谱!告别 “模态幻觉”

团队发现,很多 AI 模型都有 “模态幻觉”: 只看图(视觉):AI 看到一个深海机器人,可能会 “脑补” 说这是人类高科技的胜利 。只听声(音频):AI 听到旁白说 “地球最深处”,可能会 “瞎猜” 说这是关于地心的纪录片 。因此一个集成了两种模态的联合字幕方法对于全面理解至关重要。



[关键洞察 2] 1 + 1 > 2!当听觉 “点亮” 视觉

加上音频,模型真的变强了吗?答案是肯定的! 团队发现,声音为视觉提供了全新的信息维度,音视频联合学习能显著提高视频的理解能力 。只用视觉 (Visual Alone) 视觉 + 音频 (隐式学习 IL) 视觉 + 音频 + 全模态数据引擎 (显式学习 EL) 结果显示 (见下表),每增加一步,性能都在飙升!特别是加入了数据引擎的 “显式学习” 后,模型性能在多个基准上都实现了巨大飞跃。



[关键洞察 3] 王牌对王牌:当 OmniVinci 遇上 “强化学习”

基础模型已经这么强了,还能再进化吗? 能!通过强化学习 (RL)!

音频,让强化学习 “如虎添翼”! 团队在使用 GRPO 强化学习框架时发现了一个 “隐藏 Buff”: 只给 AI 看视频(视觉)去训练,远不如 “边看边听”(视听结合)的效果好! 如图所示,加入音频后,模型的收敛速度更快。



强强对决,OmniVinci 更胜一筹! 在这个多模态 RL 框架下,OmniVinci 和 Qwen2.5-Omni 都能获益 。但是,OmniVinci 凭借更强的基础性能和指令跟随能力,在 15 步内就超越了 Qwen2.5-Omni 的准确率,并且格式奖励收敛速度快了 2.7 倍 ! 最终,经过 RL 训练的 OmniVinci+RL,在所有全模态基准上再次实现全面提升!





不止是 SOTA,是全能 Agent

跑分只是基础,真正的全模态 AI,必须能在真实世界 “大显身手”。

OmniVinci 做到了。研究团队用它测试了 N 个真实场景,效果非常好 :

场景一:联合视听感知

你给它一段播客视频,它不仅能看懂主持人和嘉宾的外形,更能 “听懂” 他们讨论的复杂话题。



场景二:语音转录 + 翻译

你对它说话,它能瞬间转录成文字。



场景三:全语音交互

你用语音问:“这个演讲者的公司使命是啥?”

它立刻用语音答:“他的公司使命是在火星上建立一个自我维持的文明。”



场景四:指挥机器人,直接 “张嘴说”!

OmniVinci 能直接听懂你的语音指令(比如 “进入卧室,在床脚站住” ),然后规划下一步行动。这才是真正实用的人机交互!



场景五:AI 看懂 “专家会诊”!

医生一边滚动查看 CT 影像,一边用嘴说出诊断(“这里我们看到一些肺大疱和相关的纤维化改变...” ) 。OmniVinci 能同时 “看” CT 影像的动态变化 ,并 “听” 懂医生的专业解说 ,准确回答 “肺部纹理随时间如何变化?” 这类高难度问题,在医疗 AI 上大展身手 !



场景六:AI “全能解说” 体育比赛!

看网球比赛,AI 不再是 “睁眼瞎”。OmniVinci 能同步理解激烈的视觉动作(谁在发球、谁赢了这一分)和解说员的评论。在预测得分结果和回合长度上,它完胜 Qwen2.5-Omni。更重要的是,量化后在消费级显卡 GeForce RTX 4090 上它延迟极低,完全可以用于电视直播!





这不就是贾维斯吗?

OmniVinci 的出现,可能不仅仅是一个新 SOTA 9B 全模态模型的诞生,它更代表了一种全新的 AI 范式。

未来,AI 不再是割裂的 “视觉模型” 或 “音频模型”,而是统一的 “全模态感知系统”。

更低的训练成本,意味着更快的迭代和更广泛的应用。从能听懂指令的机器人,到能理解医生口述和 CT 影像的医疗 AI,再到监控异常声音和画面的智能工厂,一个更智能的未来,正在加速到来。

英伟达这次,又交出了一份惊艳的答卷。

对于 OmniVinci,你怎么看?你最期待它被用在什么地方?欢迎在评论区留下你的 “神预言”!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
距中国仅一条黑龙江之隔,美媒:15架SU-57战斗机在远东露天停放

距中国仅一条黑龙江之隔,美媒:15架SU-57战斗机在远东露天停放

啸鹰评
2026-02-18 21:14:47
生姜立大功?美国研究发现:生姜可在48小时内清除50%老化细胞?

生姜立大功?美国研究发现:生姜可在48小时内清除50%老化细胞?

39健康网
2026-02-11 09:11:33
2026年春晚刚结束骂声一片,为何有人却说这台晚会其实太难了?

2026年春晚刚结束骂声一片,为何有人却说这台晚会其实太难了?

东方不败然多多
2026-02-18 19:48:36
德怀恩·韦德提出了一个想法,旨在提升未来全明星赛的关注度

德怀恩·韦德提出了一个想法,旨在提升未来全明星赛的关注度

好火子
2026-02-19 01:45:24
揪心!谷爱凌脑出血休克,癫痫发作濒死边缘,母亲泪崩曝细节

揪心!谷爱凌脑出血休克,癫痫发作濒死边缘,母亲泪崩曝细节

古事寻踪记
2026-02-06 07:13:45
心历:一种内在的翻篇艺术

心历:一种内在的翻篇艺术

疾跑的小蜗牛
2026-02-18 22:25:29
一个非常不好的消息:中国超2亿独生子女面临的非常严峻问题。

一个非常不好的消息:中国超2亿独生子女面临的非常严峻问题。

百态人间
2026-02-05 15:39:14
玉足踩沙,海风撩发,等着邂逅一场浪漫

玉足踩沙,海风撩发,等着邂逅一场浪漫

艾斯莱斯奈斯
2026-02-19 00:30:34
AI破解乌鸦语言后确认:这就是地球上的另一波文明

AI破解乌鸦语言后确认:这就是地球上的另一波文明

自说自话的总裁
2026-02-13 17:24:54
离了!郑钧清空刘芸动态,儿子抚养权引争议,离婚或与张云龙有关

离了!郑钧清空刘芸动态,儿子抚养权引争议,离婚或与张云龙有关

八卦王者
2026-02-17 13:10:52
中央明确!退休新规实施,公务员和事业编制,不能延迟退休吗?

中央明确!退休新规实施,公务员和事业编制,不能延迟退休吗?

另子维爱读史
2026-02-18 21:33:06
2nm,真狂啊

2nm,真狂啊

放毒
2026-02-18 14:40:43
离婚女子返乡过年遭娘家驱赶,流落街头痛哭,网友:一点不可怜!

离婚女子返乡过年遭娘家驱赶,流落街头痛哭,网友:一点不可怜!

一盅情怀
2026-02-18 18:47:25
宋小宝小品“翻车”!上台自言自语 搭档以为没开始罢工,观众笑翻

宋小宝小品“翻车”!上台自言自语 搭档以为没开始罢工,观众笑翻

动物奇奇怪怪
2026-02-19 02:59:25
兰州一公园转马报废12年仍留原址,公园方回应:承载市民童年记忆没拆

兰州一公园转马报废12年仍留原址,公园方回应:承载市民童年记忆没拆

上游新闻
2026-02-18 14:16:10
丁勇岱除夕陪妈过年,89岁母亲一人住北京,母子睡客厅1.3米小床

丁勇岱除夕陪妈过年,89岁母亲一人住北京,母子睡客厅1.3米小床

离离言几许
2026-02-18 14:41:18
俄罗斯突然亮出这张牌:愿意“接收伊朗浓缩铀”

俄罗斯突然亮出这张牌:愿意“接收伊朗浓缩铀”

桂系007
2026-02-18 23:51:36
我就说像王菲怎么会喜欢上窦唯呢?看了这张照片我才明白

我就说像王菲怎么会喜欢上窦唯呢?看了这张照片我才明白

可乐谈情感
2026-02-18 23:28:50
不让民族英雄寒心! 乌克兰亿万富翁宣布奖励赫拉斯克维奇20万美元

不让民族英雄寒心! 乌克兰亿万富翁宣布奖励赫拉斯克维奇20万美元

劲爆体坛
2026-02-18 10:42:29
内蒙古一200斤男子欠5000万不还,被债主装进铁笼沉入80米水库,谁料,2年后才被捞出...

内蒙古一200斤男子欠5000万不还,被债主装进铁笼沉入80米水库,谁料,2年后才被捞出...

品读时刻
2026-02-11 17:18:30
2026-02-19 03:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12318文章数 142568关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

以色列提升全国警戒级别 加紧军事准备

头条要闻

以色列提升全国警戒级别 加紧军事准备

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

手机
本地
游戏
时尚
亲子

手机要闻

三星预热S26系列全新相机功能,AI修复画面、切换昼夜场景

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

PS王牌引擎太强大!成为《死亡搁浅2》唯一选择

马年壁纸送上,祝大家新年快乐,马上发财!

亲子要闻

一群小可爱,一群好家长,用最甜的声音,唱最暖的歌声,有缘相聚

无障碍浏览 进入关怀版