网易首页 > 网易号 > 正文 申请入驻

开源即爆火!英伟达重磅推出OmniVinci全模态大模型

0
分享至



全模态智能,英伟达的下一步

你是否想过,未来的 AI 将会是什么样子?

是只会打字的 Chat Bot,只会看图的 VLM,还是只能分辨声音的 ALM?

都不是! 真正的智能,应该像我们人类一样,能够同时看、听、说、写,既能看懂世界的五彩斑斓,也能听懂万物的声音。



在不久前结束的英伟达华盛顿 GTC 大会上,老黄再三强调 “研究人员需要开源。开发者依赖开源。全球的公司,包括我们都离不开开源模型。开源非常,非常,重要。” 在老黄的号召下,全模态理解模型迎来重量级新玩家 —— 英伟达(NVIDIA)开源了 OmniVinci, 一款能理解多模态世界的全模态大语言模型(Omni-Modal LLM)。该模型实现了视觉、音频、语言在同一潜空间(latent space)中的统一理解, 让 AI 不仅能识别图像、听懂语音,还能推理、对话、生成内容。这个 9B 的视觉 - 语音理解全模态模型刚上线就爆火,一周时间 Huggingface 模型权重目前已经有超过10000次下载量!



  • 论文标题:OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
  • 项目地址:https://github.com/NVlabs/OmniVinci
  • 论文地址:https://arxiv.org/abs/2510.15870
  • 开源模型:https://huggingface.co/nvidia/omnivinci

秀翻全场!多模态理解性能全面超越



和相近尺寸的全模态模型竞品相比,OmniVinci 在多项常用多模态基准测试榜单中取得了显著优势,包括视频 - 音频跨模态理解任务(DailyOmni +19.05),音频理解 (MMAR + 1.7),和视频理解 (Video-MME +3.9),展现出卓越的全模态理解能力。更重要的是,OmniVinci 少用了近 6 倍的数据量实现了超越,展现了其架构和数据引擎的卓越效率。

三大架构创新:让视觉与听觉在同一空间共鸣





OmniVinci 不仅具备炸裂的榜单性能,其论文中通过大量科学实验探索最优全模态模型架构的方法,而不是粗暴堆叠训练数据,这种做法显然更值得借鉴。想象一下,AI 看视频时,画面(视觉)和声音(音频)是两条独立的信息流。如果模型架构对此处理不好,AI 就会 “精神分裂”。而 OmniVinci 的目标就是让它们完美同步,通过三项核心创新设计来实现:

OmniAlignNet:跨模态语义对齐网络

这就像一个 “超级翻译器”,让模型在同一空间中 “看得见声音,听得懂画面”。它创建了一个共享空间,通过对比学习 ,让视觉信号和音频信号能在这里用同一种 “语言” 无障碍交流,实现跨模态深度对齐。



Temporal Embedding Grouping (TEG):时间嵌入分组机制

将视觉帧与音频信号按时间戳重组,使模型能跨模态感知事件的相对先后关系。AI 终于能搞清楚,是 “先开枪再有枪声”,还是 “先有闪电再有雷声”。它通过按时间戳分组,让 AI 理解事件的先后顺序 。



Constrained Rotary Time Embedding (CRTE):受约束旋转时间嵌入

通过时间旋转编码,模型获得绝对时间感知能力。AI 不仅知道 “先” 和 “后”,还知道这件事发生在视频的第 5 秒,还是第 50 秒。



有了这三板斧,OmniVinci 才真正拥有了准确感知视觉,音频和时间流逝的能力。

数据引擎:24M 多模态对话的背后





模型强度离不开数据支撑。OmniVinci 团队构建了一个庞大的全模态数据引擎(Omni-Modal Data Engine),共涵盖2400 万条多模态对话样本,覆盖图像、视频、音频、语音四大领域。数据分布中,图像占 36%、音频与语音共占 38%、视频 11%、全模态数据 15%。其中包括两种创新的全模态学习方式:

  • 隐式全模态学习(Implicit Learning)

直接利用现有视频自带音频的问答数据,让模型在 “看视频” 的同时 “听声音”。

  • 显式全模态学习(Explicit Learning)

通过 AI 单独生成视觉和音频模态专属的描述,再由 LLM 进行交叉修正与融合,解决了单模态模型常见的 “幻觉”(如只看画面误判语义)。

实验:打造全模态模型的关键洞察


[关键洞察 1] 单一模态打标 = 不靠谱!告别 “模态幻觉”

团队发现,很多 AI 模型都有 “模态幻觉”: 只看图(视觉):AI 看到一个深海机器人,可能会 “脑补” 说这是人类高科技的胜利 。只听声(音频):AI 听到旁白说 “地球最深处”,可能会 “瞎猜” 说这是关于地心的纪录片 。因此一个集成了两种模态的联合字幕方法对于全面理解至关重要。



[关键洞察 2] 1 + 1 > 2!当听觉 “点亮” 视觉

加上音频,模型真的变强了吗?答案是肯定的! 团队发现,声音为视觉提供了全新的信息维度,音视频联合学习能显著提高视频的理解能力 。只用视觉 (Visual Alone) 视觉 + 音频 (隐式学习 IL) 视觉 + 音频 + 全模态数据引擎 (显式学习 EL) 结果显示 (见下表),每增加一步,性能都在飙升!特别是加入了数据引擎的 “显式学习” 后,模型性能在多个基准上都实现了巨大飞跃。



[关键洞察 3] 王牌对王牌:当 OmniVinci 遇上 “强化学习”

基础模型已经这么强了,还能再进化吗? 能!通过强化学习 (RL)!

音频,让强化学习 “如虎添翼”! 团队在使用 GRPO 强化学习框架时发现了一个 “隐藏 Buff”: 只给 AI 看视频(视觉)去训练,远不如 “边看边听”(视听结合)的效果好! 如图所示,加入音频后,模型的收敛速度更快。



强强对决,OmniVinci 更胜一筹! 在这个多模态 RL 框架下,OmniVinci 和 Qwen2.5-Omni 都能获益 。但是,OmniVinci 凭借更强的基础性能和指令跟随能力,在 15 步内就超越了 Qwen2.5-Omni 的准确率,并且格式奖励收敛速度快了 2.7 倍 ! 最终,经过 RL 训练的 OmniVinci+RL,在所有全模态基准上再次实现全面提升!





不止是 SOTA,是全能 Agent

跑分只是基础,真正的全模态 AI,必须能在真实世界 “大显身手”。

OmniVinci 做到了。研究团队用它测试了 N 个真实场景,效果非常好 :

场景一:联合视听感知

你给它一段播客视频,它不仅能看懂主持人和嘉宾的外形,更能 “听懂” 他们讨论的复杂话题。



场景二:语音转录 + 翻译

你对它说话,它能瞬间转录成文字。



场景三:全语音交互

你用语音问:“这个演讲者的公司使命是啥?”

它立刻用语音答:“他的公司使命是在火星上建立一个自我维持的文明。”



场景四:指挥机器人,直接 “张嘴说”!

OmniVinci 能直接听懂你的语音指令(比如 “进入卧室,在床脚站住” ),然后规划下一步行动。这才是真正实用的人机交互!



场景五:AI 看懂 “专家会诊”!

医生一边滚动查看 CT 影像,一边用嘴说出诊断(“这里我们看到一些肺大疱和相关的纤维化改变...” ) 。OmniVinci 能同时 “看” CT 影像的动态变化 ,并 “听” 懂医生的专业解说 ,准确回答 “肺部纹理随时间如何变化?” 这类高难度问题,在医疗 AI 上大展身手 !



场景六:AI “全能解说” 体育比赛!

看网球比赛,AI 不再是 “睁眼瞎”。OmniVinci 能同步理解激烈的视觉动作(谁在发球、谁赢了这一分)和解说员的评论。在预测得分结果和回合长度上,它完胜 Qwen2.5-Omni。更重要的是,量化后在消费级显卡 GeForce RTX 4090 上它延迟极低,完全可以用于电视直播!





这不就是贾维斯吗?

OmniVinci 的出现,可能不仅仅是一个新 SOTA 9B 全模态模型的诞生,它更代表了一种全新的 AI 范式。

未来,AI 不再是割裂的 “视觉模型” 或 “音频模型”,而是统一的 “全模态感知系统”。

更低的训练成本,意味着更快的迭代和更广泛的应用。从能听懂指令的机器人,到能理解医生口述和 CT 影像的医疗 AI,再到监控异常声音和画面的智能工厂,一个更智能的未来,正在加速到来。

英伟达这次,又交出了一份惊艳的答卷。

对于 OmniVinci,你怎么看?你最期待它被用在什么地方?欢迎在评论区留下你的 “神预言”!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
华为新技术刚公布,就要被退场了!

华为新技术刚公布,就要被退场了!

科技堡垒
2025-11-12 11:10:14
凯特王妃接孩子放学被拍,植发痕迹太明显,抗癌后沧桑许多!

凯特王妃接孩子放学被拍,植发痕迹太明显,抗癌后沧桑许多!

古希腊掌管松饼的神
2025-11-13 11:28:44
中国有权在日本驻军,高市早苗闯了大祸,日方意识到大事不妙!

中国有权在日本驻军,高市早苗闯了大祸,日方意识到大事不妙!

知鉴明史
2025-11-12 16:36:30
Nice!血赚三方交易!谢谢你,快船!

Nice!血赚三方交易!谢谢你,快船!

篮球实战宝典
2025-11-13 18:17:10
火箭3人20+大胜送奇才10连败垫底 杜兰特23+5+4申京16+13+6

火箭3人20+大胜送奇才10连败垫底 杜兰特23+5+4申京16+13+6

醉卧浮生
2025-11-13 11:22:20
我师专毕业分在县教育局,同桌分在乡下初中,退休时却是天壤之别

我师专毕业分在县教育局,同桌分在乡下初中,退休时却是天壤之别

辉哥说动漫
2025-11-13 09:43:07
山东28家省级医院年收入情况公布!

山东28家省级医院年收入情况公布!

看医界
2025-11-13 15:20:43
父母妻儿五人被害,男子再发声:10岁儿子本躲过一劫外出求助被杀,案发当天自己被凶手儿子拉黑

父母妻儿五人被害,男子再发声:10岁儿子本躲过一劫外出求助被杀,案发当天自己被凶手儿子拉黑

极目新闻
2025-11-12 22:59:10
1991年,我瞒着爸妈卖房囤下3100瓶茅台,28年后拿去估价

1991年,我瞒着爸妈卖房囤下3100瓶茅台,28年后拿去估价

小秋情感说
2025-11-05 13:51:53
中方采购美大豆,签370亿大单,特朗普却浑水摸鱼,对华设鸿门宴

中方采购美大豆,签370亿大单,特朗普却浑水摸鱼,对华设鸿门宴

boss外传
2025-11-12 18:40:03
高市早苗狂妄发言后,解放军舰艇编队穿航大隅海峡,日本反应强烈

高市早苗狂妄发言后,解放军舰艇编队穿航大隅海峡,日本反应强烈

头条爆料007
2025-11-13 09:00:05
彩票店老板谈“中奖1200万被骗光”:确有中奖但是否被骗不知,曾买新房|求真

彩票店老板谈“中奖1200万被骗光”:确有中奖但是否被骗不知,曾买新房|求真

红星新闻
2025-11-13 13:25:34
凌晨 12 点还在写作业?90% 家长没搞懂,初中作业慢的真相不在孩子

凌晨 12 点还在写作业?90% 家长没搞懂,初中作业慢的真相不在孩子

文雅笔墨
2025-11-12 08:18:28
乌克兰全黑了!核打击前最后警告,俄军发射13枚“全球禁止”导弹

乌克兰全黑了!核打击前最后警告,俄军发射13枚“全球禁止”导弹

史纪文谭
2025-11-11 14:16:47
环京房子,遍地白菜价,最低几万块一套

环京房子,遍地白菜价,最低几万块一套

石辰搞笑日常
2025-11-13 14:59:43
挑衅!沈伯洋现身德国,叫嚷“来抓我啊”,大陆再出手,杀鸡儆猴

挑衅!沈伯洋现身德国,叫嚷“来抓我啊”,大陆再出手,杀鸡儆猴

南宫一二
2025-11-13 17:06:50
日本政府正式宣布!11 月 11 日日本政府官宣 2026 年上调签证费

日本政府正式宣布!11 月 11 日日本政府官宣 2026 年上调签证费

南权先生
2025-11-13 15:52:13
连得8分重创大迪士气!王曼昱4-1王艺迪,时隔4年半决赛再战陈梦

连得8分重创大迪士气!王曼昱4-1王艺迪,时隔4年半决赛再战陈梦

钉钉陌上花开
2025-11-13 20:18:33
蔡正元露出真面目后,大陆官媒一句话给他定性,郑丽文再得强援

蔡正元露出真面目后,大陆官媒一句话给他定性,郑丽文再得强援

谛听骨语本尊
2025-11-12 16:18:16
中国男篮拒绝爆冷!全力击败韩国,张镇麟回归首秀,央视直播

中国男篮拒绝爆冷!全力击败韩国,张镇麟回归首秀,央视直播

体坛瞎白话
2025-11-13 08:24:15
2025-11-13 21:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11712文章数 142504关注度
往期回顾 全部

科技要闻

深夜重磅!GPT-5.1发布,奥特曼大谈情商

头条要闻

缅北园区头目佘智江被押解回国:登机前微笑 下机腿软

头条要闻

缅北园区头目佘智江被押解回国:登机前微笑 下机腿软

体育要闻

跟豪门传了十年绯闻,他却偏要“择一队终老”

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

本地
家居
游戏
教育
军事航空

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

家居要闻

莫奈时间 重构先锋概念

《幻兽帕鲁》手游封测12月开启 绝地求生开发商打造

教育要闻

一镜到底,专业讲解带你读懂甲骨文

军事要闻

美国在委内瑞拉海岸动用无人机和F-35

无障碍浏览 进入关怀版