网易首页 > 网易号 > 正文 申请入驻

开源即爆火!英伟达重磅推出OmniVinci全模态大模型

0
分享至



全模态智能,英伟达的下一步

你是否想过,未来的 AI 将会是什么样子?

是只会打字的 Chat Bot,只会看图的 VLM,还是只能分辨声音的 ALM?

都不是! 真正的智能,应该像我们人类一样,能够同时看、听、说、写,既能看懂世界的五彩斑斓,也能听懂万物的声音。



在不久前结束的英伟达华盛顿 GTC 大会上,老黄再三强调 “研究人员需要开源。开发者依赖开源。全球的公司,包括我们都离不开开源模型。开源非常,非常,重要。” 在老黄的号召下,全模态理解模型迎来重量级新玩家 —— 英伟达(NVIDIA)开源了 OmniVinci, 一款能理解多模态世界的全模态大语言模型(Omni-Modal LLM)。该模型实现了视觉、音频、语言在同一潜空间(latent space)中的统一理解, 让 AI 不仅能识别图像、听懂语音,还能推理、对话、生成内容。这个 9B 的视觉 - 语音理解全模态模型刚上线就爆火,一周时间 Huggingface 模型权重目前已经有超过10000次下载量!



  • 论文标题:OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
  • 项目地址:https://github.com/NVlabs/OmniVinci
  • 论文地址:https://arxiv.org/abs/2510.15870
  • 开源模型:https://huggingface.co/nvidia/omnivinci

秀翻全场!多模态理解性能全面超越



和相近尺寸的全模态模型竞品相比,OmniVinci 在多项常用多模态基准测试榜单中取得了显著优势,包括视频 - 音频跨模态理解任务(DailyOmni +19.05),音频理解 (MMAR + 1.7),和视频理解 (Video-MME +3.9),展现出卓越的全模态理解能力。更重要的是,OmniVinci 少用了近 6 倍的数据量实现了超越,展现了其架构和数据引擎的卓越效率。

三大架构创新:让视觉与听觉在同一空间共鸣





OmniVinci 不仅具备炸裂的榜单性能,其论文中通过大量科学实验探索最优全模态模型架构的方法,而不是粗暴堆叠训练数据,这种做法显然更值得借鉴。想象一下,AI 看视频时,画面(视觉)和声音(音频)是两条独立的信息流。如果模型架构对此处理不好,AI 就会 “精神分裂”。而 OmniVinci 的目标就是让它们完美同步,通过三项核心创新设计来实现:

OmniAlignNet:跨模态语义对齐网络

这就像一个 “超级翻译器”,让模型在同一空间中 “看得见声音,听得懂画面”。它创建了一个共享空间,通过对比学习 ,让视觉信号和音频信号能在这里用同一种 “语言” 无障碍交流,实现跨模态深度对齐。



Temporal Embedding Grouping (TEG):时间嵌入分组机制

将视觉帧与音频信号按时间戳重组,使模型能跨模态感知事件的相对先后关系。AI 终于能搞清楚,是 “先开枪再有枪声”,还是 “先有闪电再有雷声”。它通过按时间戳分组,让 AI 理解事件的先后顺序 。



Constrained Rotary Time Embedding (CRTE):受约束旋转时间嵌入

通过时间旋转编码,模型获得绝对时间感知能力。AI 不仅知道 “先” 和 “后”,还知道这件事发生在视频的第 5 秒,还是第 50 秒。



有了这三板斧,OmniVinci 才真正拥有了准确感知视觉,音频和时间流逝的能力。

数据引擎:24M 多模态对话的背后





模型强度离不开数据支撑。OmniVinci 团队构建了一个庞大的全模态数据引擎(Omni-Modal Data Engine),共涵盖2400 万条多模态对话样本,覆盖图像、视频、音频、语音四大领域。数据分布中,图像占 36%、音频与语音共占 38%、视频 11%、全模态数据 15%。其中包括两种创新的全模态学习方式:

  • 隐式全模态学习(Implicit Learning)

直接利用现有视频自带音频的问答数据,让模型在 “看视频” 的同时 “听声音”。

  • 显式全模态学习(Explicit Learning)

通过 AI 单独生成视觉和音频模态专属的描述,再由 LLM 进行交叉修正与融合,解决了单模态模型常见的 “幻觉”(如只看画面误判语义)。

实验:打造全模态模型的关键洞察


[关键洞察 1] 单一模态打标 = 不靠谱!告别 “模态幻觉”

团队发现,很多 AI 模型都有 “模态幻觉”: 只看图(视觉):AI 看到一个深海机器人,可能会 “脑补” 说这是人类高科技的胜利 。只听声(音频):AI 听到旁白说 “地球最深处”,可能会 “瞎猜” 说这是关于地心的纪录片 。因此一个集成了两种模态的联合字幕方法对于全面理解至关重要。



[关键洞察 2] 1 + 1 > 2!当听觉 “点亮” 视觉

加上音频,模型真的变强了吗?答案是肯定的! 团队发现,声音为视觉提供了全新的信息维度,音视频联合学习能显著提高视频的理解能力 。只用视觉 (Visual Alone) 视觉 + 音频 (隐式学习 IL) 视觉 + 音频 + 全模态数据引擎 (显式学习 EL) 结果显示 (见下表),每增加一步,性能都在飙升!特别是加入了数据引擎的 “显式学习” 后,模型性能在多个基准上都实现了巨大飞跃。



[关键洞察 3] 王牌对王牌:当 OmniVinci 遇上 “强化学习”

基础模型已经这么强了,还能再进化吗? 能!通过强化学习 (RL)!

音频,让强化学习 “如虎添翼”! 团队在使用 GRPO 强化学习框架时发现了一个 “隐藏 Buff”: 只给 AI 看视频(视觉)去训练,远不如 “边看边听”(视听结合)的效果好! 如图所示,加入音频后,模型的收敛速度更快。



强强对决,OmniVinci 更胜一筹! 在这个多模态 RL 框架下,OmniVinci 和 Qwen2.5-Omni 都能获益 。但是,OmniVinci 凭借更强的基础性能和指令跟随能力,在 15 步内就超越了 Qwen2.5-Omni 的准确率,并且格式奖励收敛速度快了 2.7 倍 ! 最终,经过 RL 训练的 OmniVinci+RL,在所有全模态基准上再次实现全面提升!





不止是 SOTA,是全能 Agent

跑分只是基础,真正的全模态 AI,必须能在真实世界 “大显身手”。

OmniVinci 做到了。研究团队用它测试了 N 个真实场景,效果非常好 :

场景一:联合视听感知

你给它一段播客视频,它不仅能看懂主持人和嘉宾的外形,更能 “听懂” 他们讨论的复杂话题。



场景二:语音转录 + 翻译

你对它说话,它能瞬间转录成文字。



场景三:全语音交互

你用语音问:“这个演讲者的公司使命是啥?”

它立刻用语音答:“他的公司使命是在火星上建立一个自我维持的文明。”



场景四:指挥机器人,直接 “张嘴说”!

OmniVinci 能直接听懂你的语音指令(比如 “进入卧室,在床脚站住” ),然后规划下一步行动。这才是真正实用的人机交互!



场景五:AI 看懂 “专家会诊”!

医生一边滚动查看 CT 影像,一边用嘴说出诊断(“这里我们看到一些肺大疱和相关的纤维化改变...” ) 。OmniVinci 能同时 “看” CT 影像的动态变化 ,并 “听” 懂医生的专业解说 ,准确回答 “肺部纹理随时间如何变化?” 这类高难度问题,在医疗 AI 上大展身手 !



场景六:AI “全能解说” 体育比赛!

看网球比赛,AI 不再是 “睁眼瞎”。OmniVinci 能同步理解激烈的视觉动作(谁在发球、谁赢了这一分)和解说员的评论。在预测得分结果和回合长度上,它完胜 Qwen2.5-Omni。更重要的是,量化后在消费级显卡 GeForce RTX 4090 上它延迟极低,完全可以用于电视直播!





这不就是贾维斯吗?

OmniVinci 的出现,可能不仅仅是一个新 SOTA 9B 全模态模型的诞生,它更代表了一种全新的 AI 范式。

未来,AI 不再是割裂的 “视觉模型” 或 “音频模型”,而是统一的 “全模态感知系统”。

更低的训练成本,意味着更快的迭代和更广泛的应用。从能听懂指令的机器人,到能理解医生口述和 CT 影像的医疗 AI,再到监控异常声音和画面的智能工厂,一个更智能的未来,正在加速到来。

英伟达这次,又交出了一份惊艳的答卷。

对于 OmniVinci,你怎么看?你最期待它被用在什么地方?欢迎在评论区留下你的 “神预言”!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

有范又有料
2025-12-17 14:54:06
巴拿马后悔了,主动找上中国,愿中方不计前嫌,两国还是好伙伴

巴拿马后悔了,主动找上中国,愿中方不计前嫌,两国还是好伙伴

比利
2026-03-26 23:13:58
公主嫁给权臣为小妾,她前夫却找上门来,凭半面破镜把人带走了!

公主嫁给权臣为小妾,她前夫却找上门来,凭半面破镜把人带走了!

野史日记
2026-03-25 19:30:08
隐身的名字:水泥藏尸案被揭开,任小名抛弃何宇穹嫁刘潇然的真相

隐身的名字:水泥藏尸案被揭开,任小名抛弃何宇穹嫁刘潇然的真相

慢半拍sir
2026-03-27 00:06:26
破防!马英九专访20分钟紧急叫停,“失智疑云”背后藏着更大棋局

破防!马英九专访20分钟紧急叫停,“失智疑云”背后藏着更大棋局

戗词夺理
2026-03-26 11:13:50
人生五十岁才是真正关键,这三件事碰都不要碰

人生五十岁才是真正关键,这三件事碰都不要碰

阿郑的读书日常
2025-07-03 15:14:16
放牛老汉在山上发现一个女子,不顾女子的反抗,将女子拖回了家

放牛老汉在山上发现一个女子,不顾女子的反抗,将女子拖回了家

乔生桂
2025-12-05 10:47:42
对标何润东赵丽颖!张凌赫被嘲粉底液将军!评论区惨不忍睹

对标何润东赵丽颖!张凌赫被嘲粉底液将军!评论区惨不忍睹

小邵说剧
2026-03-25 19:50:11
国际奥委会:奥运女子组赛事将仅限生理女性参加,需做基因检测

国际奥委会:奥运女子组赛事将仅限生理女性参加,需做基因检测

界面新闻
2026-03-26 21:27:52
国乒世乒赛选拔:王艺迪夺冠成候选!9人已获名额,陈熠等人落榜

国乒世乒赛选拔:王艺迪夺冠成候选!9人已获名额,陈熠等人落榜

全言作品
2026-03-26 19:26:38
你见过最离谱的网购是什么?网友:仓库是不会承认自己发错了的

你见过最离谱的网购是什么?网友:仓库是不会承认自己发错了的

另子维爱读史
2026-02-16 20:35:50
红枣被点名!医生提醒:常吃红枣的高血脂患者,或可收获这几变化

红枣被点名!医生提醒:常吃红枣的高血脂患者,或可收获这几变化

健康科普365
2026-03-19 18:45:03
近半年来,多家工厂密集发布停工放假通知!

近半年来,多家工厂密集发布停工放假通知!

黯泉
2026-03-26 18:48:20
张雪峰老师因心脏病离世,直播中曾坦言书法是“天坑”专业,出路太窄,没错

张雪峰老师因心脏病离世,直播中曾坦言书法是“天坑”专业,出路太窄,没错

云隐南山
2026-03-26 16:19:11
法国前总理若斯潘去世

法国前总理若斯潘去世

参考消息
2026-03-26 21:17:12
中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

南宗历史
2026-03-25 16:04:15
美国这次要栽了,特朗普犯下致命误判,奥巴马8年前警告或成真

美国这次要栽了,特朗普犯下致命误判,奥巴马8年前警告或成真

陌初寒上只
2026-03-27 02:10:00
国产顶级神剧,只可惜,央视播完就禁了

国产顶级神剧,只可惜,央视播完就禁了

独立鱼
2026-03-23 21:22:17
日本诺贝尔奖得主大江健三郎表示:很遗憾,日本很可能将重复历史

日本诺贝尔奖得主大江健三郎表示:很遗憾,日本很可能将重复历史

议纪史
2025-11-27 14:35:03
原“一汽”总设计师:不管我们怎么改!卡车质量就比不上“二汽”

原“一汽”总设计师:不管我们怎么改!卡车质量就比不上“二汽”

福建平子
2026-03-20 13:58:05
2026-03-27 03:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
艺术
健康
数码
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

转头就晕的耳石症,能开车上班吗?

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版