网易首页 > 网易号 > 正文 申请入驻

开源即爆火!英伟达重磅推出OmniVinci全模态大模型

0
分享至

来源:市场资讯

(来源:机器之心)


全模态智能,英伟达的下一步

你是否想过,未来的 AI 将会是什么样子?

是只会打字的 Chat Bot,只会看图的 VLM,还是只能分辨声音的 ALM?

都不是! 真正的智能,应该像我们人类一样,能够同时看、听、说、写,既能看懂世界的五彩斑斓,也能听懂万物的声音。


在不久前结束的英伟达华盛顿 GTC 大会上,老黄再三强调 “研究人员需要开源。开发者依赖开源。全球的公司,包括我们都离不开开源模型。开源非常,非常,重要。” 在老黄的号召下,全模态理解模型迎来重量级新玩家 —— 英伟达(NVIDIA)开源了 OmniVinci, 一款能理解多模态世界的全模态大语言模型(Omni-Modal LLM)。该模型实现了视觉、音频、语言在同一潜空间(latent space)中的统一理解, 让 AI 不仅能识别图像、听懂语音,还能推理、对话、生成内容。这个 9B 的视觉 - 语音理解全模态模型刚上线就爆火,一周时间 Huggingface 模型权重目前已经有超过 10000 次下载量!


  • 论文标题:OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

  • 项目地址:https://github.com/NVlabs/OmniVinci

  • 论文地址:https://arxiv.org/abs/2510.15870

  • 开源模型:https://huggingface.co/nvidia/omnivinci

秀翻全场!多模态理解性能全面超越


和相近尺寸的全模态模型竞品相比,OmniVinci 在多项常用多模态基准测试榜单中取得了显著优势,包括视频 - 音频跨模态理解任务(DailyOmni +19.05),音频理解 (MMAR + 1.7),和视频理解 (Video-MME +3.9),展现出卓越的全模态理解能力。更重要的是,OmniVinci 少用了近 6 倍的数据量实现了超越,展现了其架构和数据引擎的卓越效率。

三大架构创新:让视觉与听觉在同一空间共鸣


OmniVinci 不仅具备炸裂的榜单性能,其论文中通过大量科学实验探索最优全模态模型架构的方法,而不是粗暴堆叠训练数据,这种做法显然更值得借鉴。想象一下,AI 看视频时,画面(视觉)和声音(音频)是两条独立的信息流。如果模型架构对此处理不好,AI 就会 “精神分裂”。而 OmniVinci 的目标就是让它们完美同步,通过三项核心创新设计来实现:

OmniAlignNet:跨模态语义对齐网络

这就像一个 “超级翻译器”,让模型在同一空间中 “看得见声音,听得懂画面”。它创建了一个共享空间,通过对比学习 ,让视觉信号和音频信号能在这里用同一种 “语言” 无障碍交流,实现跨模态深度对齐 。


Temporal Embedding Grouping (TEG):时间嵌入分组机制

将视觉帧与音频信号按时间戳重组,使模型能跨模态感知事件的相对先后关系。AI 终于能搞清楚,是 “先开枪再有枪声”,还是 “先有闪电再有雷声”。它通过按时间戳分组,让 AI 理解事件的先后顺序 。


Constrained Rotary Time Embedding (CRTE):受约束旋转时间嵌入

通过时间旋转编码,模型获得绝对时间感知能力。AI 不仅知道 “先” 和 “后”,还知道这件事发生在视频的第 5 秒,还是第 50 秒。


有了这三板斧,OmniVinci 才真正拥有了准确感知视觉,音频和时间流逝的能力。

数据引擎:24M 多模态对话的背后


模型强度离不开数据支撑。OmniVinci 团队构建了一个庞大的全模态数据引擎(Omni-Modal Data Engine),共涵盖 2400 万条多模态对话样本,覆盖图像、视频、音频、语音四大领域。数据分布中,图像占 36%、音频与语音共占 38%、视频 11%、全模态数据 15%。其中包括两种创新的全模态学习方式:

  • 隐式全模态学习(Implicit Learning)

直接利用现有视频自带音频的问答数据,让模型在 “看视频” 的同时 “听声音”。

  • 显式全模态学习(Explicit Learning)

通过 AI 单独生成视觉和音频模态专属的描述,再由 LLM 进行交叉修正与融合,解决了单模态模型常见的 “幻觉”(如只看画面误判语义)。

实验:打造全模态模型的关键洞察

[关键洞察 1] 单一模态打标 = 不靠谱!告别 “模态幻觉”

团队发现,很多 AI 模型都有 “模态幻觉”: 只看图(视觉):AI 看到一个深海机器人,可能会 “脑补” 说这是人类高科技的胜利 。只听声(音频):AI 听到旁白说 “地球最深处”,可能会 “瞎猜” 说这是关于地心的纪录片 。因此一个集成了两种模态的联合字幕方法对于全面理解至关重要。


[关键洞察 2] 1 + 1 > 2!当听觉 “点亮” 视觉

加上音频,模型真的变强了吗?答案是肯定的! 团队发现,声音为视觉提供了全新的信息维度,音视频联合学习能显著提高视频的理解能力 。只用视觉 (Visual Alone) 视觉 + 音频 (隐式学习 IL) 视觉 + 音频 + 全模态数据引擎 (显式学习 EL) 结果显示 (见下表),每增加一步,性能都在飙升!特别是加入了数据引擎的 “显式学习” 后,模型性能在多个基准上都实现了巨大飞跃。


[关键洞察 3] 王牌对王牌:当 OmniVinci 遇上 “强化学习”

基础模型已经这么强了,还能再进化吗? 能!通过强化学习 (RL)!

音频,让强化学习 “如虎添翼”! 团队在使用 GRPO 强化学习框架时发现了一个 “隐藏 Buff”: 只给 AI 看视频(视觉)去训练,远不如 “边看边听”(视听结合)的效果好! 如图所示,加入音频后,模型的收敛速度更快。


强强对决,OmniVinci 更胜一筹! 在这个多模态 RL 框架下,OmniVinci 和 Qwen2.5-Omni 都能获益 。但是,OmniVinci 凭借更强的基础性能和指令跟随能力,在 15 步内就超越了 Qwen2.5-Omni 的准确率,并且格式奖励收敛速度快了 2.7 倍 ! 最终,经过 RL 训练的 OmniVinci+RL,在所有全模态基准上再次实现全面提升!



不止是 SOTA,是全能 Agent

跑分只是基础,真正的全模态 AI,必须能在真实世界 “大显身手”。

OmniVinci 做到了。研究团队用它测试了 N 个真实场景,效果非常好 :

场景一:联合视听感知

你给它一段播客视频,它不仅能看懂主持人和嘉宾的外形,更能 “听懂” 他们讨论的复杂话题。


场景二:语音转录 + 翻译

你对它说话,它能瞬间转录成文字。


场景三:全语音交互

你用语音问:“这个演讲者的公司使命是啥?”

它立刻用语音答:“他的公司使命是在火星上建立一个自我维持的文明。”


场景四:指挥机器人,直接 “张嘴说”!

OmniVinci 能直接听懂你的语音指令(比如 “进入卧室,在床脚站住” ),然后规划下一步行动。这才是真正实用的人机交互!


场景五:AI 看懂 “专家会诊”!

医生一边滚动查看 CT 影像,一边用嘴说出诊断(“这里我们看到一些肺大疱和相关的纤维化改变...” ) 。OmniVinci 能同时 “看” CT 影像的动态变化 ,并 “听” 懂医生的专业解说 ,准确回答 “肺部纹理随时间如何变化?” 这类高难度问题,在医疗 AI 上大展身手 !


场景六:AI “全能解说” 体育比赛!

看网球比赛,AI 不再是 “睁眼瞎”。OmniVinci 能同步理解激烈的视觉动作(谁在发球、谁赢了这一分)和解说员的评论。在预测得分结果和回合长度上,它完胜 Qwen2.5-Omni。更重要的是,量化后在消费级显卡 GeForce RTX 4090 上它延迟极低,完全可以用于电视直播!



这不就是贾维斯吗?

OmniVinci 的出现,可能不仅仅是一个新 SOTA 9B 全模态模型的诞生,它更代表了一种全新的 AI 范式。

未来,AI 不再是割裂的 “视觉模型” 或 “音频模型”,而是统一的 “全模态感知系统”。

更低的训练成本,意味着更快的迭代和更广泛的应用。从能听懂指令的机器人,到能理解医生口述和 CT 影像的医疗 AI,再到监控异常声音和画面的智能工厂,一个更智能的未来,正在加速到来。

英伟达这次,又交出了一份惊艳的答卷。

对于 OmniVinci,你怎么看?你最期待它被用在什么地方?欢迎在评论区留下你的 “神预言”!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
丈夫在单位28年还是科员,调离当天,局长问我:你爱人的背景是?

丈夫在单位28年还是科员,调离当天,局长问我:你爱人的背景是?

荔枝人物记
2025-11-04 17:01:38
每体:C罗的豪车收藏已超40辆,其中一些车从来没开过

每体:C罗的豪车收藏已超40辆,其中一些车从来没开过

懂球帝
2025-11-08 10:25:10
中国足协:邵佳一,我很不开心

中国足协:邵佳一,我很不开心

中场阴谋家
2025-11-08 00:46:00
陕西一市官宣:春秋假各3天,今年11月17日放秋假

陕西一市官宣:春秋假各3天,今年11月17日放秋假

大风新闻
2025-11-08 17:38:03
两位闺蜜全部“倒戈”,估计连王菲都没想到,张柏芝能这么大能耐

两位闺蜜全部“倒戈”,估计连王菲都没想到,张柏芝能这么大能耐

梦录的西方史话
2025-11-06 17:30:01
五角大楼没想到,大陆对台使出最绝的一招:邀请日本自卫队到北京

五角大楼没想到,大陆对台使出最绝的一招:邀请日本自卫队到北京

书中自有颜如玉
2025-11-07 10:15:08
安理会投票解除对叙利亚政权领导人制裁

安理会投票解除对叙利亚政权领导人制裁

参考消息
2025-11-07 16:52:12
俄乌战场经验拿去偷猎?江西多人被刑拘!无人机坠箭直接打穿野鹿

俄乌战场经验拿去偷猎?江西多人被刑拘!无人机坠箭直接打穿野鹿

军武次位面
2025-11-07 14:54:29
特拉布宗体育主席:奥纳纳薪水很高,我们无法提供

特拉布宗体育主席:奥纳纳薪水很高,我们无法提供

懂球帝
2025-11-08 10:25:10
三方完美交易!杜兰特迎冠军控卫,绿军重燃争冠希望,太阳老好人

三方完美交易!杜兰特迎冠军控卫,绿军重燃争冠希望,太阳老好人

老郎体育汇
2025-11-08 15:16:57
担任过兵团司令员的元帅,大将,上将,分别都是谁?

担任过兵团司令员的元帅,大将,上将,分别都是谁?

春秋砚
2025-11-08 17:20:03
湖南省省长、浙江省省长,一同观看机器人表演

湖南省省长、浙江省省长,一同观看机器人表演

政知新媒体
2025-11-07 22:20:14
红军城一丢,捷克扯旗、波兰骂街、美国摆烂:泽连斯基满手是血

红军城一丢,捷克扯旗、波兰骂街、美国摆烂:泽连斯基满手是血

今日养生之道
2025-11-08 15:13:35
还骂吗?尊重观众的《唐朝诡事录3》,狠狠抽了内娱一个大逼斗!

还骂吗?尊重观众的《唐朝诡事录3》,狠狠抽了内娱一个大逼斗!

糊咖娱乐
2025-11-08 16:56:18
李显龙预言:印度经济终将超越中国!

李显龙预言:印度经济终将超越中国!

荆楚寰宇文枢
2025-11-07 21:49:01
太子酒店的妈妈桑:打造名扬天下的莞式特色,卷入黑道仇杀而消失

太子酒店的妈妈桑:打造名扬天下的莞式特色,卷入黑道仇杀而消失

吴学华看天下
2024-08-21 10:45:19
重庆谈判记者问毛主席能否打败老蒋,主席:你把蒋毛二字拆开看

重庆谈判记者问毛主席能否打败老蒋,主席:你把蒋毛二字拆开看

芊芊子吟
2025-11-04 17:07:46
太空碎片威胁升级,神舟二十号飞船遭撞击,专家:不排除形成灾难

太空碎片威胁升级,神舟二十号飞船遭撞击,专家:不排除形成灾难

一个有灵魂的作者
2025-11-06 09:00:47
后续!祖院长已报警,拒绝采访!网友:这事儿明显被人做了局!

后续!祖院长已报警,拒绝采访!网友:这事儿明显被人做了局!

小李睡不醒了
2025-11-08 10:06:09
台风+冷空气!广西阴雨继续,回南天将持续到……

台风+冷空气!广西阴雨继续,回南天将持续到……

南国微生活
2025-11-08 15:15:46
2025-11-08 18:08:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1321395文章数 4409关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

英媒抛出谬论:中国的空气质量改善 加速了全球变暖

头条要闻

英媒抛出谬论:中国的空气质量改善 加速了全球变暖

体育要闻

马刺绞赢火箭,不靠文班亚马?

娱乐要闻

古二再度放料!秦雯王家卫吐槽出现新人物

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线:28.85 万元

态度原创

亲子
房产
艺术
教育
公开课

亲子要闻

当你孩子满嘴网络梗

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

艺术要闻

世界最高的教堂封顶!高迪设计,建了143年

教育要闻

一道初中化简,学会方法太easy

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版