网易首页 > 网易号 > 正文 申请入驻

英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万

0
分享至

新智元报道

编辑:LRST

【新智元导读】OmniVinci是英伟达推出的全模态大模型,能精准解析视频和音频,尤其擅长视觉和听觉信号的时序对齐。它以90亿参数规模,性能超越同级别甚至更高级别模型,训练数据效率是对手的6倍,大幅降低成本。在视频内容理解、语音转录、机器人导航等场景中,OmniVinci能提供高效支持,展现出卓越的多模态应用能力。

今年以来,开源大模型战场硝烟弥漫。

各路人马在此全力投入,试图在AI的下一个时代抢占生态位。而一个无法被忽略的趋势是:中国大模型,正在强势统治开源基础模型的「名人堂」。

从DeepSeek在代码与数学推理上的惊人表现,到Qwen(通义千问)家族在多模态和通用能力上的全面开花,它们凭借卓越的性能和快速的迭代,早已成为全球AI从业者无法绕过的参照物。

就在所有人都以为,这场基础模型开源浪潮将主要由顶尖的互联网巨头和明星创业公司推动时,一个「本该」在旁边「卖水」的巨头,也亲自下场「添柴」了。

是的,作为AI浪潮最大的受益者——英伟达(NVIDIA)——并没有懈怠自研大模型。

如今,英伟达的大模型矩阵迎来了一块重要拼图。

无需更多铺垫,老黄的最新王牌正式登场:最强9B视频音频全模态大模型 OmniVinci,强势开源!

论文链接:https://arxiv.org/abs/2510.15870

代码链接:https://github.com/NVlabs/OmniVinci

在多个主流全模态,音频理解,和视频理解榜单上,OmniVinci展示出了碾压对手的性能:

如果说英伟达之前的开源模型还只是在特定领域细分布局,那么OmniVinci的发布,则是一次真正意义上的「全线压上」。

英伟达对OmniVinci的定义是「全模态(Omni-Modal)」——一个能够同时理解视频、音频、图像和文本的统一模型。

它的大小仅为90亿(9B)参数,却在多项关键的多模态基准测试中,展现了「掀桌子」级别的性能。

根据英伟达发布的论文,OmniVinci的核心优势极其凌厉:

  • 性能越级对标:在多个权威的全模态理解基准上(如DailyOmni、MMAR等),OmniVinci的表现全面超越了包括Qwen2.5-Omni在内的同级别(甚至更高级别)的竞争对手。

  • 惊人的数据效率:这是最可怕的一点。OmniVinci达到当前SOTA(顶尖水平)性能,仅使用了0.2T(2000亿)tokens的训练数据。作为对比,其主要竞争对手的数据集规模普遍在1.2T以上。这意味着OmniVinci的训练效率是对手的6倍

  • 核心技术革新:它通过名为全对齐网络(OmniAlignNet)的创新架构,以及时序嵌入分组(Temporal Embedding Grouping)和约束旋转时间编码(Constratined Rotary Time Embed)等技术,实现了视觉和听觉信号在时序上的高精度对齐。简单来说,它不仅「看懂」了视频,「听懂」了声音,更能精准理解「什么声音在什么画面发生」。

英伟达的入局,传递了一个清晰的信号:硬件的王者,同样要掌握模型的定义权。

视频+音频理解: 1+1>2

音频的加入究竟有没有让多模态模型更强?实验给出了明确的回答:有,而且提升非常显著。

研究团队指出,声音为视觉任务引入了全新的信息维度,使模型在视频理解方面受益匪浅。

具体来说,从单纯依赖视觉,到结合音频进行隐式多模态学习,再到引入全模态数据引擎实现显式融合,模型的表现呈阶梯式跃升。

尤其是在采用显式学习策略后,多项指标上都出现了突破性进步,如下表所示,性能几乎是「一路狂飙」。

不单只SFT,在后训练阶段加入音频模态也能进一步增强GRPO的效果:

全模态Agent,落地场景拉满

视频与音频兼具的全模态模型突破了传统 VLM 的模态限制,能够更充分地理解视频内容,因此具备更广阔的应用场景。

比如总结老黄的采访:

还可以能转录成文字:

又或者语音指挥机器人导航:

是开源届的友军,而不是对手

在过去的一年里,

DeepSeek凭借其在代码和数学推理上的超强实力,一次次刷新开源榜单的上限,成为「最强理科生」的代名词。

Qwen则构建了庞大的模型矩阵,从最小的0.6B到巨无霸1T大模型,是目前生态最完善、综合能力最均衡的「全能选手」之一。

而OmniVinci的开源,更像是一条的「鲶鱼」。它用极致的效率和强悍的性能树立了SOTA的研究标杆,搅动了开源大模型战场,督促友军们拿出更好的模型帮助人类走向AGI。

对于「卖铲子」的英伟达来说,开源模型越多人用 -> 更多人买GPU,无疑是开源模型的最大收益者,也正因如此,英伟达是开源模型团队的坚定友军,而不是对手。

结语

社区狂欢,浪潮加速,共赴AGI

英伟达OmniVinci一经发布,如同一块巨石砸入本已波涛汹涌的开源之海,已经在huggingface上斩获一万多的下载量

海外的科技博主们抢先发布视频和文章分享相关技术

它既是英伟达「软硬一体」生态的自然延伸,也是对整个AI开源生态的一次强力「助推」。

开源的格局,因此更加清晰了。

一方,是以DeepSeek、Qwen为代表的中国开源力量,他们以极快的迭代速度和开放性,构筑了繁荣的开发者基础。

另一方,是手握算力霸权的英伟达,亲自下场,用「技术标杆」和「生态孵化」来作为开源友军加速整个进程。

浪潮已在加速,无人能置身事外。对于每一位AI从业者来说,一个更强、更快、更「卷」的AI时代,才刚刚开始。

参考资料:

https://arxiv.org/abs/2510.15870

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

杰丝聊古今
2026-05-03 13:35:27
恭喜!26岁锋霸正式回归豪门,从CBA打回顶级联赛,曾大帽崔永熙

恭喜!26岁锋霸正式回归豪门,从CBA打回顶级联赛,曾大帽崔永熙

萌兰聊个球
2026-05-15 09:19:16
凶手按照同学录逐个杀人,同学录成“死亡笔记”,作案20年终落网

凶手按照同学录逐个杀人,同学录成“死亡笔记”,作案20年终落网

莫地方
2026-05-15 01:00:04
章子怡“泼墨门”主谋,叶剑英儿媳,离婚后转战商圈竟成资本大鳄

章子怡“泼墨门”主谋,叶剑英儿媳,离婚后转战商圈竟成资本大鳄

财叔
2026-05-11 08:40:12
活塞G6伤情报告出炉,骑士传来坏消息,NBA新纪录诞生

活塞G6伤情报告出炉,骑士传来坏消息,NBA新纪录诞生

世界体育圈
2026-05-15 08:45:25
A股:不用再等下周一行情,市场趋势有变化,接下来很可能这样走

A股:不用再等下周一行情,市场趋势有变化,接下来很可能这样走

财经大拿
2026-05-15 11:55:57
美国总统特朗普结束访华

美国总统特朗普结束访华

小叶l
2026-05-15 14:38:18
178万吨榴莲涌入中国!进口量暴涨294%,泰国市场份额跌至不到60%

178万吨榴莲涌入中国!进口量暴涨294%,泰国市场份额跌至不到60%

阿纂看事
2026-05-14 15:18:51
尴尬啊!家委会发布高考结束,举行谢师宴,全班50人只有31人报名

尴尬啊!家委会发布高考结束,举行谢师宴,全班50人只有31人报名

火山詩话
2026-05-14 17:54:05
知名男歌手广州演唱会,突然取消!将全额退票

知名男歌手广州演唱会,突然取消!将全额退票

陈意小可爱
2026-05-15 01:12:31
湖人离队第一人?34岁的克勒贝尔,还能留在NBA吗?

湖人离队第一人?34岁的克勒贝尔,还能留在NBA吗?

篮球实录
2026-05-15 14:45:58
被马斯克和库克夹在中间的女人!“玻璃女王”周群飞,仅大专学历

被马斯克和库克夹在中间的女人!“玻璃女王”周群飞,仅大专学历

观察者海风
2026-05-15 12:43:32
特朗普精力充沛,养生秘诀是吃大量阿司匹林,日常三餐吃麦当劳

特朗普精力充沛,养生秘诀是吃大量阿司匹林,日常三餐吃麦当劳

南权先生
2026-04-04 05:05:03
许利民:上海25连胜不是平白无故 今晚在强大的对手前敢于超越自我

许利民:上海25连胜不是平白无故 今晚在强大的对手前敢于超越自我

狼叔评论
2026-05-15 12:46:21
广西又火了!马斯克幼子同款虎头包出自广西绣娘,产地细节全揭秘

广西又火了!马斯克幼子同款虎头包出自广西绣娘,产地细节全揭秘

烟浔渺渺
2026-05-15 12:06:45
马斯克带着儿子现身人民大会堂,拍照时还扛在肩上,也太宠孩子啦

马斯克带着儿子现身人民大会堂,拍照时还扛在肩上,也太宠孩子啦

八八尚语
2026-05-14 23:07:33
50℃的生存极限:当印度沦为“空调外机”,这个国家的极限在哪里

50℃的生存极限:当印度沦为“空调外机”,这个国家的极限在哪里

青梅侃史啊
2026-05-15 09:34:19
心理学:要想让任何人信任你、喜欢你,对你上头,最有效的方法就是掌握并使用这两个效应

心理学:要想让任何人信任你、喜欢你,对你上头,最有效的方法就是掌握并使用这两个效应

心理观察局
2026-05-15 09:02:21
普京提到伊朗满是遗憾,以色列千不该万不该,不该杀德黑兰这个人

普京提到伊朗满是遗憾,以色列千不该万不该,不该杀德黑兰这个人

九分看世界
2026-05-15 13:07:28
彻底撕破脸!央视硬刚天价转播费后,资本反手疯狂报复不堪入目

彻底撕破脸!央视硬刚天价转播费后,资本反手疯狂报复不堪入目

有范又有料
2026-05-15 10:58:28
2026-05-15 15:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15218文章数 66869关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

牛弹琴:中美元首历史性会晤 向世界释放五个信号

头条要闻

牛弹琴:中美元首历史性会晤 向世界释放五个信号

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

特朗普的北京时刻

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

家居
健康
数码
游戏
公开课

家居要闻

110㎡淡而有致的生活表达

专家揭秘干细胞回输的安全风险

数码要闻

经典风格重现:华硕ROG CROSSHAIR 2026复刻版主板实物现身

雪山经营模拟《覆雪之上》公布更新路线图,与好评如潮《小小书店》捆绑销售

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版