网易首页 > 网易号 > 正文 申请入驻

英伟达30B模型押注"全能代理":一个模型看懂屏幕听懂话

0
分享至

为什么你的AI助手还在"看图说话"和"语音转文字"之间来回切换?英伟达今天给出的答案是:干脆让模型自己长眼睛长耳朵。

这家芯片巨头发布了Nemotron 3 Nano Omni,一个300亿参数的多模态推理模型。不是堆参数的军备竞赛,而是一次关于"代理型AI该怎么造"的工程路线选择——把视觉编码器、音频编码器和文本推理塞进同一个混合专家架构(MoE),砍掉中间商,直接让模型感知世界。


参数不大,野心不小

300亿参数放在今天的大模型战场算不上显眼。GPT-4、Claude 3 Opus这些闭源巨兽早已跨入千亿级,开源阵营的Llama 3 405B更是把门槛抬到新高度。

英伟达的选择很克制:用混合专家架构(MoE)做动态路由,每次推理只激活部分参数。官方说法是"极低延迟",更直白的效果是——吞吐量比市面上其他开源全能模型快9倍。

这个数字很关键。代理型AI的核心场景不是写诗,是实时操作:看屏幕、点按钮、填表格、回消息。每一秒延迟都是用户体验的崩塌。H Company首席执行官Gautier Cloix的原话是:「要构建有用的代理,你不能等上几秒钟让模型解读屏幕。」他的团队已经在用这个模型处理全高清屏幕录像,「以前这不现实。」

小模型的另一张牌是部署弹性。压缩后可以跑在高端消费级硬件上,也能在企业云端高效执行。英伟达明说了:这是为了"更高可扩展性和更低成本"。翻译一下——让客户用得起,让开发者玩得转。

砍掉感知模块,一体化是伪命题还是真需求?

传统多模态AI的架构像条流水线:视觉模型负责看图,语音模型负责听声,文本模型负责推理,中间靠API串起来。好处是各模块可以独立优化,坏处是延迟叠加、错误传导、成本膨胀。

英伟达的解法是把编码器直接焊进模型。视觉和音频信号不再外接处理,而是原生输入到同一个推理引擎。官方描述是"消除对独立感知模块的需求",技术细节是30B-AD3B混合MoE架构。

这种一体化设计瞄准的具体场景很务实:文档理解、屏幕内容解析、语音活动检测、视频处理。不是做通用人工智能的宏大叙事,而是解决"代理怎么跟人协作"的工程问题——把用户的对话指令快速转化为推理行动,再桥接到更复杂的机器状态。

但这里有个微妙的选择。模型被设计成可以和其他专有云模型或英伟达自家的Nemotron系列(Super负责高频执行、Ultra负责复杂规划)协同工作。也就是说,Nano Omni不是单打独斗的孤胆英雄,而是代理流水线中的一个环节。一体化是相对的,生态位分工是绝对的。

开源策略: Hugging Face上的阳谋

模型已经上架Hugging Face、OpenRouter和build.nvidia.com,以英伟达NIM微服务的形式提供。作为开放轻量级模型,它支持开发者在本地硬件部署,包括英伟达自家的DGX Spark。

这个发布节奏值得玩味。过去一年,Nemotron家族(Ultra、Super、Nano)的累计下载量超过5000万。Omni版本的加入,把产品线从纯文本推理延伸到多模态和代理型AI领域。

英伟达的算盘很清晰:用开源模型培养开发者习惯,用NIM微服务降低部署门槛,最终把流量导向自家的硬件生态。DGX Spark被特别点名,这款面向个人开发者的工作站正是英伟达今年力推的边缘计算入口。

开源社区的反应将是试金石。300亿参数的全能模型在Hugging Face上不算稀缺,但"快9倍"的吞吐量承诺如果能在真实场景兑现,可能重塑开发者对"小模型能做什么"的预期。

代理型AI的硬件-软件闭环

英伟达这次发布最有趣的观察点,不是模型本身的技术突破,而是它暴露的战略意图:在代理型AI的赛道上,芯片厂商正在从"卖铲子"变成"定规则"。

传统分工里,英伟达做GPU,OpenAI、Anthropic做模型,中间隔着一层。但现在英伟达直接下场做开源模型,而且做的是一个专门为代理场景优化的"基础设施层"——够小、够快、够开放,专门用来被集成、被改造、被部署到各种终端。

这种打法对上层应用厂商是双刃剑。好处是有现成的多模态底座可用,坏处是英伟达同时在推自己的代理解决方案。Cloix的表态很关键:他的公司选择"基于"Nano Omni构建,而不是"替换"或"绕过"。这种合作关系能维持多久,取决于英伟达在代理层的野心边界。

更值得追问的是"9倍快"的参照系。官方说法是"其他开源全能模型",但没有点名具体是谁。Llama 3.2 Vision?Qwen-VL?还是更小型的专用模型?基准测试的方法论将决定这个宣称的可信度。

为什么这很重要

如果你在做AI应用,这件事的核心信号是:多模态代理的门槛正在从"模型能力"转向"工程整合"。英伟达用Nano Omni证明,300亿参数足够支撑实用的屏幕理解和语音交互,关键是怎么把感知和推理塞进同一个低延迟管道。

如果你在看AI基础设施的投资,注意这个趋势——芯片厂商正在用开源模型+微服务+边缘硬件的组合拳,重新定义"AI原生"的技术栈。英伟达不是唯一玩家,但它是第一个把"快"和"小"同时做成卖点的。

下一步值得跟踪的:实际部署中的延迟数字、与视觉专用模型的精度对比、以及开发者社区是否会围绕NIM微服务形成新的集成范式。5000万下载量是过去的成绩,Omni版本能贡献多少,三个月后的Hugging Face趋势榜会见分晓。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1942年,两任武工队长接连牺牲,八路军巧设圈套,揪出狡猾的内鬼

1942年,两任武工队长接连牺牲,八路军巧设圈套,揪出狡猾的内鬼

芳芳历史烩
2026-04-28 15:45:33
开拓者留不住!28岁内线再度打出身价,杨瀚森有望迎“上位”机会

开拓者留不住!28岁内线再度打出身价,杨瀚森有望迎“上位”机会

兵哥篮球故事
2026-04-29 17:20:20
斯诺克世锦赛1/4决赛前二阶段:赵心童8-8平墨菲,2杆破百5杆50+

斯诺克世锦赛1/4决赛前二阶段:赵心童8-8平墨菲,2杆破百5杆50+

侧身凌空斩
2026-04-29 05:19:11
毛主席和董必武各推荐一人进黄埔军校,1个流芳百世,1个遗臭万年

毛主席和董必武各推荐一人进黄埔军校,1个流芳百世,1个遗臭万年

品点历史
2026-04-22 06:00:14
特朗普:伊朗刚刚告知我们,他们已处于“崩溃状态”,希望美国尽快开放海峡!伊朗:通过霍尔木兹,须缴费并用波斯语通讯

特朗普:伊朗刚刚告知我们,他们已处于“崩溃状态”,希望美国尽快开放海峡!伊朗:通过霍尔木兹,须缴费并用波斯语通讯

每日经济新闻
2026-04-29 11:22:29
《亮剑》常乃超原型:战败自杀被救,没进功德林,竟获授我军军衔

《亮剑》常乃超原型:战败自杀被救,没进功德林,竟获授我军军衔

近史谈
2026-04-29 10:23:58
与13年意甲说再见 32岁迪巴拉今夏免签加盟博卡青年已达协议

与13年意甲说再见 32岁迪巴拉今夏免签加盟博卡青年已达协议

智道足球
2026-04-29 20:48:19
哈佛教授揭开7个健康谎言:你越努力锻炼,可能越走在错误的路上

哈佛教授揭开7个健康谎言:你越努力锻炼,可能越走在错误的路上

真相Truth
2026-04-26 21:51:51
以色列死局已定,无人能救!

以色列死局已定,无人能救!

大国观察眼
2026-04-28 06:05:05
卡塞米罗详解赛后落泪原因,道出曼联优于皇马之处!离队决定不改

卡塞米罗详解赛后落泪原因,道出曼联优于皇马之处!离队决定不改

罗米的曼联博客
2026-04-29 11:58:49
阿联酋通告美国,不答应条件就倒向中国,中东霸权从此终结?

阿联酋通告美国,不答应条件就倒向中国,中东霸权从此终结?

大光观察
2026-04-27 09:00:14
科技大厂,退出中国相关业务线!

科技大厂,退出中国相关业务线!

感知芯视界
2026-04-29 21:56:22
4.28中央政治局会议为当前股市、楼市与产业发展定调

4.28中央政治局会议为当前股市、楼市与产业发展定调

创作者_1505894802164
2026-04-29 21:47:18
亨利:整赛季阿森纳都没踢攻势足球,你指望战马竞能踢出来?

亨利:整赛季阿森纳都没踢攻势足球,你指望战马竞能踢出来?

懂球帝
2026-04-29 07:55:07
造假实锤!俄4次称占领卢甘斯克,实推仅300多平方公里?石油暴跌

造假实锤!俄4次称占领卢甘斯克,实推仅300多平方公里?石油暴跌

小涛叨叨
2026-04-28 17:31:49
难以置信!太原一女司机将轿车开上超高台阶从容淡定,一夜爆红了

难以置信!太原一女司机将轿车开上超高台阶从容淡定,一夜爆红了

火山詩话
2026-04-28 08:45:45
继续破纪录,72小时订单超10万:比亚迪大唐这次会动M9的蛋糕吗?

继续破纪录,72小时订单超10万:比亚迪大唐这次会动M9的蛋糕吗?

蓝色海边
2026-04-28 14:24:53
白宫刺杀案破了!凶手曝特朗普丑闻,尺度炸裂,特朗普紧急澄清

白宫刺杀案破了!凶手曝特朗普丑闻,尺度炸裂,特朗普紧急澄清

小兰聊历史
2026-04-29 12:46:36
陆毅嘴唇发紫去体检,50岁患高血压,看了他日常的三餐就知道原因

陆毅嘴唇发紫去体检,50岁患高血压,看了他日常的三餐就知道原因

做一个合格的吃瓜群众
2026-04-28 11:18:11
NBA敲定反摆烂方案!命名3-2-1乐透规则 将于2027年选秀生效

NBA敲定反摆烂方案!命名3-2-1乐透规则 将于2027年选秀生效

罗说NBA
2026-04-29 06:06:03
2026-04-29 22:35:00
Ping值焦虑
Ping值焦虑
有态度网友ytd
1860文章数 30关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

院长儿子被指"吃空饷"涉百万奖金 医院调查称其拿2万

头条要闻

院长儿子被指"吃空饷"涉百万奖金 医院调查称其拿2万

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

游戏
教育
房产
数码
军事航空

前巫师3总监新作 时限是剧情节点,之后仍可玩到通关

教育要闻

还得是青羊区啊!两年官宣6所新高中,个个来头不小

房产要闻

80亿投资!浙商总部基地+海口北站,金沙湾这是要起飞啊!

数码要闻

追觅推出空气炸锅F20:6L容量、1700W上下双热源,299元

军事要闻

美国参议院否决限制特朗普对古巴动武的决议

无障碍浏览 进入关怀版