网易首页 > 网易号 > 正文 申请入驻

别只盯着Gemini 3!这款国产模型提前实现“随手拍解题”,速度超Gemini 2.5 Flash五倍

0
分享至


智东西
作者 王涵
编辑 漠影

在AI快速渗透日常生活的当下,单一功能模型已经不能满足用户的日常所需,多功能模型成为主流趋势,也成为大模型厂商的“兵家必争之地”。

今日凌晨,全世界都在期待的Gemini 3重磅上线,一个模型就囊括了原生多模态、推理、Agent多种能力。

而在Gemini 3之前,11月18日,国产大模型厂商昆仑万维就发布了其轻量级多模态理解智能体Skywork R1V4-Lite

Skywork R1V4-Lite是一款“能行动的”轻量级多模态智能体。它不仅能进行深度推理,还首次在同一模型中统一了主动图像操作、外部工具调用、多模态深度研究三大能力。

具体来说,Skywork R1V4-Lite有四大核心优势:

1. 随手拍解题,即时多模态感知的主动视觉操作;

2. 多模态深度研究,拥有轻量级搜索增强能力;

3. 看图即可规划,主动式多模态任务规划;

4. 小尺寸、快响应、低成本

针对其应用场景,智东西对R1V4-Lite进行了一个全方位的测评。与传统只能“看图回答”的模型不同,R1V4-Lite能够在真实场景中随手拍照即可完成复杂任务。

也就是说用户不需要设计提示词,不需要提供额外信息,只需拍一张图,R1V4-Lite就能自己观察、操作、推理并给出答案。

目前,R1V4-Lite已经上线,限时免费体验。

Skywork API平台:

https://platform.skyworkmodel.ai/

Skywork API接口文档:

https://docs.skyworkmodel.ai/r1v4/api-reference/completions.html

技术报告:

https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V4.pdf

Github地址:

https://github.com/SkyworkAI/Skywork-R1V

一、全面超越Gemini 2.5 Flash,R1V4-Lite用小尺寸“四两拨千斤”

R1V4-Lite继承了Qwen3 A3B轻量架构设计,通过模型优化,其在模型规模、推理速度与吞吐效率之间实现了微妙的工程平衡,让R1V4-Lite在真实生产环境中展现出超过同体量模型的性能表现。

响应速度上,R1V4-Lite仅为Gemini 2.5 Pro的1/19,约为Gemini 2.5 Flash的1/5。但其Token吞吐量则达到了Gemini 2.5 Pro/Flash的2倍左右。

依托更强的推理压缩能力与极低的工具调用轮次,R1V4-Lite的端到端完成能力比Gemini 2.5 Pro快2.9倍,比Gemini 2.5 Flash快1.7倍

从基准测试上看,在多个权威视觉与感知基准上,R1V4-Lite在8个多模态理解基准评测上超过Gemini 2.5 Flash,其中5个任务上超过Gemini 2.5 Pro的水平。


在多模态DeepResearch类任务中,R1V4-Lite在mm-search上以66分超过Gemini 2.5 Flash的64.9分,在FVQA上以67分明显高于Gemini 2.5 Flash的60.8分。

这一系列结果验证了其「图像操作×深度推理交织训练」范式的有效性。


凭借“低延迟×高吞吐×极低成本”的组合优势, R1V4-Lite适用于:实时问答、视觉检索、智能助手、多模态工具调用、高并发等在线生产场景。

二、不止看图说话,给R1V4-Lite一张街景,就能分析出地点

如今,大多数多模态模型仍停留在“封闭式智能”阶段,即推理只发生在模型内部,既不能主动获取外部信息,也无法执行操作或验证结果,缺乏反馈时幻觉更容易出现。

与传统只能“看图回答”的模型不同,Skywork R1V4-Lite能够在真实场景中随手拍照就可以完成复杂任务。

也就是说,用户不需要设计提示词,不需要提供额外信息,只需拍一张图,R1V4-Lite就能自己观察、操作、推理并给出答案,找到用户想要的信息、完成用户的指令。

最近,第十五届全运会在在广东举行,全运会的吉祥物“喜洋洋”和“乐融融”凭借着可爱的外表和活泼童真的动作在全网爆火。

我在R1V4-Lite中上传了一张吉祥物的照片,要求他帮我裁剪出一个粉色的吉祥物,并且放大。


仅需数秒,R1V4-Lite便返回相关结果。值得关注的是,图片中包含多个粉色吉祥物,而R1V4-Lite精准筛选出身边未出现白色吉祥物的目标对象。

随后,我又上传了一张航拍场馆图,非常简短地问R1V4-Lite“这是哪里?”


从R1V4-Lite的回答汇总可以看到,其可以主动开展图像分析与信息提取,根据不同任务需求灵活调用图像搜索、文字搜索等工具,并结合网页搜索功能,最终输出准确且具备充分依据的答案。


三、 一边读图一边搜索,R1V4-Lite还能当“淘宝识图”

不仅如此,R1V4-Lite在联网搜索下会自动触发深度研究能力

通过构建推理脚手架,R1V4-Lite能够与外部世界进行搜索、检索、比对等主动交互,进而触发搜索、检索、比对等多种外部资源交互,将搜索结果与视觉推理深度融合,形成“搜索—推理—验证”的闭环。模型由此获得跨模态、跨资源的知识扩展能力。

例如,我发给R1V4-Lite了一张电视剧海报,并提问:这是什么电视剧的海报,主演角色都有谁,什么时候开播,共有几集?


仅需数秒,R1V4-Lite 便主动完成图像信息识别,随即调取图像搜索工具,精准判定该海报为《唐朝诡事录之西行》相关物料。

后续其进一步调用文字搜索工具,基于从图像中提取的关键信息,从维基百科、百度百科等权威来源检索核实,最终完整回应了提问,整个过程流畅高效、精准可靠。

R1V4-Lite在回答时会主动提供信源链接供用户参考,基于这一优势,其同样可应用于“识图搜索”场景。

我上传了新生代演员王安宇的写真海报,先是提问 “图片中的男生是谁?”,同时要求获取该男生上身外套在淘宝及品牌官网的售卖链接。


这次任务复杂度更高,R1V4-Lite的回答耗时有所增加,但仍控制在1分钟左右。从结果来看,其不仅能主动调用对应工具推进任务执行,还具备报错后的自主调整能力。在遭遇回归报错时,R1V4-Lite可自行更改搜索路径重新尝试。

即便未能找到用户所需的特定售卖链接,其也会附上相关参考信息,保障回复的实用性。


四、 一句话帮你规划,R1V4-Lite还是你的“生活管家”

此外,R1V4-planner-lite还支持真正意义上的“主动式多模态Agentic规划”

以单张图像为起点,该系统可自动构建可执行的多轮任务链,完成任务分解、工具选择、参数生成、执行顺序规划等核心动作。

这标志着模型实现了从传统“看图回答”到“看图行动”的跨越,首次具备视觉驱动的行动规划能力

在此基础上,R1V4-Planner-Lite将规划能力延伸至系统级:模型会综合用户意图、上下文信息、可用工具及任务依赖关系,自动生成结构化执行方案,并以高可解释性的形式,明确每一步的工具选择、参数配置及核心目的,为Agentic智能提供了可控性、透明度与稳定性保障。

本次测试中,我未上传图片,而是直接向R1V4-Planner-Lite下达指令,要求其规划一条途经《唐朝诡事录之西行》取景地的旅行路线。

即便指令中未明确提及具体地名,其仍能精准理解需求,为用户制定出合理的旅行计划并推荐详细行程。

随后,我上传了一份体测报告,要求其据此生成健身计划。结果显示,R1V4-Planner-Lite 准确识别出体测指标中需提升的关键部分,并针对性地制定了完整的健身方案。


结语:昆仑万维用多模态新范式“以小博大”

体验下来最直观的感受就是:Skywork R1V4-Lite 实在太方便了。

虽然R1V4-Lite 本次是闭源发布,并未开源模型权重, 但其证明了——小模型也能很强,小模型也能很快,小模型也能多模态。

R1V4-Lite的成功不仅来自工程优化,更源自其背后的多模态新范式:图像操作×深度推理交织训练。这一训练路线让轻量模型具备跨模态推理、主动图像操作、任务规划与搜索增强的统一能力,展示了轻量多模态智能体的全新可能性。

这一结果进一步说明:能力密度比参数规模更重要,小模型也能逼近闭源模型的真实表现。

在 AI 实用化需求不断增强的当下,昆仑万维通过高频节奏的技术发布,持续将新能力输送到产业侧,推动多模态 AI 更快地渗透到日常工作与生活中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
15号模特广东冠军后续:一身赘肉是何来头?最新回应:会给交代!

15号模特广东冠军后续:一身赘肉是何来头?最新回应:会给交代!

阿纂看事
2025-11-19 09:07:36
10余名台湾同胞在意大利餐厅点5份披萨遭老板讽刺,当地华人团结反击致闭门歇业,旅行团:一共13个人,还点了多杯饮料

10余名台湾同胞在意大利餐厅点5份披萨遭老板讽刺,当地华人团结反击致闭门歇业,旅行团:一共13个人,还点了多杯饮料

极目新闻
2025-11-19 15:35:21
朝鲜代表联大发言炮轰日本:日本没有资格和理由觊觎安理会常任理事国席位;此前高市早苗在日本侵略战争、参拜靖国神社等问题上屡触碰红线

朝鲜代表联大发言炮轰日本:日本没有资格和理由觊觎安理会常任理事国席位;此前高市早苗在日本侵略战争、参拜靖国神社等问题上屡触碰红线

极目新闻
2025-11-19 13:18:23
11月,深圳又一家精密大厂宣布停止经营了

11月,深圳又一家精密大厂宣布停止经营了

微微热评
2025-11-19 13:44:44
可耻的是,捅郭伟马蜂窝的是个学生

可耻的是,捅郭伟马蜂窝的是个学生

关尔东
2025-11-19 17:13:25
太及时了!防止规模性返乡滞乡,农民工的工作“出口”是关键

太及时了!防止规模性返乡滞乡,农民工的工作“出口”是关键

火山诗话
2025-11-18 09:14:18
认可两岸统一?民进党破天荒喊话大陆:你大,我小,大的该让小的

认可两岸统一?民进党破天荒喊话大陆:你大,我小,大的该让小的

通文知史
2025-11-19 20:30:03
特朗普不见高市,美军也撤了,解放军面朝日本,连续8天实弹演习

特朗普不见高市,美军也撤了,解放军面朝日本,连续8天实弹演习

时时有聊
2025-11-19 16:51:16
陈梦:没想到能进决赛甚至冠军,健康完赛是队伍对我的最大愿望

陈梦:没想到能进决赛甚至冠军,健康完赛是队伍对我的最大愿望

懂球帝
2025-11-19 22:50:07
高建民同志逝世,中央有关领导同志以不同方式表示哀悼

高建民同志逝世,中央有关领导同志以不同方式表示哀悼

新京报
2025-11-19 19:41:30
江青被捕4年后,邓小平从电视屏幕中见到了她:久违了,江青女士

江青被捕4年后,邓小平从电视屏幕中见到了她:久违了,江青女士

大运河时空
2025-11-19 22:00:02
“地表最强小三”!48岁拿下百亿老头却说:我对钱根本没兴趣

“地表最强小三”!48岁拿下百亿老头却说:我对钱根本没兴趣

君笙的拂兮
2025-11-19 01:39:45
浙江16岁小将陈妤颉夺女子200米冠军,成为本届全运会双冠王

浙江16岁小将陈妤颉夺女子200米冠军,成为本届全运会双冠王

懂球帝
2025-11-19 20:44:03
荷兰退出干预,将公司控制权归还中国母公司,但还留了个尾巴

荷兰退出干预,将公司控制权归还中国母公司,但还留了个尾巴

潮鹿逐梦
2025-11-19 20:50:02
100米栏悲喜夜:3人打开13秒!吴艳妮第2夏思凝第4,广东名将夺冠

100米栏悲喜夜:3人打开13秒!吴艳妮第2夏思凝第4,广东名将夺冠

球场没跑道
2025-11-19 21:33:01
特斯拉起诉30多家中国公司!

特斯拉起诉30多家中国公司!

鞭牛士
2025-11-19 21:15:57
又一百年巨头塌了!从技术神话到贴牌代工,网友:买了个牌子壳!

又一百年巨头塌了!从技术神话到贴牌代工,网友:买了个牌子壳!

青眼财经
2025-11-18 23:16:47
10个月违法赚近9000万,最终被罚1.77亿!涉事人疑是DeepSeek创始人旗下公司核心员工

10个月违法赚近9000万,最终被罚1.77亿!涉事人疑是DeepSeek创始人旗下公司核心员工

可达鸭面面观
2025-11-19 08:59:19
中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

新浪财经
2025-11-18 12:46:38
吴艳妮哭成泪人!颁奖典礼掩面痛哭,三届全运会无缘金牌

吴艳妮哭成泪人!颁奖典礼掩面痛哭,三届全运会无缘金牌

奥拜尔
2025-11-19 22:57:40
2025-11-20 05:03:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10762文章数 116905关注度
往期回顾 全部

数码要闻

统一文件管理:华为MatePad Edge平板/电脑模式共用应用数据

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

健康
时尚
亲子
教育
艺术

警惕超声报告这六大"坑"

辛芷蕾的炸裂10分钟,让人大受震撼

亲子要闻

爸爸就是最大的危险

教育要闻

lsa伦敦占星学院是什么

艺术要闻

惊呆了!外国画家如何颠覆水浒108将的形象?

无障碍浏览 进入关怀版