网易首页 > 网易号 > 正文 申请入驻

别只盯着Gemini 3!这款国产模型提前实现“随手拍解题”,速度超Gemini 2.5 Flash五倍

0
分享至


智东西
作者 王涵
编辑 漠影

在AI快速渗透日常生活的当下,单一功能模型已经不能满足用户的日常所需,多功能模型成为主流趋势,也成为大模型厂商的“兵家必争之地”。

今日凌晨,全世界都在期待的Gemini 3重磅上线,一个模型就囊括了原生多模态、推理、Agent多种能力。

而在Gemini 3之前,11月18日,国产大模型厂商昆仑万维就发布了其轻量级多模态理解智能体Skywork R1V4-Lite

Skywork R1V4-Lite是一款“能行动的”轻量级多模态智能体。它不仅能进行深度推理,还首次在同一模型中统一了主动图像操作、外部工具调用、多模态深度研究三大能力。

具体来说,Skywork R1V4-Lite有四大核心优势:

1. 随手拍解题,即时多模态感知的主动视觉操作;

2. 多模态深度研究,拥有轻量级搜索增强能力;

3. 看图即可规划,主动式多模态任务规划;

4. 小尺寸、快响应、低成本

针对其应用场景,智东西对R1V4-Lite进行了一个全方位的测评。与传统只能“看图回答”的模型不同,R1V4-Lite能够在真实场景中随手拍照即可完成复杂任务。

也就是说用户不需要设计提示词,不需要提供额外信息,只需拍一张图,R1V4-Lite就能自己观察、操作、推理并给出答案。

目前,R1V4-Lite已经上线,限时免费体验。

Skywork API平台:

https://platform.skyworkmodel.ai/

Skywork API接口文档:

https://docs.skyworkmodel.ai/r1v4/api-reference/completions.html

技术报告:

https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V4.pdf

Github地址:

https://github.com/SkyworkAI/Skywork-R1V

一、全面超越Gemini 2.5 Flash,R1V4-Lite用小尺寸“四两拨千斤”

R1V4-Lite继承了Qwen3 A3B轻量架构设计,通过模型优化,其在模型规模、推理速度与吞吐效率之间实现了微妙的工程平衡,让R1V4-Lite在真实生产环境中展现出超过同体量模型的性能表现。

响应速度上,R1V4-Lite仅为Gemini 2.5 Pro的1/19,约为Gemini 2.5 Flash的1/5。但其Token吞吐量则达到了Gemini 2.5 Pro/Flash的2倍左右。

依托更强的推理压缩能力与极低的工具调用轮次,R1V4-Lite的端到端完成能力比Gemini 2.5 Pro快2.9倍,比Gemini 2.5 Flash快1.7倍

从基准测试上看,在多个权威视觉与感知基准上,R1V4-Lite在8个多模态理解基准评测上超过Gemini 2.5 Flash,其中5个任务上超过Gemini 2.5 Pro的水平。


在多模态DeepResearch类任务中,R1V4-Lite在mm-search上以66分超过Gemini 2.5 Flash的64.9分,在FVQA上以67分明显高于Gemini 2.5 Flash的60.8分。

这一系列结果验证了其「图像操作×深度推理交织训练」范式的有效性。


凭借“低延迟×高吞吐×极低成本”的组合优势, R1V4-Lite适用于:实时问答、视觉检索、智能助手、多模态工具调用、高并发等在线生产场景。

二、不止看图说话,给R1V4-Lite一张街景,就能分析出地点

如今,大多数多模态模型仍停留在“封闭式智能”阶段,即推理只发生在模型内部,既不能主动获取外部信息,也无法执行操作或验证结果,缺乏反馈时幻觉更容易出现。

与传统只能“看图回答”的模型不同,Skywork R1V4-Lite能够在真实场景中随手拍照就可以完成复杂任务。

也就是说,用户不需要设计提示词,不需要提供额外信息,只需拍一张图,R1V4-Lite就能自己观察、操作、推理并给出答案,找到用户想要的信息、完成用户的指令。

最近,第十五届全运会在在广东举行,全运会的吉祥物“喜洋洋”和“乐融融”凭借着可爱的外表和活泼童真的动作在全网爆火。

我在R1V4-Lite中上传了一张吉祥物的照片,要求他帮我裁剪出一个粉色的吉祥物,并且放大。


仅需数秒,R1V4-Lite便返回相关结果。值得关注的是,图片中包含多个粉色吉祥物,而R1V4-Lite精准筛选出身边未出现白色吉祥物的目标对象。

随后,我又上传了一张航拍场馆图,非常简短地问R1V4-Lite“这是哪里?”


从R1V4-Lite的回答汇总可以看到,其可以主动开展图像分析与信息提取,根据不同任务需求灵活调用图像搜索、文字搜索等工具,并结合网页搜索功能,最终输出准确且具备充分依据的答案。


三、 一边读图一边搜索,R1V4-Lite还能当“淘宝识图”

不仅如此,R1V4-Lite在联网搜索下会自动触发深度研究能力

通过构建推理脚手架,R1V4-Lite能够与外部世界进行搜索、检索、比对等主动交互,进而触发搜索、检索、比对等多种外部资源交互,将搜索结果与视觉推理深度融合,形成“搜索—推理—验证”的闭环。模型由此获得跨模态、跨资源的知识扩展能力。

例如,我发给R1V4-Lite了一张电视剧海报,并提问:这是什么电视剧的海报,主演角色都有谁,什么时候开播,共有几集?


仅需数秒,R1V4-Lite 便主动完成图像信息识别,随即调取图像搜索工具,精准判定该海报为《唐朝诡事录之西行》相关物料。

后续其进一步调用文字搜索工具,基于从图像中提取的关键信息,从维基百科、百度百科等权威来源检索核实,最终完整回应了提问,整个过程流畅高效、精准可靠。

R1V4-Lite在回答时会主动提供信源链接供用户参考,基于这一优势,其同样可应用于“识图搜索”场景。

我上传了新生代演员王安宇的写真海报,先是提问 “图片中的男生是谁?”,同时要求获取该男生上身外套在淘宝及品牌官网的售卖链接。


这次任务复杂度更高,R1V4-Lite的回答耗时有所增加,但仍控制在1分钟左右。从结果来看,其不仅能主动调用对应工具推进任务执行,还具备报错后的自主调整能力。在遭遇回归报错时,R1V4-Lite可自行更改搜索路径重新尝试。

即便未能找到用户所需的特定售卖链接,其也会附上相关参考信息,保障回复的实用性。


四、 一句话帮你规划,R1V4-Lite还是你的“生活管家”

此外,R1V4-planner-lite还支持真正意义上的“主动式多模态Agentic规划”

以单张图像为起点,该系统可自动构建可执行的多轮任务链,完成任务分解、工具选择、参数生成、执行顺序规划等核心动作。

这标志着模型实现了从传统“看图回答”到“看图行动”的跨越,首次具备视觉驱动的行动规划能力

在此基础上,R1V4-Planner-Lite将规划能力延伸至系统级:模型会综合用户意图、上下文信息、可用工具及任务依赖关系,自动生成结构化执行方案,并以高可解释性的形式,明确每一步的工具选择、参数配置及核心目的,为Agentic智能提供了可控性、透明度与稳定性保障。

本次测试中,我未上传图片,而是直接向R1V4-Planner-Lite下达指令,要求其规划一条途经《唐朝诡事录之西行》取景地的旅行路线。

即便指令中未明确提及具体地名,其仍能精准理解需求,为用户制定出合理的旅行计划并推荐详细行程。

随后,我上传了一份体测报告,要求其据此生成健身计划。结果显示,R1V4-Planner-Lite 准确识别出体测指标中需提升的关键部分,并针对性地制定了完整的健身方案。


结语:昆仑万维用多模态新范式“以小博大”

体验下来最直观的感受就是:Skywork R1V4-Lite 实在太方便了。

虽然R1V4-Lite 本次是闭源发布,并未开源模型权重, 但其证明了——小模型也能很强,小模型也能很快,小模型也能多模态。

R1V4-Lite的成功不仅来自工程优化,更源自其背后的多模态新范式:图像操作×深度推理交织训练。这一训练路线让轻量模型具备跨模态推理、主动图像操作、任务规划与搜索增强的统一能力,展示了轻量多模态智能体的全新可能性。

这一结果进一步说明:能力密度比参数规模更重要,小模型也能逼近闭源模型的真实表现。

在 AI 实用化需求不断增强的当下,昆仑万维通过高频节奏的技术发布,持续将新能力输送到产业侧,推动多模态 AI 更快地渗透到日常工作与生活中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全运会乒乓:山东女团陈梦3-2险胜河北夺冠,孙颖莎获亚军

全运会乒乓:山东女团陈梦3-2险胜河北夺冠,孙颖莎获亚军

凡人说体育
2025-11-19 22:39:02
面子里子都丢了!离婚半月前妻爆料调解细节,撕下猴哥仅剩的体面

面子里子都丢了!离婚半月前妻爆料调解细节,撕下猴哥仅剩的体面

千言娱乐记
2025-10-23 21:21:23
联合国回应高市早苗言论

联合国回应高市早苗言论

每日经济新闻
2025-11-18 14:17:06
俄罗斯专家:日本为何敢一直挑衅中国,就是对日本太客气了

俄罗斯专家:日本为何敢一直挑衅中国,就是对日本太客气了

文史旺旺旺
2025-11-18 20:18:12
搞笑图片第1061期:小孩哥:巴山楚水凄凉地 cos love摔死me

搞笑图片第1061期:小孩哥:巴山楚水凄凉地 cos love摔死me

今天的快乐
2025-11-18 21:04:04
1951年陈毅处置黄金荣的方法,蒋介石知悉后直呼:太高明、比不上

1951年陈毅处置黄金荣的方法,蒋介石知悉后直呼:太高明、比不上

诡谲怪谈
2025-03-13 21:09:07
78岁北京大爷赴四川寻找失散60年的初恋,仅一眼,他便狠扇自己耳光

78岁北京大爷赴四川寻找失散60年的初恋,仅一眼,他便狠扇自己耳光

如烟若梦
2025-10-30 16:10:24
C罗开怀大笑!在总统走廊与特朗普散步,白宫晒视频:两位GOAT

C罗开怀大笑!在总统走廊与特朗普散步,白宫晒视频:两位GOAT

奥拜尔
2025-11-19 22:29:03
全运乒乓球男团决赛:北京VS上海,许昕马龙谢幕,樊振东战王楚钦

全运乒乓球男团决赛:北京VS上海,许昕马龙谢幕,樊振东战王楚钦

体育大学僧
2025-11-19 11:36:21
贵州一家四口食用野生菌中毒,5岁女童不幸身亡,医院:系自采食用鹅膏菌

贵州一家四口食用野生菌中毒,5岁女童不幸身亡,医院:系自采食用鹅膏菌

新京报
2025-11-19 15:10:47
不出意外的话!苏林会成为第二个黎笋

不出意外的话!苏林会成为第二个黎笋

近史谈
2025-11-02 18:54:35
仅10秒!东莞一公司着火,一员工折返拿手机错失最佳逃生时机!

仅10秒!东莞一公司着火,一员工折返拿手机错失最佳逃生时机!

广东活动
2025-11-19 12:15:17
100万买辆奔驰,三包期内斜拉臂、调节旋钮相继断裂 厂家以“外力”拒保引车主质疑

100万买辆奔驰,三包期内斜拉臂、调节旋钮相继断裂 厂家以“外力”拒保引车主质疑

大风新闻
2025-11-19 17:02:04
蒋介石心腹与我党有血海深仇,被俘后毛主席:不能杀,送到我这里

蒋介石心腹与我党有血海深仇,被俘后毛主席:不能杀,送到我这里

大运河时空
2025-11-18 22:00:03
张天爱凶猛的身材很漂亮

张天爱凶猛的身材很漂亮

TVB的四小花
2025-11-19 09:42:15
美股大型科技股开盘普涨

美股大型科技股开盘普涨

第一财经资讯
2025-11-19 23:10:27
不少网友拿出态度,宣布退票取消赴日旅游

不少网友拿出态度,宣布退票取消赴日旅游

映射生活的身影
2025-11-16 14:56:58
比亚迪大唐要来了,车长超5.2米,宽2米,还有更高端技术加持

比亚迪大唐要来了,车长超5.2米,宽2米,还有更高端技术加持

趣味萌宠的日常
2025-11-18 14:24:43
勇士官方祝贺!库里总分超卡特升历史第22 现役第5仅输詹杜登威

勇士官方祝贺!库里总分超卡特升历史第22 现役第5仅输詹杜登威

醉卧浮生
2025-11-19 09:28:02
站着的霍金,罕见的李嘉诚,20岁的屠呦呦,这是朋友圈最珍贵的照片

站着的霍金,罕见的李嘉诚,20岁的屠呦呦,这是朋友圈最珍贵的照片

空间设计
2025-11-09 12:15:02
2025-11-20 00:11:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10762文章数 116904关注度
往期回顾 全部

数码要闻

猫头鹰黑化版散热器风扇来袭

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

数码
游戏
家居
艺术
公开课

数码要闻

华为MatePad Edge现场体验丨鸿蒙二合一平板电脑

《33号远征队》总监大力称赞《失落的奥德赛》

家居要闻

水岸美学 书香人文生活

艺术要闻

启功:我是画家,但书名超过了画名

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版