![]()
智东西
作者 王涵
编辑 漠影
在AI快速渗透日常生活的当下,单一功能模型已经不能满足用户的日常所需,多功能模型成为主流趋势,也成为大模型厂商的“兵家必争之地”。
今日凌晨,全世界都在期待的Gemini 3重磅上线,一个模型就囊括了原生多模态、推理、Agent多种能力。
而在Gemini 3之前,11月18日,国产大模型厂商昆仑万维就发布了其轻量级多模态理解智能体Skywork R1V4-Lite。
Skywork R1V4-Lite是一款“能行动的”轻量级多模态智能体。它不仅能进行深度推理,还首次在同一模型中统一了主动图像操作、外部工具调用、多模态深度研究三大能力。
具体来说,Skywork R1V4-Lite有四大核心优势:
1. 随手拍解题,即时多模态感知的主动视觉操作;
2. 多模态深度研究,拥有轻量级搜索增强能力;
3. 看图即可规划,主动式多模态任务规划;
4. 小尺寸、快响应、低成本
针对其应用场景,智东西对R1V4-Lite进行了一个全方位的测评。与传统只能“看图回答”的模型不同,R1V4-Lite能够在真实场景中随手拍照即可完成复杂任务。
也就是说用户不需要设计提示词,不需要提供额外信息,只需拍一张图,R1V4-Lite就能自己观察、操作、推理并给出答案。
目前,R1V4-Lite已经上线,限时免费体验。
Skywork API平台:
https://platform.skyworkmodel.ai/
Skywork API接口文档:
https://docs.skyworkmodel.ai/r1v4/api-reference/completions.html
技术报告:
https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V4.pdf
Github地址:
https://github.com/SkyworkAI/Skywork-R1V
一、全面超越Gemini 2.5 Flash,R1V4-Lite用小尺寸“四两拨千斤”
R1V4-Lite继承了Qwen3 A3B轻量架构设计,通过模型优化,其在模型规模、推理速度与吞吐效率之间实现了微妙的工程平衡,让R1V4-Lite在真实生产环境中展现出超过同体量模型的性能表现。
响应速度上,R1V4-Lite仅为Gemini 2.5 Pro的1/19,约为Gemini 2.5 Flash的1/5。但其Token吞吐量则达到了Gemini 2.5 Pro/Flash的2倍左右。
依托更强的推理压缩能力与极低的工具调用轮次,R1V4-Lite的端到端完成能力比Gemini 2.5 Pro快2.9倍,比Gemini 2.5 Flash快1.7倍。
从基准测试上看,在多个权威视觉与感知基准上,R1V4-Lite在8个多模态理解基准评测上超过Gemini 2.5 Flash,其中5个任务上超过Gemini 2.5 Pro的水平。
![]()
在多模态DeepResearch类任务中,R1V4-Lite在mm-search上以66分超过Gemini 2.5 Flash的64.9分,在FVQA上以67分明显高于Gemini 2.5 Flash的60.8分。
这一系列结果验证了其「图像操作×深度推理交织训练」范式的有效性。
![]()
凭借“低延迟×高吞吐×极低成本”的组合优势, R1V4-Lite适用于:实时问答、视觉检索、智能助手、多模态工具调用、高并发等在线生产场景。
二、不止看图说话,给R1V4-Lite一张街景,就能分析出地点
如今,大多数多模态模型仍停留在“封闭式智能”阶段,即推理只发生在模型内部,既不能主动获取外部信息,也无法执行操作或验证结果,缺乏反馈时幻觉更容易出现。
与传统只能“看图回答”的模型不同,Skywork R1V4-Lite能够在真实场景中随手拍照就可以完成复杂任务。
也就是说,用户不需要设计提示词,不需要提供额外信息,只需拍一张图,R1V4-Lite就能自己观察、操作、推理并给出答案,找到用户想要的信息、完成用户的指令。
最近,第十五届全运会在在广东举行,全运会的吉祥物“喜洋洋”和“乐融融”凭借着可爱的外表和活泼童真的动作在全网爆火。
我在R1V4-Lite中上传了一张吉祥物的照片,要求他帮我裁剪出一个粉色的吉祥物,并且放大。
![]()
仅需数秒,R1V4-Lite便返回相关结果。值得关注的是,图片中包含多个粉色吉祥物,而R1V4-Lite精准筛选出身边未出现白色吉祥物的目标对象。
随后,我又上传了一张航拍场馆图,非常简短地问R1V4-Lite“这是哪里?”
![]()
从R1V4-Lite的回答汇总可以看到,其可以主动开展图像分析与信息提取,根据不同任务需求灵活调用图像搜索、文字搜索等工具,并结合网页搜索功能,最终输出准确且具备充分依据的答案。
三、 一边读图一边搜索,R1V4-Lite还能当“淘宝识图”
不仅如此,R1V4-Lite在联网搜索下会自动触发深度研究能力。
通过构建推理脚手架,R1V4-Lite能够与外部世界进行搜索、检索、比对等主动交互,进而触发搜索、检索、比对等多种外部资源交互,将搜索结果与视觉推理深度融合,形成“搜索—推理—验证”的闭环。模型由此获得跨模态、跨资源的知识扩展能力。
例如,我发给R1V4-Lite了一张电视剧海报,并提问:这是什么电视剧的海报,主演角色都有谁,什么时候开播,共有几集?
![]()
仅需数秒,R1V4-Lite 便主动完成图像信息识别,随即调取图像搜索工具,精准判定该海报为《唐朝诡事录之西行》相关物料。
后续其进一步调用文字搜索工具,基于从图像中提取的关键信息,从维基百科、百度百科等权威来源检索核实,最终完整回应了提问,整个过程流畅高效、精准可靠。
R1V4-Lite在回答时会主动提供信源链接供用户参考,基于这一优势,其同样可应用于“识图搜索”场景。
我上传了新生代演员王安宇的写真海报,先是提问 “图片中的男生是谁?”,同时要求获取该男生上身外套在淘宝及品牌官网的售卖链接。
![]()
这次任务复杂度更高,R1V4-Lite的回答耗时有所增加,但仍控制在1分钟左右。从结果来看,其不仅能主动调用对应工具推进任务执行,还具备报错后的自主调整能力。在遭遇回归报错时,R1V4-Lite可自行更改搜索路径重新尝试。
即便未能找到用户所需的特定售卖链接,其也会附上相关参考信息,保障回复的实用性。
四、 一句话帮你规划,R1V4-Lite还是你的“生活管家”
此外,R1V4-planner-lite还支持真正意义上的“主动式多模态Agentic规划”。
以单张图像为起点,该系统可自动构建可执行的多轮任务链,完成任务分解、工具选择、参数生成、执行顺序规划等核心动作。
这标志着模型实现了从传统“看图回答”到“看图行动”的跨越,首次具备视觉驱动的行动规划能力。
在此基础上,R1V4-Planner-Lite将规划能力延伸至系统级:模型会综合用户意图、上下文信息、可用工具及任务依赖关系,自动生成结构化执行方案,并以高可解释性的形式,明确每一步的工具选择、参数配置及核心目的,为Agentic智能提供了可控性、透明度与稳定性保障。
本次测试中,我未上传图片,而是直接向R1V4-Planner-Lite下达指令,要求其规划一条途经《唐朝诡事录之西行》取景地的旅行路线。
即便指令中未明确提及具体地名,其仍能精准理解需求,为用户制定出合理的旅行计划并推荐详细行程。
随后,我上传了一份体测报告,要求其据此生成健身计划。结果显示,R1V4-Planner-Lite 准确识别出体测指标中需提升的关键部分,并针对性地制定了完整的健身方案。
结语:昆仑万维用多模态新范式“以小博大”
体验下来最直观的感受就是:Skywork R1V4-Lite 实在太方便了。
虽然R1V4-Lite 本次是闭源发布,并未开源模型权重, 但其证明了——小模型也能很强,小模型也能很快,小模型也能多模态。
R1V4-Lite的成功不仅来自工程优化,更源自其背后的多模态新范式:图像操作×深度推理交织训练。这一训练路线让轻量模型具备跨模态推理、主动图像操作、任务规划与搜索增强的统一能力,展示了轻量多模态智能体的全新可能性。
这一结果进一步说明:能力密度比参数规模更重要,小模型也能逼近闭源模型的真实表现。
在 AI 实用化需求不断增强的当下,昆仑万维通过高频节奏的技术发布,持续将新能力输送到产业侧,推动多模态 AI 更快地渗透到日常工作与生活中。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.