别只盯着Gemini 3！这款国产模型提前实现“随手拍解题”，速度超Gemini 2.5 Flash五倍|模态|调用|推理|智能体|新模型|flash

别只盯着Gemini 3！这款国产模型提前实现“随手拍解题”，速度超Gemini 2.5 Flash五倍

2025-11-19 20:01:12　来源: 智东西

北京举报

分享至

智东西
作者王涵
编辑漠影

在AI快速渗透日常生活的当下，单一功能模型已经不能满足用户的日常所需，多功能模型成为主流趋势，也成为大模型厂商的“兵家必争之地”。

今日凌晨，全世界都在期待的Gemini 3重磅上线，一个模型就囊括了原生多模态、推理、Agent多种能力。

而在Gemini 3之前，11月18日，国产大模型厂商昆仑万维就发布了其轻量级多模态理解智能体Skywork R1V4-Lite。

Skywork R1V4-Lite是一款“能行动的”轻量级多模态智能体。它不仅能进行深度推理，还首次在同一模型中统一了主动图像操作、外部工具调用、多模态深度研究三大能力。

具体来说，Skywork R1V4-Lite有四大核心优势：

1. 随手拍解题，即时多模态感知的主动视觉操作；

2. 多模态深度研究，拥有轻量级搜索增强能力；

3. 看图即可规划，主动式多模态任务规划；

4. 小尺寸、快响应、低成本

针对其应用场景，智东西对R1V4-Lite进行了一个全方位的测评。与传统只能“看图回答”的模型不同，R1V4-Lite能够在真实场景中随手拍照即可完成复杂任务。

也就是说用户不需要设计提示词，不需要提供额外信息，只需拍一张图，R1V4-Lite就能自己观察、操作、推理并给出答案。

目前，R1V4-Lite已经上线，限时免费体验。

Skywork API平台：

https://platform.skyworkmodel.ai/

Skywork API接口文档：

https://docs.skyworkmodel.ai/r1v4/api-reference/completions.html

技术报告：

https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V4.pdf

Github地址：

https://github.com/SkyworkAI/Skywork-R1V

一、全面超越Gemini 2.5 Flash，R1V4-Lite用小尺寸“四两拨千斤”

R1V4-Lite继承了Qwen3 A3B轻量架构设计，通过模型优化，其在模型规模、推理速度与吞吐效率之间实现了微妙的工程平衡，让R1V4-Lite在真实生产环境中展现出超过同体量模型的性能表现。

响应速度上，R1V4-Lite仅为Gemini 2.5 Pro的1/19，约为Gemini 2.5 Flash的1/5。但其Token吞吐量则达到了Gemini 2.5 Pro/Flash的2倍左右。

依托更强的推理压缩能力与极低的工具调用轮次，R1V4-Lite的端到端完成能力比Gemini 2.5 Pro快2.9倍，比Gemini 2.5 Flash快1.7倍。

从基准测试上看，在多个权威视觉与感知基准上，R1V4-Lite在8个多模态理解基准评测上超过Gemini 2.5 Flash，其中5个任务上超过Gemini 2.5 Pro的水平。

在多模态DeepResearch类任务中，R1V4-Lite在mm-search上以66分超过Gemini 2.5 Flash的64.9分，在FVQA上以67分明显高于Gemini 2.5 Flash的60.8分。

这一系列结果验证了其「图像操作×深度推理交织训练」范式的有效性。

凭借“低延迟×高吞吐×极低成本”的组合优势， R1V4-Lite适用于：实时问答、视觉检索、智能助手、多模态工具调用、高并发等在线生产场景。

二、不止看图说话，给R1V4-Lite一张街景，就能分析出地点

如今，大多数多模态模型仍停留在“封闭式智能”阶段，即推理只发生在模型内部，既不能主动获取外部信息，也无法执行操作或验证结果，缺乏反馈时幻觉更容易出现。

与传统只能“看图回答”的模型不同，Skywork R1V4-Lite能够在真实场景中随手拍照就可以完成复杂任务。

也就是说，用户不需要设计提示词，不需要提供额外信息，只需拍一张图，R1V4-Lite就能自己观察、操作、推理并给出答案，找到用户想要的信息、完成用户的指令。

最近，第十五届全运会在在广东举行，全运会的吉祥物“喜洋洋”和“乐融融”凭借着可爱的外表和活泼童真的动作在全网爆火。

我在R1V4-Lite中上传了一张吉祥物的照片，要求他帮我裁剪出一个粉色的吉祥物，并且放大。

仅需数秒，R1V4-Lite便返回相关结果。值得关注的是，图片中包含多个粉色吉祥物，而R1V4-Lite精准筛选出身边未出现白色吉祥物的目标对象。

随后，我又上传了一张航拍场馆图，非常简短地问R1V4-Lite“这是哪里？”

从R1V4-Lite的回答汇总可以看到，其可以主动开展图像分析与信息提取，根据不同任务需求灵活调用图像搜索、文字搜索等工具，并结合网页搜索功能，最终输出准确且具备充分依据的答案。

三、一边读图一边搜索，R1V4-Lite还能当“淘宝识图”

不仅如此，R1V4-Lite在联网搜索下会自动触发深度研究能力。

通过构建推理脚手架，R1V4-Lite能够与外部世界进行搜索、检索、比对等主动交互，进而触发搜索、检索、比对等多种外部资源交互，将搜索结果与视觉推理深度融合，形成“搜索—推理—验证”的闭环。模型由此获得跨模态、跨资源的知识扩展能力。

例如，我发给R1V4-Lite了一张电视剧海报，并提问：这是什么电视剧的海报，主演角色都有谁，什么时候开播，共有几集？

仅需数秒，R1V4-Lite 便主动完成图像信息识别，随即调取图像搜索工具，精准判定该海报为《唐朝诡事录之西行》相关物料。

后续其进一步调用文字搜索工具，基于从图像中提取的关键信息，从维基百科、百度百科等权威来源检索核实，最终完整回应了提问，整个过程流畅高效、精准可靠。

R1V4-Lite在回答时会主动提供信源链接供用户参考，基于这一优势，其同样可应用于“识图搜索”场景。

我上传了新生代演员王安宇的写真海报，先是提问 “图片中的男生是谁？”，同时要求获取该男生上身外套在淘宝及品牌官网的售卖链接。

这次任务复杂度更高，R1V4-Lite的回答耗时有所增加，但仍控制在1分钟左右。从结果来看，其不仅能主动调用对应工具推进任务执行，还具备报错后的自主调整能力。在遭遇回归报错时，R1V4-Lite可自行更改搜索路径重新尝试。

即便未能找到用户所需的特定售卖链接，其也会附上相关参考信息，保障回复的实用性。

四、一句话帮你规划，R1V4-Lite还是你的“生活管家”

此外，R1V4-planner-lite还支持真正意义上的“主动式多模态Agentic规划”。

以单张图像为起点，该系统可自动构建可执行的多轮任务链，完成任务分解、工具选择、参数生成、执行顺序规划等核心动作。

这标志着模型实现了从传统“看图回答”到“看图行动”的跨越，首次具备视觉驱动的行动规划能力。

在此基础上，R1V4-Planner-Lite将规划能力延伸至系统级：模型会综合用户意图、上下文信息、可用工具及任务依赖关系，自动生成结构化执行方案，并以高可解释性的形式，明确每一步的工具选择、参数配置及核心目的，为Agentic智能提供了可控性、透明度与稳定性保障。

本次测试中，我未上传图片，而是直接向R1V4-Planner-Lite下达指令，要求其规划一条途经《唐朝诡事录之西行》取景地的旅行路线。

即便指令中未明确提及具体地名，其仍能精准理解需求，为用户制定出合理的旅行计划并推荐详细行程。

随后，我上传了一份体测报告，要求其据此生成健身计划。结果显示，R1V4-Planner-Lite 准确识别出体测指标中需提升的关键部分，并针对性地制定了完整的健身方案。

结语：昆仑万维用多模态新范式“以小博大”

体验下来最直观的感受就是：Skywork R1V4-Lite 实在太方便了。

虽然R1V4-Lite 本次是闭源发布，并未开源模型权重，但其证明了——小模型也能很强，小模型也能很快，小模型也能多模态。

R1V4-Lite的成功不仅来自工程优化，更源自其背后的多模态新范式：图像操作×深度推理交织训练。这一训练路线让轻量模型具备跨模态推理、主动图像操作、任务规划与搜索增强的统一能力，展示了轻量多模态智能体的全新可能性。

这一结果进一步说明：能力密度比参数规模更重要，小模型也能逼近闭源模型的真实表现。

在 AI 实用化需求不断增强的当下，昆仑万维通过高频节奏的技术发布，持续将新能力输送到产业侧，推动多模态 AI 更快地渗透到日常工作与生活中。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

别只盯着Gemini 3！这款国产模型提前实现“随手拍解题”，速度超Gemini 2.5 Flash五倍

猫头鹰黑化版散热器风扇来袭

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

世界杯最小参赛国诞生！15万人岛国的奇迹

史林子出轨对方前妻放锤！

重磅！中金公司拟收购东兴与信达证券

一夜封神，Gemini 3让谷歌找回“碾压感”

此刻价格不重要 第5代帝豪本身就是价值

态度原创

华为MatePad Edge现场体验丨鸿蒙二合一平板电脑

《33号远征队》总监大力称赞《失落的奥德赛》

水岸美学 书香人文生活

启功：我是画家，但书名超过了画名

日方要求解释为何未告知磋商后会有媒体拍摄中方回应

日方要求解释为何未告知磋商后会有媒体拍摄中方回应

此刻价格不重要第5代帝豪本身就是价值

水岸美学书香人文生活