网易首页 > 网易号 > 正文 申请入驻

不拼参数:实测拆解 Skywork R1V4-Lite 的感知-推理-行动一条龙

0
分享至



2025 年几乎被一致包装成 AI Agent之年。从大模型到Agent转向,行业讲述的故事是,AI 不再只是一个会聊天、会生成文本的工具,而要变成能理解目标、拆解任务、自动调用各种服务的“数字执行者”。在 PPT 和发布会上,这听起来是一次从会说话到会干活的范式转变。

但第一批把这一愿景装进硬件里的产品,很快给了现实的一记耳光。Rabbit R1 带着 “Large Action Model” 的叙事亮相,号称能像真人一样在各类 App 里订机票、点外卖、完成整条流程。然而真正到用户手里,它更多像是一台性能有限、响应迟缓、依赖云端的一部功能不完善的手机,宣传中的自动化场景要么不可用,要么极不稳定,交互体验也并未跳出传统语音助手的框架,最终被普遍视为一场高调开局、低质量收场的失败实验。

这并不意味着Agent本身是伪命题,而是提醒我们把Agent做成一台独立硬件,可能一开始就选错了战场。与其再造一块昂贵却鸡肋的设备,不如把“能看、能想、能行动”的能力压缩成一个可以嵌入任意应用的轻量模型。

在这一背景下,昆仑万维最新发布的Skywork R1V4-Lite(以下简称“R1V4-Lite”),试图成为那个“能行动”的Agent。它不标榜自己是巨无霸,反而强调“轻量级”(Lite),其核心定位是,首次在轻量级架构下,统一了主动图像操作、外部工具调用和多模态深度研究三大能力。

抛开噱头,只讨论感知—推理—行动这条链路本身时,今天的技术到底已经走到了哪一步。

我们设计了一系列高难度的真实场景,来看看R1V4-Lite的表现。

对Skywork R1V4-Lite的技术细节和在线使用感兴趣的读者,也可以通过以下链接获取更多信息:

Skywork API平台 (可在线体验): https://platform.skyworkmodel.ai/ Github开源地址: https://github.com/SkyworkAI/Skywork-R1V 技术报告: https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V4.pdf API接口文档: https://docs.skyworkmodel.ai/r1v4/api-reference/completions.html Novita AI (第三方平台): https://novita.ai/

1

模糊手写体小票收据识别

为了测试它是不是真的能行动,我们没有给它一张清晰的打印小票,而是递上了一张只有400x300像素、字迹潦草的手写收据。



给它的任务是:“这张收据上,第二项‘空调加雪种’的金额是多少钱?”

R1V4-Lite的第一反应没有像传统模型那样“一眼答”(或者直接瞎猜),而是在模型思考中承认了视觉局限。



接下来的行动。它直接调用了code工具,当场为自己造了一个裁切工具。



它自己import了PIL库,自己计算了坐标,自己执行了img.crop。来解决眼前这个模糊问题。

在它自己写代码、自己裁切图片之后,R1V4-Lite进入了第二轮的思考,并给出了正确的答案



这个就是Agent的属性,看不清时,会自己想办法来解决问题。

作为对比,我们也让ChatGPT5.1来完成同样的任务,但并没有准确识别,可以看到它并没有主动使用工具:



1

AI看图定制菜谱

我们继续来测试一下R1V4-Lite的外部工具调用和任务规划能力,包括联网搜索能力,把这些加在一起,看看它处理的怎么样。

“帮我看看冰箱里这些东西,晚上能做点什么吃的?帮我规划一下,最好能找个菜谱。”



我们给它的,也不是一个塞满新鲜食材的摆拍冰箱,而是一个极其真实的“打工人”冰箱,里有几瓶牛奶、一堆酱料、一根玉米和一些速食。



和前一个案例一样,R1V4-Lite的第一反应是动脑和动手。它在模型思考中判断,需要先聚焦到关键食材上。



在看清了食材(牛奶、玉米、沙茶酱等)之后,它尝试调用image_search工具,用它刚裁切的图片去网上搜菜谱。

有意思的是,搜索失败了。只返回了一堆卖冰箱收纳盒的亚马逊链接和意义不明的YouTube视频。



换做一些别的模型,可能就卡住或者瞎编了。

不过R1V4-Lite接下来识别到了自己的失败,并切换了策略。它放弃了image_search,转而调用text_search,搜索关键词:“simple recipes corn satay sauce bean paste...”



在text_search返回了一些初步结果后(比如沙茶鸡肉),它在轮次 4的思考中觉得还不够精准(因为冰箱里没鸡肉),于是它再次精炼了关键词,进行了第二次text_search。



在经过了裁切看清 -> 搜图失败 -> 换策略搜文字 -> 再搜文字,这一系列复杂的行动和思维链后,在“轮次 5”汇总了所有信息,给出了一个非常合乎逻辑的回答。

推荐菜单:玉米沙茶酱炒菜
备选方案1:奶油玉米汤
备选方案2:蔬菜炒菜
贴心提示: 你的牛奶可以当做“提神小食”

为了验证“玉米沙茶酱炒菜”是不是什么黑暗料理,我们进行了人工验证。发现这是闽南、潮汕和台湾一带常见的家常做法。所以R1V4-Lite给出的并不是一个敷衍的结果,而是包含多种选择的方案。

1

“专家级”推理:医学博士的考题

如果说前两个案例是“随手拍、解万难”,那这第三个案例就是一次专业的极限挑战。试试R1V4-Lite能不能解决医学博士级别的考题。

任务: 看懂下面这张复杂的组织学病理切片,并诊断出它最符合哪种疾病特征 。

对于普通人来说,这种病理切片里的紫色圆圈和斑点毫无意义。但R1V4-Lite的反应,展示了它作为“深度研究”型Agent的能力。

它先是识别出图像A区域 那些不规则聚集的细胞,并将其定性为“非干酪样肉芽肿”(Non-caseating granuloma)。

然后调用了专业医学知识库,将这个视觉特征(“非干酪样肉芽肿”)与疾病(“克罗恩病”) 的典型特征进行了高速匹配和验证。



最终给出了一个精准、专业的诊断结论:该特征与“克罗恩病”(Crohn’s disease)一致 。

1

识破“野史”谣言:康熙到底是不是洪承畴的爹?

测完了硬核的医学问题,再来考考它的文科功底。我们在网上找了一张近期热议的历史话题,康熙帝与洪承畴的关系。最近有传闻称洪承畴“狸猫换太子”云云,并列举一系列证据,比如什么光绪帝Y染色体遗传标记与爱新觉罗家族没关系等等。如果是一个只会检索引用的AI,很容易被搜索到的野史带偏,R1V4-Lite能不能厘清事实?



R1V4-Lite的表现很像一个严谨的“考据党”。

在第一轮搜索中,它捕捉到了网络上关于两人关系的争议点:“I can see that there's a common myth... that Emperor Kangxi was actually the biological son of Hong Chengchou.” (我发现有一个普遍的传说,说康熙是洪承畴的亲生儿子。)



但它没有轻信,而是触发了DeepSearch逻辑,分别调用web_visit访问了维基百科,查证两人的确切生卒年。



这里有一次逻辑推理,洪承畴出生于 1593 年,康熙出生于 1654 年。两人年龄相差 61岁,且两人之间的实际关系是君臣关系。洪承畴是明清两代的高级官员,曾效力于康熙的父辈(顺治皇帝及其后的摄政时期)。



最终答案就很明显了:关于康熙是洪承畴亲生子的说法实属现代网络谣言,历史学者已予以澄清,两者年龄差距使得这种关系在时间线上根本不可能成立。

这个案例证明了这种多模态深度研究能力,不仅仅是联网搜答案。它还需要模型具备反思和批判性思维,能从纷繁复杂的网络信息中,识别谣言、查证数据、并给出基于事实的独立判断,这在信息过载的今天尤为重要。

1

Planner模式:复杂指令下的多工具协同规划

除了R1V4-Lite,这次昆仑万维还推出了R1V4-planner-lite 。如果说R1V4-Lite是能行动的轻量级多模态智能体 ,它是引擎。而R1V4-planner-lite则像是这个引擎的一种高级工作模式,是一种导航系统或任务规划器。

我们来看看它是怎么工作的,任务: (给模型一张Jacob Elordi的街拍图)“我喜欢这个人的穿搭。请帮我规划一下怎么买到这身衣服:识别出他身上所有的主要单品(帽子、外套、内搭、裤子和鞋子)。帮我全网搜索每个单品的品牌和大概价格。如果太贵了,帮我找几个风格相似的平价替代品链接。”



R1V4-planner-lite制定了一份详尽的长达8步执行计划。

[image_search]:识别图片中人物的所有穿搭单品和配饰。
[text_search]:搜索“蓝色LA帽子”的品牌和价格。
[text_search]:搜索“蓝色卫衣”的品牌和价格。
[text_search]:搜索“浅蓝牛仔裤”的品牌和价格。
[text_search]:搜索“红色运动鞋”的品牌和价格。
[text_search]:搜索“黑色绗缝包”的品牌和价格。
[text_search]:为上述每个单品搜索“100美元以下”的平价替代品。
[none]:汇总所有发现...

可以看到,R1V4-planner-lite能将模糊的扒穿搭指令,分解为8个有依赖关系的步骤,并为每一步精准匹配了image_search、text_search或web_visit等工具。特别是它精准识别出了“黑色绗缝包”(Black quilted bag)这一细节,并为其单独规划了搜索步骤,证明了其视觉识别的细腻度。所以模型真的不再只是给个答案,而是帮你办事,并且在行动前,就能先给出一份完整的SOP。

1

“看天吃饭”:基于环境条件的动态规划

如果说扒穿搭展示了R1V4-planner-lite的线性拆解能力,那么最后这个测试,则是为了验证它是否具备更动态决策能力。现实世界充满了变数。很多时候,我们需要的不是一个死板的执行列表,而是一个视情况而定的方案。

上传了一张随手拍摄的照片,任务:我现在在图中这个地方。我想在附近玩两个小时。请帮我做一个规划,先识别出这是哪里。再帮我搜索一下这个地方未来3小时的天气情况。根据天气情况帮我做决定:如果下雨,就帮我找一个附近评分最高的室内咖啡厅或博物馆,如果没有雨,就帮我找一个附近的公园或户外步行路线。最后告诉我推荐地点的具体地址和今天的营业时间。



面对这个包含分支逻辑的指令,R1V4-planner-lite 把用户给出的需求,直接写进了搜索参数里。



执行计划如下:

Step 1: [image_search] 识别图片中的地点。

Step 2: [text_search] 搜索“[地点] 未来3小时天气预报”。
Step 3 (关键一步): [text_search] 参数中明确写入了逻辑——"Based on the weather forecast, search for nearby indoor venues... if rain is expected, or outdoor venues... if no rain." (基于天气预报,如果下雨则搜室内场馆,如果没雨则搜户外公园。)
Step 4: [web_visit] 访问具体网页确认地址和营业时间。

Step 5: [none] 汇总信息。

这一点其实很关键。传统的Workflow通常只能执行固定的 A->B->C,一旦遇到“看情况”的模糊指令往往会卡壳。而 R1V4-planner-lite 能读懂自然语言里的逻辑分支,并将其翻译成可执行的搜索策略,而不是只会执行固定的代码模版。

1

为什么Lite,反而很Pro?

我们的测试过程中可以感受到,R1V4-Lite 在真实任务中的表现是可靠且可用的。不过,更值得注意的恰恰是它名字里的这个Lite(轻量级),它展现出的行动与理解能力,与其模型体量之间存在明显反差。

这与 Rabbit R1 等产品翻车之后行业逐渐形成的一种共识相呼应,AI 的演进方向,未必是单一超大模型包打天下,而更可能是由多个体量较小、功能聚焦的模型协同构成的体系。

根据官方发布的数据,在 8 个多模态理解基准上,R1V4-Lite 整体领先 Gemini 2.5 Flash,并在其中 5 项任务上超过 Gemini 2.5 Pro。在多模态 DeepResearch 任务上也呈现出接近甚至领先的趋势。



与之相对,它在工程指标上的“轻”同样突出:响应延迟约为 Gemini 2.5 Pro 的 1/19、Flash 的 1/5,而 Token 吞吐量(TPS)接近它们的 2 倍左右。对于高并发、低延迟要求明显的生产场景(如实时助手、视觉检索),这样的“快、省、够用”的 Lite 模型,在成本与体验上的综合价值,确实有可能优于“大而慢”的 Pro 级模型。

也就是说,相比单纯追求参数规模,AI Agent的“能力密度”也是值得关注的方向。昆仑万维将 R1V4-Lite 的表现,归因于其“图像操作 × 深度推理交织训练”的范式,试图用更紧凑的训练路径,让小模型逼近顶级闭源模型在多模态推理与行动上的表现。



在路线选择上,昆仑万维也释放出相对清晰的信号。一方面,R1V4-Lite(及其 Planner)以开源形式提供,这在一定程度上降低了开发者构建“行动Agent”的门槛,有利于围绕这一范式形成工具链与生态;另一方面,从此前的 Skywork-R1V 系列(如 R1V 2.0、R1V 3.0)可以看出,当前版本不是一次性投入的产物,而是从R1V 2.0、3.0的多模态思维链推理,到如今R1V4-Lite Agent能力的持续迭代积累。

当然,能力密度并不意味着问题已经解决。当前结果主要依赖有限数量的基准与典型场景,在更开放、多变、乃至对抗性的环境中,轻量模型是否仍能保持稳定的规划与行动质量,仍需更多实证验证。同时,如何在保证推理能力的前提下,将这类模型安全、低成本地嵌入现有业务系统(包括工具编排、权限控制与监控),也会决定它们能否真正走出实验室。

总体来看,R1V4-Lite 提供了一种值得重视的样本,未来的Agent未必长在“超大模型”的单一树干上,更可能以一批高效、可部署、真正“能动手”的轻量多模态模型为基础,在从“思考”走向“行动”的过程中,探索出更务实的工程形态。



点个“爱心”,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小S家两女儿合体拍照!想走姨妈大S艺术道路,却被玥儿一张近照秒杀

小S家两女儿合体拍照!想走姨妈大S艺术道路,却被玥儿一张近照秒杀

八卦王者
2026-04-18 16:39:30
预售价近40万元的小鹏,把所有人都忽悠了!

预售价近40万元的小鹏,把所有人都忽悠了!

新浪财经
2026-04-19 02:52:50
医生呼吁:再高的血糖,没有这几种情况,不必过度紧张,安心吃喝

医生呼吁:再高的血糖,没有这几种情况,不必过度紧张,安心吃喝

宝哥精彩赛事
2026-04-19 22:12:51
赖清德暴露真面目、不敢面对郑丽文!转头发现:绿营大咖们变脸了

赖清德暴露真面目、不敢面对郑丽文!转头发现:绿营大咖们变脸了

野史日记
2026-04-19 09:10:18
为什么大家都说这个热巴是假的?细思极恐,真的热巴去哪里了?

为什么大家都说这个热巴是假的?细思极恐,真的热巴去哪里了?

娱乐小丸子
2026-03-30 09:53:37
肠道是否长息肉,会有4个提示,上厕所时要记的多看一眼!

肠道是否长息肉,会有4个提示,上厕所时要记的多看一眼!

芹姐说生活
2026-04-19 23:32:30
多名院士研究发现:吃一把花生,就等于吃了两勺黄油,真的假的?

多名院士研究发现:吃一把花生,就等于吃了两勺黄油,真的假的?

蜉蝣说
2026-04-20 10:18:20
超级大爆冷!状元秀空砍39分,可能要被黑八!

超级大爆冷!状元秀空砍39分,可能要被黑八!

德译洋洋
2026-04-20 10:38:11
广东一酒店女子拆快递误甩飞美工刀打到同事脖颈,酒店:没有划到脖子,不是故意的

广东一酒店女子拆快递误甩飞美工刀打到同事脖颈,酒店:没有划到脖子,不是故意的

潇湘晨报
2026-04-19 20:49:12
“最快女护士”张水华云南石屏马拉松退赛,本人回应:不舒服就没跑;其辞职后已拿下两个冠军,获折现超20万奖励

“最快女护士”张水华云南石屏马拉松退赛,本人回应:不舒服就没跑;其辞职后已拿下两个冠军,获折现超20万奖励

极目新闻
2026-04-19 12:01:08
谁也没料到!杜兰特伤情反转,乌度卡一招,火箭季后赛悬了

谁也没料到!杜兰特伤情反转,乌度卡一招,火箭季后赛悬了

林子说事
2026-04-19 16:57:01
伊朗断腿最高领袖发威?停火期内突下战书:向世界展示敌人软弱!

伊朗断腿最高领袖发威?停火期内突下战书:向世界展示敌人软弱!

清晨的世界
2026-04-20 09:38:52
魏建军提议私家车10年后再年检,用OBD和车联网替代实地检测

魏建军提议私家车10年后再年检,用OBD和车联网替代实地检测

快科技
2026-04-19 08:19:03
笑得肚疼!你们都开始显老到什么程度了?网友:我开始吃桃酥了!

笑得肚疼!你们都开始显老到什么程度了?网友:我开始吃桃酥了!

夜深爱杂谈
2026-04-18 19:25:24
徐明联手本拉登家族,400亿硬刚中石油,帝国崩塌

徐明联手本拉登家族,400亿硬刚中石油,帝国崩塌

圆梦的小老头
2026-04-17 23:52:41
震惊!月薪3000、26岁株洲女子征婚,要对方月入2.5万、存款200万

震惊!月薪3000、26岁株洲女子征婚,要对方月入2.5万、存款200万

火山詩话
2026-04-18 13:20:01
直接给岛内孩子们看!这应该是郑丽文从大陆带回最珍贵礼物!

直接给岛内孩子们看!这应该是郑丽文从大陆带回最珍贵礼物!

阿龙聊军事
2026-04-18 21:26:21
随着曼城2-1枪手,利物浦2-1,英超最新排名出炉!枪手70分领跑

随着曼城2-1枪手,利物浦2-1,英超最新排名出炉!枪手70分领跑

薇说体育
2026-04-20 10:52:44
半场7-2!丁俊晖双喜临门:世锦赛第23胜将到手,1成就历史第8!

半场7-2!丁俊晖双喜临门:世锦赛第23胜将到手,1成就历史第8!

刘姚尧的文字城堡
2026-04-20 08:01:41
恋爱脑的女人能有多离谱?看完评论区我愣住了,这些事真的存在吗

恋爱脑的女人能有多离谱?看完评论区我愣住了,这些事真的存在吗

夜深爱杂谈
2026-04-19 09:56:53
2026-04-20 11:27:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
3021文章数 10490关注度
往期回顾 全部

科技要闻

蓝色起源一级火箭完美回收 客户卫星未入轨

头条要闻

失踪女老板被找到 嫌犯曾改名整容还催警察"还我清白"

头条要闻

失踪女老板被找到 嫌犯曾改名整容还催警察"还我清白"

体育要闻

七大奖项候选官宣!文班或全票DPOY

娱乐要闻

章子怡!增重20斤素颜拍新片

财经要闻

月之暗面IPO迷局

汽车要闻

外观非常惊艳 全新一代宝马6系有望回归

态度原创

手机
房产
健康
游戏
教育

手机要闻

上市还没半年!三星三折叠屏手机面临退市 友商跟华为差距太远

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

干细胞抗衰4大误区,90%的人都中招

大司马称不想再玩《PUBG》:打的菜还总被喷!

教育要闻

给孩子最深的滋养:一半爱护,一半需要

无障碍浏览 进入关怀版