网易首页 > 网易号 > 正文 申请入驻

不拼参数:实测拆解 Skywork R1V4-Lite 的感知-推理-行动一条龙

0
分享至



2025 年几乎被一致包装成 AI Agent之年。从大模型到Agent转向,行业讲述的故事是,AI 不再只是一个会聊天、会生成文本的工具,而要变成能理解目标、拆解任务、自动调用各种服务的“数字执行者”。在 PPT 和发布会上,这听起来是一次从会说话到会干活的范式转变。

但第一批把这一愿景装进硬件里的产品,很快给了现实的一记耳光。Rabbit R1 带着 “Large Action Model” 的叙事亮相,号称能像真人一样在各类 App 里订机票、点外卖、完成整条流程。然而真正到用户手里,它更多像是一台性能有限、响应迟缓、依赖云端的一部功能不完善的手机,宣传中的自动化场景要么不可用,要么极不稳定,交互体验也并未跳出传统语音助手的框架,最终被普遍视为一场高调开局、低质量收场的失败实验。

这并不意味着Agent本身是伪命题,而是提醒我们把Agent做成一台独立硬件,可能一开始就选错了战场。与其再造一块昂贵却鸡肋的设备,不如把“能看、能想、能行动”的能力压缩成一个可以嵌入任意应用的轻量模型。

在这一背景下,昆仑万维最新发布的Skywork R1V4-Lite(以下简称“R1V4-Lite”),试图成为那个“能行动”的Agent。它不标榜自己是巨无霸,反而强调“轻量级”(Lite),其核心定位是,首次在轻量级架构下,统一了主动图像操作、外部工具调用和多模态深度研究三大能力。

抛开噱头,只讨论感知—推理—行动这条链路本身时,今天的技术到底已经走到了哪一步。

我们设计了一系列高难度的真实场景,来看看R1V4-Lite的表现。

对Skywork R1V4-Lite的技术细节和在线使用感兴趣的读者,也可以通过以下链接获取更多信息:

Skywork API平台 (可在线体验): https://platform.skyworkmodel.ai/ Github开源地址: https://github.com/SkyworkAI/Skywork-R1V 技术报告: https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V4.pdf API接口文档: https://docs.skyworkmodel.ai/r1v4/api-reference/completions.html Novita AI (第三方平台): https://novita.ai/

1

模糊手写体小票收据识别

为了测试它是不是真的能行动,我们没有给它一张清晰的打印小票,而是递上了一张只有400x300像素、字迹潦草的手写收据。



给它的任务是:“这张收据上,第二项‘空调加雪种’的金额是多少钱?”

R1V4-Lite的第一反应没有像传统模型那样“一眼答”(或者直接瞎猜),而是在模型思考中承认了视觉局限。



接下来的行动。它直接调用了code工具,当场为自己造了一个裁切工具。



它自己import了PIL库,自己计算了坐标,自己执行了img.crop。来解决眼前这个模糊问题。

在它自己写代码、自己裁切图片之后,R1V4-Lite进入了第二轮的思考,并给出了正确的答案



这个就是Agent的属性,看不清时,会自己想办法来解决问题。

作为对比,我们也让ChatGPT5.1来完成同样的任务,但并没有准确识别,可以看到它并没有主动使用工具:



1

AI看图定制菜谱

我们继续来测试一下R1V4-Lite的外部工具调用和任务规划能力,包括联网搜索能力,把这些加在一起,看看它处理的怎么样。

“帮我看看冰箱里这些东西,晚上能做点什么吃的?帮我规划一下,最好能找个菜谱。”



我们给它的,也不是一个塞满新鲜食材的摆拍冰箱,而是一个极其真实的“打工人”冰箱,里有几瓶牛奶、一堆酱料、一根玉米和一些速食。



和前一个案例一样,R1V4-Lite的第一反应是动脑和动手。它在模型思考中判断,需要先聚焦到关键食材上。



在看清了食材(牛奶、玉米、沙茶酱等)之后,它尝试调用image_search工具,用它刚裁切的图片去网上搜菜谱。

有意思的是,搜索失败了。只返回了一堆卖冰箱收纳盒的亚马逊链接和意义不明的YouTube视频。



换做一些别的模型,可能就卡住或者瞎编了。

不过R1V4-Lite接下来识别到了自己的失败,并切换了策略。它放弃了image_search,转而调用text_search,搜索关键词:“simple recipes corn satay sauce bean paste...”



在text_search返回了一些初步结果后(比如沙茶鸡肉),它在轮次 4的思考中觉得还不够精准(因为冰箱里没鸡肉),于是它再次精炼了关键词,进行了第二次text_search。



在经过了裁切看清 -> 搜图失败 -> 换策略搜文字 -> 再搜文字,这一系列复杂的行动和思维链后,在“轮次 5”汇总了所有信息,给出了一个非常合乎逻辑的回答。

推荐菜单:玉米沙茶酱炒菜
备选方案1:奶油玉米汤
备选方案2:蔬菜炒菜
贴心提示: 你的牛奶可以当做“提神小食”

为了验证“玉米沙茶酱炒菜”是不是什么黑暗料理,我们进行了人工验证。发现这是闽南、潮汕和台湾一带常见的家常做法。所以R1V4-Lite给出的并不是一个敷衍的结果,而是包含多种选择的方案。

1

“专家级”推理:医学博士的考题

如果说前两个案例是“随手拍、解万难”,那这第三个案例就是一次专业的极限挑战。试试R1V4-Lite能不能解决医学博士级别的考题。

任务: 看懂下面这张复杂的组织学病理切片,并诊断出它最符合哪种疾病特征 。

对于普通人来说,这种病理切片里的紫色圆圈和斑点毫无意义。但R1V4-Lite的反应,展示了它作为“深度研究”型Agent的能力。

它先是识别出图像A区域 那些不规则聚集的细胞,并将其定性为“非干酪样肉芽肿”(Non-caseating granuloma)。

然后调用了专业医学知识库,将这个视觉特征(“非干酪样肉芽肿”)与疾病(“克罗恩病”) 的典型特征进行了高速匹配和验证。



最终给出了一个精准、专业的诊断结论:该特征与“克罗恩病”(Crohn’s disease)一致 。

1

识破“野史”谣言:康熙到底是不是洪承畴的爹?

测完了硬核的医学问题,再来考考它的文科功底。我们在网上找了一张近期热议的历史话题,康熙帝与洪承畴的关系。最近有传闻称洪承畴“狸猫换太子”云云,并列举一系列证据,比如什么光绪帝Y染色体遗传标记与爱新觉罗家族没关系等等。如果是一个只会检索引用的AI,很容易被搜索到的野史带偏,R1V4-Lite能不能厘清事实?



R1V4-Lite的表现很像一个严谨的“考据党”。

在第一轮搜索中,它捕捉到了网络上关于两人关系的争议点:“I can see that there's a common myth... that Emperor Kangxi was actually the biological son of Hong Chengchou.” (我发现有一个普遍的传说,说康熙是洪承畴的亲生儿子。)



但它没有轻信,而是触发了DeepSearch逻辑,分别调用web_visit访问了维基百科,查证两人的确切生卒年。



这里有一次逻辑推理,洪承畴出生于 1593 年,康熙出生于 1654 年。两人年龄相差 61岁,且两人之间的实际关系是君臣关系。洪承畴是明清两代的高级官员,曾效力于康熙的父辈(顺治皇帝及其后的摄政时期)。



最终答案就很明显了:关于康熙是洪承畴亲生子的说法实属现代网络谣言,历史学者已予以澄清,两者年龄差距使得这种关系在时间线上根本不可能成立。

这个案例证明了这种多模态深度研究能力,不仅仅是联网搜答案。它还需要模型具备反思和批判性思维,能从纷繁复杂的网络信息中,识别谣言、查证数据、并给出基于事实的独立判断,这在信息过载的今天尤为重要。

1

Planner模式:复杂指令下的多工具协同规划

除了R1V4-Lite,这次昆仑万维还推出了R1V4-planner-lite 。如果说R1V4-Lite是能行动的轻量级多模态智能体 ,它是引擎。而R1V4-planner-lite则像是这个引擎的一种高级工作模式,是一种导航系统或任务规划器。

我们来看看它是怎么工作的,任务: (给模型一张Jacob Elordi的街拍图)“我喜欢这个人的穿搭。请帮我规划一下怎么买到这身衣服:识别出他身上所有的主要单品(帽子、外套、内搭、裤子和鞋子)。帮我全网搜索每个单品的品牌和大概价格。如果太贵了,帮我找几个风格相似的平价替代品链接。”



R1V4-planner-lite制定了一份详尽的长达8步执行计划。

[image_search]:识别图片中人物的所有穿搭单品和配饰。
[text_search]:搜索“蓝色LA帽子”的品牌和价格。
[text_search]:搜索“蓝色卫衣”的品牌和价格。
[text_search]:搜索“浅蓝牛仔裤”的品牌和价格。
[text_search]:搜索“红色运动鞋”的品牌和价格。
[text_search]:搜索“黑色绗缝包”的品牌和价格。
[text_search]:为上述每个单品搜索“100美元以下”的平价替代品。
[none]:汇总所有发现...

可以看到,R1V4-planner-lite能将模糊的扒穿搭指令,分解为8个有依赖关系的步骤,并为每一步精准匹配了image_search、text_search或web_visit等工具。特别是它精准识别出了“黑色绗缝包”(Black quilted bag)这一细节,并为其单独规划了搜索步骤,证明了其视觉识别的细腻度。所以模型真的不再只是给个答案,而是帮你办事,并且在行动前,就能先给出一份完整的SOP。

1

“看天吃饭”:基于环境条件的动态规划

如果说扒穿搭展示了R1V4-planner-lite的线性拆解能力,那么最后这个测试,则是为了验证它是否具备更动态决策能力。现实世界充满了变数。很多时候,我们需要的不是一个死板的执行列表,而是一个视情况而定的方案。

上传了一张随手拍摄的照片,任务:我现在在图中这个地方。我想在附近玩两个小时。请帮我做一个规划,先识别出这是哪里。再帮我搜索一下这个地方未来3小时的天气情况。根据天气情况帮我做决定:如果下雨,就帮我找一个附近评分最高的室内咖啡厅或博物馆,如果没有雨,就帮我找一个附近的公园或户外步行路线。最后告诉我推荐地点的具体地址和今天的营业时间。



面对这个包含分支逻辑的指令,R1V4-planner-lite 把用户给出的需求,直接写进了搜索参数里。



执行计划如下:

Step 1: [image_search] 识别图片中的地点。

Step 2: [text_search] 搜索“[地点] 未来3小时天气预报”。
Step 3 (关键一步): [text_search] 参数中明确写入了逻辑——"Based on the weather forecast, search for nearby indoor venues... if rain is expected, or outdoor venues... if no rain." (基于天气预报,如果下雨则搜室内场馆,如果没雨则搜户外公园。)
Step 4: [web_visit] 访问具体网页确认地址和营业时间。

Step 5: [none] 汇总信息。

这一点其实很关键。传统的Workflow通常只能执行固定的 A->B->C,一旦遇到“看情况”的模糊指令往往会卡壳。而 R1V4-planner-lite 能读懂自然语言里的逻辑分支,并将其翻译成可执行的搜索策略,而不是只会执行固定的代码模版。

1

为什么Lite,反而很Pro?

我们的测试过程中可以感受到,R1V4-Lite 在真实任务中的表现是可靠且可用的。不过,更值得注意的恰恰是它名字里的这个Lite(轻量级),它展现出的行动与理解能力,与其模型体量之间存在明显反差。

这与 Rabbit R1 等产品翻车之后行业逐渐形成的一种共识相呼应,AI 的演进方向,未必是单一超大模型包打天下,而更可能是由多个体量较小、功能聚焦的模型协同构成的体系。

根据官方发布的数据,在 8 个多模态理解基准上,R1V4-Lite 整体领先 Gemini 2.5 Flash,并在其中 5 项任务上超过 Gemini 2.5 Pro。在多模态 DeepResearch 任务上也呈现出接近甚至领先的趋势。



与之相对,它在工程指标上的“轻”同样突出:响应延迟约为 Gemini 2.5 Pro 的 1/19、Flash 的 1/5,而 Token 吞吐量(TPS)接近它们的 2 倍左右。对于高并发、低延迟要求明显的生产场景(如实时助手、视觉检索),这样的“快、省、够用”的 Lite 模型,在成本与体验上的综合价值,确实有可能优于“大而慢”的 Pro 级模型。

也就是说,相比单纯追求参数规模,AI Agent的“能力密度”也是值得关注的方向。昆仑万维将 R1V4-Lite 的表现,归因于其“图像操作 × 深度推理交织训练”的范式,试图用更紧凑的训练路径,让小模型逼近顶级闭源模型在多模态推理与行动上的表现。



在路线选择上,昆仑万维也释放出相对清晰的信号。一方面,R1V4-Lite(及其 Planner)以开源形式提供,这在一定程度上降低了开发者构建“行动Agent”的门槛,有利于围绕这一范式形成工具链与生态;另一方面,从此前的 Skywork-R1V 系列(如 R1V 2.0、R1V 3.0)可以看出,当前版本不是一次性投入的产物,而是从R1V 2.0、3.0的多模态思维链推理,到如今R1V4-Lite Agent能力的持续迭代积累。

当然,能力密度并不意味着问题已经解决。当前结果主要依赖有限数量的基准与典型场景,在更开放、多变、乃至对抗性的环境中,轻量模型是否仍能保持稳定的规划与行动质量,仍需更多实证验证。同时,如何在保证推理能力的前提下,将这类模型安全、低成本地嵌入现有业务系统(包括工具编排、权限控制与监控),也会决定它们能否真正走出实验室。

总体来看,R1V4-Lite 提供了一种值得重视的样本,未来的Agent未必长在“超大模型”的单一树干上,更可能以一批高效、可部署、真正“能动手”的轻量多模态模型为基础,在从“思考”走向“行动”的过程中,探索出更务实的工程形态。



点个“爱心”,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吴石案里漏网的佣人,竟是顶级地下交通员,她拒绝金条选八块钱

吴石案里漏网的佣人,竟是顶级地下交通员,她拒绝金条选八块钱

普览
2025-11-18 05:33:16
万店塔斯汀:开得快,关得也快

万店塔斯汀:开得快,关得也快

凤凰网财经
2025-11-19 15:25:33
角逐940万大奖,丁俊晖火箭都0-4出局!赵心童独闯八强附对阵赛程

角逐940万大奖,丁俊晖火箭都0-4出局!赵心童独闯八强附对阵赛程

求球不落谛
2025-11-20 07:05:55
《一拳超人》动画完蛋了,把导演骂退网也没救了

《一拳超人》动画完蛋了,把导演骂退网也没救了

游研社
2025-11-18 07:23:37
俞敏洪回应“内部信”争议:所乘邮轮舱位价在20-25万之间,没有花148万,计划明年带10名左右优秀员工游南极

俞敏洪回应“内部信”争议:所乘邮轮舱位价在20-25万之间,没有花148万,计划明年带10名左右优秀员工游南极

极目新闻
2025-11-20 10:49:05
潜伏在我国高层的四大间谍,被安插在军政两界,导致我国损失惨重

潜伏在我国高层的四大间谍,被安插在军政两界,导致我国损失惨重

阅识
2025-10-28 15:23:15
笑死了!原来真不能住太便宜的旅馆!网友:隔音差 一晚上都没怎么睡

笑死了!原来真不能住太便宜的旅馆!网友:隔音差 一晚上都没怎么睡

兰妮搞笑分享
2025-11-18 14:22:05
毛主席说蒋介石称呼自己为“匪”,尼克松发问:你们怎么称呼他

毛主席说蒋介石称呼自己为“匪”,尼克松发问:你们怎么称呼他

历史龙元阁
2025-11-19 11:30:11
场均23分,摆上货架却无人问津!2年9600万顶薪,你离退役不远了

场均23分,摆上货架却无人问津!2年9600万顶薪,你离退役不远了

老梁体育漫谈
2025-11-19 23:38:18
本人确认!上季得分王萨姆纳确认加盟广东男篮 组建四外援争冠

本人确认!上季得分王萨姆纳确认加盟广东男篮 组建四外援争冠

醉卧浮生
2025-11-20 14:39:45
83年,下岗职工花700块买下上海废旧水塔住,22年后拆迁时愣了

83年,下岗职工花700块买下上海废旧水塔住,22年后拆迁时愣了

温情邮局
2025-11-11 10:58:54
1994年,厅级干部夫妇被枪杀,震动中央,凶手供出幕后是人大常委

1994年,厅级干部夫妇被枪杀,震动中央,凶手供出幕后是人大常委

阿胡
2024-02-05 14:34:41
发现一个现象:喜欢把家里打扫得很干净的父母,大多活成了这样

发现一个现象:喜欢把家里打扫得很干净的父母,大多活成了这样

洪生鹏
2025-11-17 20:59:27
特斯拉工程师莫拉维:Model X问世十年,成功“减肥”近200kg

特斯拉工程师莫拉维:Model X问世十年,成功“减肥”近200kg

IT之家
2025-11-20 08:25:05
中国准备打一场反侵略战争,解放军发文,不会保证日本本土的安全

中国准备打一场反侵略战争,解放军发文,不会保证日本本土的安全

大国纪录
2025-11-17 09:17:59
不知情、未通知、严重违反公司章程、已投诉:董事登报反对华夏幸福预重整。

不知情、未通知、严重违反公司章程、已投诉:董事登报反对华夏幸福预重整。

李丹Fintalk
2025-11-20 10:21:12
率队晋级世界杯却从未去过该国,海地主帅:那里实在太危险了

率队晋级世界杯却从未去过该国,海地主帅:那里实在太危险了

懂球帝
2025-11-20 06:50:06
你以为玛哈是个纨绔国王?

你以为玛哈是个纨绔国王?

老吴教育课堂
2025-11-18 15:25:13
不许福建舰进台海!台军放狠话,要用数百枚导弹让解放军有来无回

不许福建舰进台海!台军放狠话,要用数百枚导弹让解放军有来无回

音乐时光的娱乐
2025-11-19 09:39:00
时也命也!12秒85当成绩出来的那一刻,吴艳妮哭了!到底意难平…

时也命也!12秒85当成绩出来的那一刻,吴艳妮哭了!到底意难平…

火山诗话
2025-11-20 06:20:27
2025-11-20 16:11:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2646文章数 10400关注度
往期回顾 全部

科技要闻

英伟达单季狂揽570亿美元,手握5000亿订单

头条要闻

数名蔚来车主被销售诈骗160万 称对品牌表态特别寒心

头条要闻

数名蔚来车主被销售诈骗160万 称对品牌表态特别寒心

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌易梦玲恋情曝光,相差16岁

财经要闻

霸王茶姬创始人将与“光伏女神”结婚

汽车要闻

一汽丰田发布IT'S TiME 3.0 三款焕新产品同步亮相

态度原创

房产
亲子
手机
本地
公开课

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

亲子要闻

试试用几种方法给两岁多的孩子喂药,有多不容易!

手机要闻

2026 Pantone年度色被曝为Lightest Sky

本地新闻

卖力整活儿的大湾鸡,靠疯癫成了新顶流

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版