网易首页 > 网易号 > 正文 申请入驻

不拼参数:实测拆解 Skywork R1V4-Lite 的感知-推理-行动一条龙

0
分享至



2025 年几乎被一致包装成 AI Agent之年。从大模型到Agent转向,行业讲述的故事是,AI 不再只是一个会聊天、会生成文本的工具,而要变成能理解目标、拆解任务、自动调用各种服务的“数字执行者”。在 PPT 和发布会上,这听起来是一次从会说话到会干活的范式转变。

但第一批把这一愿景装进硬件里的产品,很快给了现实的一记耳光。Rabbit R1 带着 “Large Action Model” 的叙事亮相,号称能像真人一样在各类 App 里订机票、点外卖、完成整条流程。然而真正到用户手里,它更多像是一台性能有限、响应迟缓、依赖云端的一部功能不完善的手机,宣传中的自动化场景要么不可用,要么极不稳定,交互体验也并未跳出传统语音助手的框架,最终被普遍视为一场高调开局、低质量收场的失败实验。

这并不意味着Agent本身是伪命题,而是提醒我们把Agent做成一台独立硬件,可能一开始就选错了战场。与其再造一块昂贵却鸡肋的设备,不如把“能看、能想、能行动”的能力压缩成一个可以嵌入任意应用的轻量模型。

在这一背景下,昆仑万维最新发布的Skywork R1V4-Lite(以下简称“R1V4-Lite”),试图成为那个“能行动”的Agent。它不标榜自己是巨无霸,反而强调“轻量级”(Lite),其核心定位是,首次在轻量级架构下,统一了主动图像操作、外部工具调用和多模态深度研究三大能力。

抛开噱头,只讨论感知—推理—行动这条链路本身时,今天的技术到底已经走到了哪一步。

我们设计了一系列高难度的真实场景,来看看R1V4-Lite的表现。

对Skywork R1V4-Lite的技术细节和在线使用感兴趣的读者,也可以通过以下链接获取更多信息:

Skywork API平台 (可在线体验): https://platform.skyworkmodel.ai/ Github开源地址: https://github.com/SkyworkAI/Skywork-R1V 技术报告: https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V4.pdf API接口文档: https://docs.skyworkmodel.ai/r1v4/api-reference/completions.html Novita AI (第三方平台): https://novita.ai/

1

模糊手写体小票收据识别

为了测试它是不是真的能行动,我们没有给它一张清晰的打印小票,而是递上了一张只有400x300像素、字迹潦草的手写收据。



给它的任务是:“这张收据上,第二项‘空调加雪种’的金额是多少钱?”

R1V4-Lite的第一反应没有像传统模型那样“一眼答”(或者直接瞎猜),而是在模型思考中承认了视觉局限。



接下来的行动。它直接调用了code工具,当场为自己造了一个裁切工具。



它自己import了PIL库,自己计算了坐标,自己执行了img.crop。来解决眼前这个模糊问题。

在它自己写代码、自己裁切图片之后,R1V4-Lite进入了第二轮的思考,并给出了正确的答案



这个就是Agent的属性,看不清时,会自己想办法来解决问题。

作为对比,我们也让ChatGPT5.1来完成同样的任务,但并没有准确识别,可以看到它并没有主动使用工具:



1

AI看图定制菜谱

我们继续来测试一下R1V4-Lite的外部工具调用和任务规划能力,包括联网搜索能力,把这些加在一起,看看它处理的怎么样。

“帮我看看冰箱里这些东西,晚上能做点什么吃的?帮我规划一下,最好能找个菜谱。”



我们给它的,也不是一个塞满新鲜食材的摆拍冰箱,而是一个极其真实的“打工人”冰箱,里有几瓶牛奶、一堆酱料、一根玉米和一些速食。



和前一个案例一样,R1V4-Lite的第一反应是动脑和动手。它在模型思考中判断,需要先聚焦到关键食材上。



在看清了食材(牛奶、玉米、沙茶酱等)之后,它尝试调用image_search工具,用它刚裁切的图片去网上搜菜谱。

有意思的是,搜索失败了。只返回了一堆卖冰箱收纳盒的亚马逊链接和意义不明的YouTube视频。



换做一些别的模型,可能就卡住或者瞎编了。

不过R1V4-Lite接下来识别到了自己的失败,并切换了策略。它放弃了image_search,转而调用text_search,搜索关键词:“simple recipes corn satay sauce bean paste...”



在text_search返回了一些初步结果后(比如沙茶鸡肉),它在轮次 4的思考中觉得还不够精准(因为冰箱里没鸡肉),于是它再次精炼了关键词,进行了第二次text_search。



在经过了裁切看清 -> 搜图失败 -> 换策略搜文字 -> 再搜文字,这一系列复杂的行动和思维链后,在“轮次 5”汇总了所有信息,给出了一个非常合乎逻辑的回答。

推荐菜单:玉米沙茶酱炒菜
备选方案1:奶油玉米汤
备选方案2:蔬菜炒菜
贴心提示: 你的牛奶可以当做“提神小食”

为了验证“玉米沙茶酱炒菜”是不是什么黑暗料理,我们进行了人工验证。发现这是闽南、潮汕和台湾一带常见的家常做法。所以R1V4-Lite给出的并不是一个敷衍的结果,而是包含多种选择的方案。

1

“专家级”推理:医学博士的考题

如果说前两个案例是“随手拍、解万难”,那这第三个案例就是一次专业的极限挑战。试试R1V4-Lite能不能解决医学博士级别的考题。

任务: 看懂下面这张复杂的组织学病理切片,并诊断出它最符合哪种疾病特征 。

对于普通人来说,这种病理切片里的紫色圆圈和斑点毫无意义。但R1V4-Lite的反应,展示了它作为“深度研究”型Agent的能力。

它先是识别出图像A区域 那些不规则聚集的细胞,并将其定性为“非干酪样肉芽肿”(Non-caseating granuloma)。

然后调用了专业医学知识库,将这个视觉特征(“非干酪样肉芽肿”)与疾病(“克罗恩病”) 的典型特征进行了高速匹配和验证。



最终给出了一个精准、专业的诊断结论:该特征与“克罗恩病”(Crohn’s disease)一致 。

1

识破“野史”谣言:康熙到底是不是洪承畴的爹?

测完了硬核的医学问题,再来考考它的文科功底。我们在网上找了一张近期热议的历史话题,康熙帝与洪承畴的关系。最近有传闻称洪承畴“狸猫换太子”云云,并列举一系列证据,比如什么光绪帝Y染色体遗传标记与爱新觉罗家族没关系等等。如果是一个只会检索引用的AI,很容易被搜索到的野史带偏,R1V4-Lite能不能厘清事实?



R1V4-Lite的表现很像一个严谨的“考据党”。

在第一轮搜索中,它捕捉到了网络上关于两人关系的争议点:“I can see that there's a common myth... that Emperor Kangxi was actually the biological son of Hong Chengchou.” (我发现有一个普遍的传说,说康熙是洪承畴的亲生儿子。)



但它没有轻信,而是触发了DeepSearch逻辑,分别调用web_visit访问了维基百科,查证两人的确切生卒年。



这里有一次逻辑推理,洪承畴出生于 1593 年,康熙出生于 1654 年。两人年龄相差 61岁,且两人之间的实际关系是君臣关系。洪承畴是明清两代的高级官员,曾效力于康熙的父辈(顺治皇帝及其后的摄政时期)。



最终答案就很明显了:关于康熙是洪承畴亲生子的说法实属现代网络谣言,历史学者已予以澄清,两者年龄差距使得这种关系在时间线上根本不可能成立。

这个案例证明了这种多模态深度研究能力,不仅仅是联网搜答案。它还需要模型具备反思和批判性思维,能从纷繁复杂的网络信息中,识别谣言、查证数据、并给出基于事实的独立判断,这在信息过载的今天尤为重要。

1

Planner模式:复杂指令下的多工具协同规划

除了R1V4-Lite,这次昆仑万维还推出了R1V4-planner-lite 。如果说R1V4-Lite是能行动的轻量级多模态智能体 ,它是引擎。而R1V4-planner-lite则像是这个引擎的一种高级工作模式,是一种导航系统或任务规划器。

我们来看看它是怎么工作的,任务: (给模型一张Jacob Elordi的街拍图)“我喜欢这个人的穿搭。请帮我规划一下怎么买到这身衣服:识别出他身上所有的主要单品(帽子、外套、内搭、裤子和鞋子)。帮我全网搜索每个单品的品牌和大概价格。如果太贵了,帮我找几个风格相似的平价替代品链接。”



R1V4-planner-lite制定了一份详尽的长达8步执行计划。

[image_search]:识别图片中人物的所有穿搭单品和配饰。
[text_search]:搜索“蓝色LA帽子”的品牌和价格。
[text_search]:搜索“蓝色卫衣”的品牌和价格。
[text_search]:搜索“浅蓝牛仔裤”的品牌和价格。
[text_search]:搜索“红色运动鞋”的品牌和价格。
[text_search]:搜索“黑色绗缝包”的品牌和价格。
[text_search]:为上述每个单品搜索“100美元以下”的平价替代品。
[none]:汇总所有发现...

可以看到,R1V4-planner-lite能将模糊的扒穿搭指令,分解为8个有依赖关系的步骤,并为每一步精准匹配了image_search、text_search或web_visit等工具。特别是它精准识别出了“黑色绗缝包”(Black quilted bag)这一细节,并为其单独规划了搜索步骤,证明了其视觉识别的细腻度。所以模型真的不再只是给个答案,而是帮你办事,并且在行动前,就能先给出一份完整的SOP。

1

“看天吃饭”:基于环境条件的动态规划

如果说扒穿搭展示了R1V4-planner-lite的线性拆解能力,那么最后这个测试,则是为了验证它是否具备更动态决策能力。现实世界充满了变数。很多时候,我们需要的不是一个死板的执行列表,而是一个视情况而定的方案。

上传了一张随手拍摄的照片,任务:我现在在图中这个地方。我想在附近玩两个小时。请帮我做一个规划,先识别出这是哪里。再帮我搜索一下这个地方未来3小时的天气情况。根据天气情况帮我做决定:如果下雨,就帮我找一个附近评分最高的室内咖啡厅或博物馆,如果没有雨,就帮我找一个附近的公园或户外步行路线。最后告诉我推荐地点的具体地址和今天的营业时间。



面对这个包含分支逻辑的指令,R1V4-planner-lite 把用户给出的需求,直接写进了搜索参数里。



执行计划如下:

Step 1: [image_search] 识别图片中的地点。

Step 2: [text_search] 搜索“[地点] 未来3小时天气预报”。
Step 3 (关键一步): [text_search] 参数中明确写入了逻辑——"Based on the weather forecast, search for nearby indoor venues... if rain is expected, or outdoor venues... if no rain." (基于天气预报,如果下雨则搜室内场馆,如果没雨则搜户外公园。)
Step 4: [web_visit] 访问具体网页确认地址和营业时间。

Step 5: [none] 汇总信息。

这一点其实很关键。传统的Workflow通常只能执行固定的 A->B->C,一旦遇到“看情况”的模糊指令往往会卡壳。而 R1V4-planner-lite 能读懂自然语言里的逻辑分支,并将其翻译成可执行的搜索策略,而不是只会执行固定的代码模版。

1

为什么Lite,反而很Pro?

我们的测试过程中可以感受到,R1V4-Lite 在真实任务中的表现是可靠且可用的。不过,更值得注意的恰恰是它名字里的这个Lite(轻量级),它展现出的行动与理解能力,与其模型体量之间存在明显反差。

这与 Rabbit R1 等产品翻车之后行业逐渐形成的一种共识相呼应,AI 的演进方向,未必是单一超大模型包打天下,而更可能是由多个体量较小、功能聚焦的模型协同构成的体系。

根据官方发布的数据,在 8 个多模态理解基准上,R1V4-Lite 整体领先 Gemini 2.5 Flash,并在其中 5 项任务上超过 Gemini 2.5 Pro。在多模态 DeepResearch 任务上也呈现出接近甚至领先的趋势。



与之相对,它在工程指标上的“轻”同样突出:响应延迟约为 Gemini 2.5 Pro 的 1/19、Flash 的 1/5,而 Token 吞吐量(TPS)接近它们的 2 倍左右。对于高并发、低延迟要求明显的生产场景(如实时助手、视觉检索),这样的“快、省、够用”的 Lite 模型,在成本与体验上的综合价值,确实有可能优于“大而慢”的 Pro 级模型。

也就是说,相比单纯追求参数规模,AI Agent的“能力密度”也是值得关注的方向。昆仑万维将 R1V4-Lite 的表现,归因于其“图像操作 × 深度推理交织训练”的范式,试图用更紧凑的训练路径,让小模型逼近顶级闭源模型在多模态推理与行动上的表现。



在路线选择上,昆仑万维也释放出相对清晰的信号。一方面,R1V4-Lite(及其 Planner)以开源形式提供,这在一定程度上降低了开发者构建“行动Agent”的门槛,有利于围绕这一范式形成工具链与生态;另一方面,从此前的 Skywork-R1V 系列(如 R1V 2.0、R1V 3.0)可以看出,当前版本不是一次性投入的产物,而是从R1V 2.0、3.0的多模态思维链推理,到如今R1V4-Lite Agent能力的持续迭代积累。

当然,能力密度并不意味着问题已经解决。当前结果主要依赖有限数量的基准与典型场景,在更开放、多变、乃至对抗性的环境中,轻量模型是否仍能保持稳定的规划与行动质量,仍需更多实证验证。同时,如何在保证推理能力的前提下,将这类模型安全、低成本地嵌入现有业务系统(包括工具编排、权限控制与监控),也会决定它们能否真正走出实验室。

总体来看,R1V4-Lite 提供了一种值得重视的样本,未来的Agent未必长在“超大模型”的单一树干上,更可能以一批高效、可部署、真正“能动手”的轻量多模态模型为基础,在从“思考”走向“行动”的过程中,探索出更务实的工程形态。



点个“爱心”,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“每卖一辆问界,13.6万流向华为”,赛力斯最新披露来了

“每卖一辆问界,13.6万流向华为”,赛力斯最新披露来了

智能车参考
2026-01-14 17:14:37
伊朗高层48小时转移15亿美元出境,哈梅内伊儿子转了3.28亿美元

伊朗高层48小时转移15亿美元出境,哈梅内伊儿子转了3.28亿美元

桂系007
2026-01-15 14:15:21
宝能姚振华实名举报,相关部门回应:举报不实,拍卖正常推进

宝能姚振华实名举报,相关部门回应:举报不实,拍卖正常推进

南方都市报
2026-01-15 11:04:11
原来他就是聂卫平长子,移民日本入日籍娶日本妻,拒绝让儿子姓聂

原来他就是聂卫平长子,移民日本入日籍娶日本妻,拒绝让儿子姓聂

以茶带书
2026-01-15 14:14:27
开年暴击,四川某光伏巨头清仓式裁员!

开年暴击,四川某光伏巨头清仓式裁员!

黯泉
2026-01-15 10:59:17
湖南小女孩突发心脏病死亡后:知情人曝更多,母亲已社死,恐担责

湖南小女孩突发心脏病死亡后:知情人曝更多,母亲已社死,恐担责

阿纂看事
2026-01-15 14:09:01
好友见证贺娇龙从苦孩子成长为“推介官”,多人已赶赴昭苏送她最后一程,有摄影师缺席她最后一次拍摄遗憾自责

好友见证贺娇龙从苦孩子成长为“推介官”,多人已赶赴昭苏送她最后一程,有摄影师缺席她最后一次拍摄遗憾自责

极目新闻
2026-01-15 17:46:12
噩耗传来不足1天,恶心一幕出现,“贪心”的贺娇龙被批演过头了

噩耗传来不足1天,恶心一幕出现,“贪心”的贺娇龙被批演过头了

有范又有料
2026-01-15 15:54:50
女子因厨师长一句不干就滚,在店门口躺了四天,店家还立一块牌子

女子因厨师长一句不干就滚,在店门口躺了四天,店家还立一块牌子

社会日日鲜
2026-01-15 06:52:20
9岁女童倒地猝死后续:舅舅曝光真相,聊天内容流出,男方被打脸

9岁女童倒地猝死后续:舅舅曝光真相,聊天内容流出,男方被打脸

有范又有料
2026-01-15 15:26:30
千亿换来百万辆,赛力斯交给华为的天价学费到底值不值?

千亿换来百万辆,赛力斯交给华为的天价学费到底值不值?

汽车十三行
2026-01-15 09:22:09
山姆中国一年卖 1400 亿、增长 40%:不是超市不行,是“靠收地租”的零售走不通了!

山姆中国一年卖 1400 亿、增长 40%:不是超市不行,是“靠收地租”的零售走不通了!

新浪财经
2026-01-15 00:06:03
16亿只是保底,马斯克想给朱晓彤的是100亿

16亿只是保底,马斯克想给朱晓彤的是100亿

字母榜
2026-01-15 14:44:13
机场偶遇宋佳,姐真的是老了,面部松弛下垂严重,岁月是把杀猪刀

机场偶遇宋佳,姐真的是老了,面部松弛下垂严重,岁月是把杀猪刀

温读史
2026-01-15 11:48:44
聂卫平曾多次和邓小平打桥牌:老爷子牌技比我好得多,但出错牌也会虚心听取批评

聂卫平曾多次和邓小平打桥牌:老爷子牌技比我好得多,但出错牌也会虚心听取批评

极目新闻
2026-01-15 15:09:28
凑凑火锅郑州门店清零?呷哺呷哺回应

凑凑火锅郑州门店清零?呷哺呷哺回应

鲁中晨报
2026-01-15 14:11:08
盘后央行重磅利好!降息来了,A股午盘走强,ETF出现天量抛盘

盘后央行重磅利好!降息来了,A股午盘走强,ETF出现天量抛盘

看财经show
2026-01-15 16:57:15
裁判文书上网隐去法官姓名,破了“几十年的规矩”

裁判文书上网隐去法官姓名,破了“几十年的规矩”

中国新闻周刊
2026-01-15 12:29:36
强冷空气+冻雨已在路上!重庆天气即将“变脸”......

强冷空气+冻雨已在路上!重庆天气即将“变脸”......

鲁中晨报
2026-01-15 18:39:05
闫学晶一家三口现身机场!疑似遇到麻烦,老公不停打电话面露难色

闫学晶一家三口现身机场!疑似遇到麻烦,老公不停打电话面露难色

阿纂看事
2026-01-15 15:56:31
2026-01-15 19:04:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2794文章数 10428关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

美方就伊朗局势密集发声 专家:动武的后果将十分严重

头条要闻

美方就伊朗局势密集发声 专家:动武的后果将十分严重

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

数码
时尚
旅游
健康
房产

数码要闻

定档1月29日!AMD Ryzen 7 9850X3D发售时间已经确认

金工守艺人陈英泽:一锤定音,锻出山川意向

旅游要闻

上海迪士尼2026马年新春活动官宣,小马红心首次亮相

血常规3项异常,是身体警报!

房产要闻

突发!商业用房购房贷款最低首付比例下调至30%

无障碍浏览 进入关怀版