Skywork-R1V4让机器像侦探一样"看图说话"还能上网搜证据|轨迹|推理|模态|智能体|图像分析

分享至

这项由昆仑万维Skywork AI团队开发的研究成果于2024年12月发表，论文编号为arXiv:2512.02395v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

想象你有一个超级聪明的助手，不仅能看懂图片中的每一个细节，还能像资深侦探一样主动分析线索，甚至能上网查找相关信息来验证自己的判断。这听起来像科幻电影里的情节，但Skywork AI团队刚刚让这个梦想成为了现实。他们开发出了一个名为Skywork-R1V4的AI助手，这个"数字侦探"不仅拥有敏锐的"眼力"，还具备了前所未有的推理和搜索能力。

在AI发展的历程中，大多数系统都像是单一技能的专家——要么擅长看图，要么擅长搜索，但很少能将这些能力有机结合。就好比一个侦探团队，每个成员都有自己的专长，但缺乏协调配合。传统的AI助手往往面临三个关键问题：第一，它们通常将图像分析和网络搜索视为两个完全独立的任务，就像让一个近视的侦探单独工作一样效率低下；第二，大部分先进系统严重依赖复杂且成本高昂的强化学习训练，这种方法不仅费时费力，还经常产生不稳定的结果；第三，现有的规划模块往往基于理论假设而非真实的工具使用经验，就像纸上谈兵的作战计划一样缺乏实用性。

Skywork-R1V4的独特之处在于它完全改变了这种现状。这个AI助手拥有四项核心技能，就像一个训练有素的超级侦探。首先，它具备多模态智能规划能力，能够根据视觉输入制定结构化的执行计划，将复杂问题分解为一系列连贯的工具调用步骤。其次，它掌握了"图像思维"技术，能够通过编程方式主动操作图像——包括裁剪、缩放、对比度调整、旋转和像素级分析——来迭代优化视觉理解并解决模糊问题。第三，当内部知识不足时，它会执行深度搜索，使用三种工具进行多步骤、交叉验证的网络搜索：图像搜索、文本搜索和完整网页检索，有效减少知识密集型任务中的幻觉问题。最重要的是，它能够在单个任务中动态交替进行图像操作和搜索，实现真正的交互式、基于感知的推理。

这个系统最令人惊叹的地方在于，它完全通过监督学习训练而成，无需依赖任何强化学习。研究团队精心构建了一个包含不到3万个高质量样本的训练数据集，每个样本都经过严格的一致性验证。这就像是为侦探提供了3万个真实案例的详细档案，每个案例都记录了从发现线索到破案的完整过程。

一、像侦探一样主动分析图像

传统的AI看图就像一个被动的观察者，只能告诉你图片中有什么。而Skywork-R1V4更像一个主动的侦探，它不满足于表面信息，会主动深入挖掘细节。

当面对一张复杂图像时，这个AI助手会像经验丰富的侦探一样制定调查计划。比如说，当你给它看一张巴黎街景图并询问其中是否有狗时，它不会简单地扫一眼就给出答案。相反，它会先分析整体场景，识别出公园、人群聚集区等狗狗可能出现的位置，然后有策略地裁剪这些区域进行详细检查。就像侦探会重点搜查嫌疑人可能藏身的地方一样，AI会重点关注最有可能找到目标物体的图像区域。

这种"图像思维"技术的核心在于让AI具备了操作图像的能力。它可以像使用工具一样编写Python代码来处理图像，进行各种精确的操作。当发现某个区域可能包含重要信息但不够清晰时，它会自动调整对比度或增强细节。当需要仔细观察某个小物体时，它会精确裁剪并放大相关区域。这个过程是迭代进行的，每一步操作都会根据前一步的结果来调整，就像侦探根据新发现的线索调整调查方向一样。

研究团队为了确保这种能力的可靠性，从多个高质量数据源收集了分辨率不低于1024×1024的图像，并使用多个先进模型生成了涵盖各种操作类型的训练样本。他们特别注重数据质量控制，建立了严格的过滤机制。每个训练样本都要经过多轮验证：首先检查模型的最终答案是否与推理过程一致，然后验证每一步图像操作的结果是否与后续分析逻辑相符。这种严格的质量控制确保了AI学到的都是正确有效的推理模式，而不是错误的操作习惯。

特别值得注意的是，这个系统展现出了令人印象深刻的自我纠错能力。即使在训练过程中移除了包含错误操作的样本，系统在实际应用中仍然能够自主纠正操作错误。这就像一个侦探即使没有专门学习过如何处理特定类型的错误，也能凭借经验和直觉在犯错时及时调整策略。

二、智能网络搜索验证推理

当AI助手遇到超出其知识范围的问题时，它不会胡乱猜测，而是会像专业研究员一样主动查找资料。这种深度搜索能力分为两个层次，就像侦探处理不同复杂程度的案件一样。

对于相对简单的问题，AI会执行基础搜索。比如看到一张建筑物的照片时，它会先通过图像搜索识别建筑物的身份，然后进行几轮文本搜索获取相关信息。这个过程就像查阅百科全书一样直接有效。研究团队主要使用开源数据集中的问题来构建这类任务，并建立了严格的两阶段过滤机制。第一阶段是格式过滤，确保生成的搜索轨迹遵循正确的思考-行动模式。第二阶段是答案过滤，通过外部评判模型自动检验最终答案是否与标准答案一致。

更令人惊叹的是系统的增强搜索能力，这就像侦探处理复杂案件时需要进行深入调查一样。对于复杂问题，AI会进行五轮或更多的搜索，通过多个角度交叉验证信息，确保结果的准确性。为了构建这种高级搜索能力，研究团队开发了一个创新的数据生成方法。

他们将知识库视为一个庞大的关系网络，就像城市中错综复杂的街道系统。AI像一个好奇的探索者，从一个知识点出发，沿着相关性链接前往其他知识点。这个过程被称为"约束随机游走"。从一个种子实体开始，AI会分析该实体的核心信息，生成一个初始问题和一个可验证的简短答案。然后，它会从当前页面收集内部链接，这些链接就像通往其他知识领域的道路。

为了避免陷入常见或过于宽泛的话题，系统会智能地选择那些既相关又具有特异性的链接。每选择一个新的目标实体，系统都会提取当前实体与目标实体之间的关系，并总结相关属性。然后，它会重写问题，通过提及相关目标实体和它们之间的关系来间接描述同一个实体，有时还会添加简短的描述性线索以保持问题的具体性和明确性。

这种方法最终产生了自然、可执行的查询，这些查询支持多步推理。为了确保质量，每个问题-答案对在被接受之前都要经过严格的一致性检查，包括排除禁用实体或别名、确保答案简洁可验证，以及消除不符合独特性或可解释性要求的实例。

三、文本问题转换为多模态挑战

研究团队还开发了一种巧妙的方法，将纯文本问题转换为需要视觉理解的多模态问题。这就像是将书面推理题改编为需要观察实物的实验题。

这个转换过程充满了创意。对于每个文本问题，系统会识别出问题中的关键实体，然后为这个实体寻找合适的视觉表现形式。这个过程需要确保图像不是随意选择的装饰，而是推理过程中的必要组成部分。研究团队会根据实体的名称和特征描述构建结构化的搜索条件，通过搜索引擎检索候选图像，优先选择那些在视觉上信息丰富且具有代表性的图片。

选定图像后，系统会调用大语言模型重写原始问题，将明确的实体名称替换为基于视觉的指代表达。比如，原本询问"卢浮宫的建筑风格是什么"的问题可能会变成"这张图片中的建筑采用了什么建筑风格"。这种转换确保了视觉模态成为推理过程的重要组成部分，而不是可有可无的附加信息。

四、图像分析与搜索的无缝融合

Skywork-R1V4最革命性的特点在于它能够在单个任务中灵活地交替使用图像分析和网络搜索功能。这就像一个多才多艺的侦探，既能现场勘察又能查阅档案，还能将两种技能有机结合。

在处理复杂的视觉问题时，AI可能会先裁剪图像的某个区域进行详细分析，然后将分析结果用作搜索关键词在网上查找相关信息，再根据搜索结果指导下一步的图像操作。比如，当分析一张包含智能手表的图片时，AI可能会先裁剪手表区域，通过图像搜索识别手表型号，然后搜索该型号的技术规格，最后根据搜索到的信息准确回答关于手表特定功能的问题。

这种交替处理的能力需要高质量的训练数据支持。研究团队从LiveVQA数据集中随机抽取了3000个样本，使用先进的AI模型生成交替轨迹。但他们很快发现，模型在视觉感知方面的局限性经常导致错误的代码执行或不正确的图像操作。为了解决这个问题，他们使用视觉语言模型自动识别低质量样本并进行过滤，确保保留的样本都能展示正确的交替推理模式。

五、智能任务规划系统

除了具体的执行能力，Skywork-R1V4还具备了出色的任务规划能力。这就像一个经验丰富的项目经理，能够将复杂任务分解为清晰的执行步骤，并确保各步骤之间的逻辑关系。

这种规划能力的训练数据来源于前面提到的所有任务轨迹。研究团队将这些实际执行的轨迹转换为结构化的规划格式，每个步骤都包含自然语言描述、相应的工具名称和必要的参数信息。更重要的是，系统学会了使用符号占位符来表示步骤间的依赖关系，比如"[步骤1中识别的人物]"或"[从步骤4检索的结果]"，确保推理的逻辑连续性得以保持。

这种规划能力让AI能够在开始执行任务之前就制定出完整的策略，就像军事行动前的详细作战计划。每个计划步骤都明确指出了需要使用的工具、预期的输入和输出，以及与其他步骤的依赖关系。这种结构化的规划不仅提高了执行效率，还增强了整个推理过程的可解释性。

六、训练策略的精妙设计

整个系统的训练过程体现了研究团队的巧妙设计思路。他们采用了混合模式训练，将不同类型的数据混合在一起进行监督微调。这就像是为一个多才多艺的学徒安排全面的学习课程，既有专业技能训练，也有综合能力培养。

训练数据不仅包括前面提到的专门任务数据，还融入了大量通用的视觉问答数据，主要涵盖属性识别、空间关系理解等基础能力。研究团队使用不同的系统提示词来区分各种任务类型，让模型学会在不同情境下采用相应的推理模式。

在训练过程中，研究团队观察到了有趣的相互促进效应。训练规划模型提高了系统在搜索任务上的表现，而通用的视觉问答数据则增强了模型在图像思维过程中判断基本属性和关系的准确性，从而带来了感知基准测试的持续改进。这种协同效应证明了不同能力之间的有机结合确实能够产生1+1>2的效果。

为了确保训练质量，研究团队还实施了严格的数据清理策略。他们移除了那些涉及沙盒执行错误和需要重新裁剪的图像思维数据点，因为这些低效数据会让模型学习错误修复模式，导致显著的性能下降。这种选择性移除策略确保了模型学到的都是高效、正确的推理模式。

七、令人瞩目的实验成果

Skywork-R1V4在各种测试中展现出了令人印象深刻的性能表现。在感知任务方面，它在多个基准测试中创下了新纪录，特别是在需要精细视觉理解的任务上表现突出。在HRBench-4K精细感知任务中获得91.8分，在V*属性识别任务中达到90.4分，在MME-Real-CN感知任务中取得76.3分的成绩。

更令人惊叹的是它在深度多模态搜索任务上的表现。在MMSearch基准测试中获得66.1分，比基线模型提高了47.4分；在FVQA任务中达到67.2分，提升了13.9分；在BrowseComp-VL任务中取得38.4分，提升了8.4分。这些显著的提升证明了系统不仅增强了底层感知能力，还实现了稳健、可解释且工具增强的复杂开放世界场景推理。

令人惊讶的是，尽管Skywork-R1V4使用的是与基线相同的30B规模架构，但它在所有11个报告指标上都超越了Google的Gemini 2.5 Flash，并在其中5个指标上超越了Gemini 2.5 Pro。这一成果充分证明了基于智能体、图像基础推理框架的有效性。

实际应用展示更是生动地证明了系统的多样化能力。在规划模式下，AI能够为复杂的开放式问题生成结构化、基于工具的执行计划。在深度研究模式下，它展示了通过迭代图像操作进行精细视觉推理、通过多模态搜索进行准确地理定位，以及最值得注意的交替思维能力——在图像操作和搜索工具之间无缝切换以解决复杂的视觉查询。这些例子collectively展示了Skywork-R1V4在自适应、基础性和工具增强的多模态推理方面的能力。

八、效率优势显著

基于3B激活参数的架构设计，Skywork-R1V4在推理速度方面具有显著优势。在单轮评估的MMSearch和FVQA测试基准中，该模型比Gemini-2.5-Flash快约4倍，比Gemini-2.5-Pro快15倍。在更复杂的BrowseComp-VL基准测试中，速度提升约为5倍。

在启用代码和搜索工具的多轮端到端设置中，系统的平均推理时间和每秒令牌数仍然比其他模型高出约2倍。值得注意的是，这个计算包含了工具执行时间，如果排除工具执行时间，实际的模型侧每秒令牌数会更高。这种效率优势不仅来自于模型参数规模的优势，还体现了整体架构设计的优越性。

说到底，Skywork-R1V4的成功证明了一个重要观点：在AI发展的道路上，巧妙的设计思路和高质量的训练数据往往比单纯的规模扩张更加重要。这个系统就像一个经过精心训练的多面手，虽然规模不是最大的，但技能最全面、配合最默契。

研究团队的工作为未来的AI发展指明了几个有前景的方向。首先，系统框架可以融入更丰富的视觉和网络交互工具，如分割、深度估计或结构化DOM导航，以支持更复杂的任务。其次，规划能力可以通过记忆机制或预测模块来增强，改善长期任务的连贯性。虽然这项工作完全依赖监督微调，但未来的研究可以探索混合范式，将监督模仿学习的稳定性与多模态智能体强化学习的适应性相结合，这可能会进一步提高AI在开放世界环境中的稳健性和自主性。

最重要的是，Skywork-R1V4建立了一个强大的基础，证明了高保真监督，即使在适度规模下，也能解锁引人注目的智能体行为。这为那些希望开发实用AI助手的研究者和开发者们提供了一条更加可行和高效的路径。未来，我们可能会看到更多基于类似原理的AI系统出现在我们的日常生活中，成为真正有用的数字助手，帮助我们更好地理解和探索这个复杂的世界。

Q&A

Q1：Skywork-R1V4相比其他AI助手有什么独特优势？

A：Skywork-R1V4最大的优势是能够在一个任务中同时使用图像分析和网络搜索能力，就像一个既会现场勘察又会查阅资料的侦探。它可以主动操作图像进行精细分析，还能上网搜索验证信息，最重要的是能灵活地在这两种能力间切换。而且它完全通过监督学习训练，不需要复杂的强化学习，效率更高成本更低。

Q2：Skywork-R1V4是如何进行图像思维的？

A：图像思维就是让AI能够主动操作图像，而不是被动观看。当AI看到一张复杂图片时，它会像侦探一样制定分析计划，通过编写Python代码来裁剪、缩放、调整对比度等操作，逐步挖掘图像细节。比如寻找图中的小狗时，它会先锁定公园等可能出现狗的区域，然后精确裁剪这些区域进行详细检查，直到找到目标。

Q3：普通用户什么时候能使用Skywork-R1V4？

A：目前Skywork-R1V4还处于研究阶段，普通用户暂时无法直接使用。不过昆仑万维作为这项技术的开发者，很可能会在未来将这些能力集成到他们的产品中。考虑到这个系统的效率优势和实用性，相信不久的将来我们就能在各种智能助手产品中体验到类似的多模态推理能力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.