中科院重新定义AI视觉推理：让机器像人类一样思考图像|调用|模态|智能体|大模型

中科院重新定义AI视觉推理：让机器像人类一样思考图像

2025-12-16 17:16:06　来源: 科技行者

北京举报

分享至

由中国科学院大学叶启翔教授领导的研究团队在2024年12月发表了一项突破性研究成果，论文题为《Thinking with Images via Self-Calling Agent》，该研究提出了一种全新的AI视觉推理范式，彻底改变了机器理解和处理图像的方式。这项研究发表在arXiv预印本服务器上，编号为arXiv:2512.08511v2，为AI视觉推理领域带来了革命性的创新思路。

当我们看到一张复杂的照片时，大脑会自动将其分解成一个个小的观察任务——先看整体，再关注细节，识别文字，理解空间关系，最后综合所有信息得出结论。这个过程看似简单，但对于人工智能来说却异常困难。目前的AI模型就像一个不会合理分工的工厂，试图同时处理图像中的所有信息，结果往往顾此失彼，效率低下。

中科院的研究团队深刻认识到这个问题。他们发现，现有的"交替多模态思维链"方法就像让一个人同时用左手画圆、右手画方，虽然理论上可行，但实际操作极其困难。这种方法要求AI在处理图像和文字之间不断切换，就像一个厨师需要同时炒菜、切菜、调味，结果往往是手忙脚乱，效果不佳。更关键的是，这种复杂的切换过程很难通过强化学习来优化，就像试图教一个机器人同时学会骑自行车和走钢丝一样困难。

面对这个挑战，研究团队提出了一个绝妙的解决方案：自调用思维链（Self-Calling Chain-of-Thought，简称sCoT）。这个方法的核心思想非常巧妙——将复杂的视觉推理任务重新定义为一个纯语言推理过程，但配备了"自我调用"的能力。

这就好比将原本混乱的工厂重新组织成一个高效的现代企业。在这个企业中，有一个总经理（主智能体），当面临复杂任务时，它不会亲自处理每一个细节，而是将任务分解成若干个简单的子任务，然后"召唤"自己的虚拟分身（子智能体）来处理这些专门的工作。关键的是，这些子智能体实际上都是同一个AI模型的不同实例，就像一个人的多个分身，共享相同的"大脑"和能力，但专注于不同的具体任务。

具体来说，当AI遇到一个复杂的视觉问题时，比如"这张照片是在哪里拍摄的"，主智能体会首先分析整体情况，然后制定一个详细的调查计划。它可能会说："我需要先读取图片中的文字信息，然后识别建筑物的特征，最后分析地理标志。"接下来，它会依次调用专门的子智能体：第一个专门做文字识别（OCR），第二个专门做物体检测，第三个专门做图像描述。每个子智能体都在一个相对简单、清晰的环境中工作，就像专业的技术员在自己熟悉的工作台上操作一样。

这种方法的妙处在于将原本复杂的多模态推理问题转换成了纯语言推理问题。主智能体的整个思考过程都是用语言进行的，它思考的是"我应该调用哪个工具"、"如何整合这些信息"等问题，而不需要同时处理图像和文字的复杂交互。这就像将原本需要同时进行的多种技能变成了按顺序进行的单一技能，大大降低了学习和优化的难度。

研究团队设计了一套严格的工具调用协议，确保主智能体能够精确地与子智能体沟通。每次调用都需要三个关键信息：任务类型（比如是做文字识别还是物体检测）、具体指令（告诉子智能体要做什么）、以及图像区域（指定要分析图片的哪个部分）。这种设计确保了整个系统的有序运行，避免了混乱和低效。

为了让这个系统能够不断改进，研究团队采用了群体相对策略优化（GRPO）这一先进的强化学习方法。这就像为整个团队设计了一套完善的绩效评估和改进机制。系统会根据最终结果的准确性、格式的规范性、以及工具使用的合理性来评分，然后反馈给主智能体，帮助它学习更好的任务分解和协调策略。

特别值得注意的是，研究团队在奖励设计上做了一个重要的改进。他们发现原有的系统存在一个漏洞：AI可能会在给出答案后再调用工具，这样既能获得正确答案的奖励，又能获得使用工具的奖励，但这种行为实际上没有意义。因此，他们加入了一个时间顺序的约束：只有在答案给出之前调用的工具才能获得奖励。这个设计确保了AI学会的是真正有意义的推理策略。

实验结果令人振奋。在两个权威的视觉推理基准测试V*和HR-Bench上，使用sCoT方法训练的模型（被称为SubagentVL）表现优异。在V*基准测试中，SubagentVL达到了91.6%的综合准确率，比基础模型提升了20.4个百分点；在HR-Bench 4K测试中，达到了77.0%的准确率，提升了8.2个百分点。更令人印象深刻的是，这些性能提升是在使用明显更少计算资源的情况下实现的——相比于传统的交替多模态方法，sCoT只需要约25%的GPU计算时间。

这种效率的提升源于sCoT方法的本质优势。传统方法需要大量高质量的多模态推理数据来训练，这种数据既稀缺又昂贵。而sCoT主要依赖语言推理数据，这类数据相对丰富且容易获得。此外，由于推理过程被简化为语言域的操作，整个训练过程变得更加稳定和高效。

研究团队通过细致的训练动态分析发现了一个有趣的三阶段学习过程。在第一阶段，AI倾向于独自解决问题而不调用子智能体，工具调用次数实际上是下降的。这就像一个新员工刚开始时不愿意寻求帮助，试图自己完成所有工作。在第二阶段，AI开始学会有效地委派任务，工具调用次数上升，性能快速提升。这相当于员工学会了团队合作的价值。在第三阶段，AI发展出了成熟的协调策略，能够根据任务复杂程度灵活调整调用策略。

为了验证方法的有效性，研究团队进行了详尽的消融实验。他们发现，严格的工具调用约束对于系统性能至关重要。当他们放松了对任务类型、指令内容、或边界框的限制时，AI的学习过程变得不稳定，最终性能显著下降。这证明了设计中每个细节的重要性。

研究团队还探索了不同训练数据对性能的影响。他们发现，高分辨率的细粒度数据和图表数据对提升视觉推理能力最为有效，而包含过多抽象推理数据反而会干扰模型学习视觉定位能力。这个发现为后续的数据策略提供了重要指导。

值得一提的是，虽然sCoT主要针对复杂的视觉推理任务进行了优化，但在基础视觉能力测试中，它也表现出了良好的通用性。在物体定位、文字识别等基础任务上，SubagentVL与原始模型相比没有明显退化，甚至在减少幻觉方面还有所改善。这表明这种方法不会以牺牲基础能力为代价来提升高级推理能力。

这项研究的意义远远超出了技术层面的创新。它提供了一种全新的思路来解决AI领域的一个根本问题：如何让机器像人类一样进行复杂的多步骤推理。sCoT方法的核心智慧在于认识到，复杂问题的解决不一定需要复杂的方法，有时候将复杂性重新组织和分解反而能获得更好的效果。

从更广阔的视角来看，这种"自我调用"的范式可能会对整个AI系统设计产生深远影响。它展示了如何通过巧妙的任务分解和协调机制，让相对简单的组件组合成强大的整体系统。这种思路不仅适用于视觉推理，也可能启发其他AI应用领域的创新。

对于普通人来说，这项研究的成果可能会在不久的将来体现在各种实际应用中。比如更智能的图片搜索引擎，能够理解复杂场景的监控系统，或者能够协助医生分析医学影像的AI助手。这些应用都需要机器具备强大的视觉推理能力，而sCoT方法为实现这些目标提供了一条可行且高效的路径。

研究团队的工作还展现了中国AI研究的实力和创新精神。在一个被国际巨头主导的领域，中科院团队能够提出如此原创性的解决方案，不仅证明了中国学者的研究水平，也为全球AI发展贡献了中国智慧。

这项研究也为AI安全和可解释性提供了新的思路。由于sCoT方法将复杂的推理过程分解为一系列明确的子任务，整个推理过程变得更加透明和可追踪。我们可以清楚地看到AI是如何一步步得出结论的，这对于需要高可信度的应用场景具有重要价值。

总的来说，中科院团队的这项研究代表了AI视觉推理领域的一个重要里程碑。它不仅在技术上实现了显著突破，在计算效率上也达到了新的高度，更重要的是，它为我们重新思考AI系统设计提供了全新的视角。随着这种方法的进一步发展和完善，我们有理由期待AI在理解和推理视觉信息方面将达到前所未有的水平，为人类社会带来更多实用且强大的智能工具。

Q&A

Q1：什么是自调用思维链sCoT方法？

A：sCoT是一种新的AI视觉推理方法，它让一个主AI将复杂的看图任务分解成简单的子任务，然后调用自己的"分身"来处理这些子任务，最后整合所有结果。这就像一个项目经理将大项目拆分成小任务，分配给不同的专员处理，但这些专员其实都是同一个人的不同角色。

Q2：为什么sCoT方法比传统方法更高效？

A：传统方法要求AI同时处理图像和文字信息的复杂交替，就像让人同时用左右手画不同图形一样困难。sCoT将这个过程简化为纯语言推理，主AI只需要用语言思考"该调用什么工具"，大大降低了学习难度，因此只需要传统方法25%的计算资源就能达到更好效果。

Q3：这项技术会在哪些场景下应用？

A：这项技术未来可能广泛应用于智能图片搜索、安防监控系统、医学影像分析、自动驾驶车辆的环境理解等领域。任何需要AI深度理解复杂图像信息的场景都可能受益，比如帮助盲人理解周围环境，或协助考古学家分析文物照片等。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.