视觉世界中的定位强化学习：卡内基梅隆大学让AI"看"得更透彻|数学|推理|人工智能

视觉世界中的定位强化学习：卡内基梅隆大学让AI"看"得更透彻

2025-06-04 16:37:27　来源: 至顶科技

北京举报

分享至

在人工智能研究的最前沿，卡内基梅隆大学的研究团队开创了一种新方法，让计算机不仅能"看"，还能像人类一样理解和推理所看到的内容。这项名为"视觉推理的定位强化学习"（Grounded Reinforcement Learning for Visual Reasoning）的研究由Gabriel Sarch、Snigdha Saha、Naitik Khandelwal、Ayush Jain、Michael J. Tarr、Aviral Kumar和Katerina Fragkiadaki共同完成，发表于2025年5月29日的arXiv预印本平台（arXiv:2505.23678v1）。研究团队还建立了专门网站（visually-grounded-rl.github.io）供感兴趣的读者获取更多信息。

想象一下，当你试图理解一张复杂的图片时，你会怎么做？你可能先扫视整个画面，然后将注意力集中在关键区域，边看边思考，有时还会回过头来重新审视某些细节。这种自然而然的视觉理解过程对我们人类来说轻而易举，但对计算机而言却是一项艰巨的挑战。

卡内基梅隆大学的研究团队正是从人类的这种视觉行为中获得灵感，开发了一个名为ViGoRL（Visually Grounded Reinforcement Learning，视觉定位强化学习）的系统。与传统的视觉语言模型不同，ViGoRL不只是被动地"看"图像，而是主动地将注意力引导到图像中的具体位置，就像用手指指向图片中的特定区域一样，边看边思考，逐步推理。

让我们通过一个简单的例子来理解这一突破。假设我们问AI一个问题："篮子是否在木勺旁边？"面对一张厨房的照片，传统AI模型可能会给出不准确的回答，因为它无法明确地定位和关联图像中的物体。而ViGoRL系统则会像侦探一样，一步步分析："让我先找到木勺的位置，它们在柜台左侧靠近炉子。现在我看到篮子放在柜台后方，离木勺有一段距离。等等，我再仔细看看别的地方，在(200, 855)处有一个容器，但这不是篮子。所以，篮子不在木勺旁边。"这种方法不仅答案更准确，而且推理过程也更加透明和可理解。

传统的视觉语言模型在处理复杂图像理解任务时往往采用"一步到位"的方法，直接从图像输入跳到最终答案，中间缺乏明确的推理步骤。虽然有些研究如ViperGPT、VisualProg和V*等尝试将视觉任务分解为多个中间步骤，但这些方法通常生成固定的推理链，无法根据输入场景的结构进行灵活调整。

强化学习（RL）在语言模型的推理链上取得了显著进展，特别是在数学和编程等文本领域，使模型能够学习根据上下文调整的多样化推理策略。然而，强化学习只能在基础模型的采样分布中已经存在的推理行为上进行构建或组合。例如，Gandhi等人已经在基于文本的领域中发现了关键的认知行为，如设定子目标、回溯、验证等，这些行为支持强化学习下的自我改进。但在视觉推理任务中，这些认知行为是否同样支持泛化能力尚不明确。

最近的一些研究尝试直接在基础视觉语言模型上应用强化学习，隐含假设强化学习本身可以诱导有用的认知行为。然而，研究团队的分析显示，这种简单应用强化学习的方法通常会产生抽象、未定位的推理，而非更丰富、视觉定位的认知行为。这些发现与先前研究一致，表明显式提示视觉语言模型引用空间对象位置可以提高性能和可解释性，这表明将思维定位到空间区域可能是有效视觉推理的关键认知行为。因此，一个关键的开放问题是：如何在应用强化学习以实现稳健视觉推理之前，在视觉语言模型中嵌入有用的认知行为？

研究团队提出的假设是，当模型的文本推理步骤明确定位到特定图像区域时，模型不仅能"看"得更好，还能"思考"得更好，促进文本和视觉信息之间更有针对性和系统性的交叉引用。这一假设受到人类在推理世界时如何系统性地转移有限的注视点以有选择地收集和整合与任务相关的信息的启发。定位可能在模型中起到类似的作用，作为一种空间注意机制，实现准确的特征绑定并支持指示性引用，通过本地化的感知锚定简化多步推理。

研究团队提出了一个多轮强化学习框架，用于训练视觉语言模型以一种基于地面、视觉感知的方式进行推理。这与数学或代码中的语言模型推理形成对比，后者不需要严格地定位到外部输入。在每个推理步骤中，模型产生一个自然语言思想，并附带相应的空间定位（即图像中的(x, y)位置）。这使模型能够随着推理的展开，逐步细化其注意力并收集与任务相关的视觉信息。通过将多轮交互整合到强化学习过程中——每一轮由一个或多个推理步骤组成，然后是对视觉反馈工具的查询——模型学会在需要细粒度视觉信息时迭代请求所选区域的放大视图。关键的是，没有使用外部监督或明确的人工提供的定位线索来监督思想的空间定位；相反，模型自主学习提出和利用空间定位作为内部认知工具。

当前训练视觉语言模型直接从视觉输入产生文本答案的方法固有地使它们偏向抽象、未定位的推理，使强化学习方法很难自发地发现区域级别的系统视觉策略。为了在强化学习训练前明确注入定位推理行为，研究团队采用蒙特卡罗树搜索（MCTS）系统地拼接独立采样的推理步骤，生成多样化、视觉定位的推理轨迹。团队通过对这些MCTS构建的路径进行监督微调（SFT）来引导模型，从而将丰富的区域级推理策略嵌入到模型中。

然后，研究团队应用组相对策略优化（GRPO）进一步加强导致正确答案的定位序列。最后，团队引入了一种带有视觉反馈循环的新型多轮强化学习公式，允许模型在需要时通过工具调用动态放大图像区域进行更详细的视觉检查。这种多轮变体提高了模型定位和推理关于细粒度视觉元素的能力。

研究团队在一系列视觉推理基准上评估了ViGoRL，包括用于空间推理的SAT-2和BLINK，用于视觉搜索的V*bench，以及用于基于网络的定位的ScreenSpot和VisualWebArena。他们的方法在所有任务上始终优于现有方法。具体来说，ViGoRL在SAT-2上的准确率比香草GRPO高出12.9个百分点，在BLINK上高出2.0个百分点。在细粒度的网络定位场景中，他们的方法在ScreenSpot-Pro上超过了香草GRPO和大规模网络微调模型。通过利用多轮强化学习进行动态、放大的视觉反馈，ViGoRL进一步提高了ScreenSpot-Pro的性能，有效地定位高分辨率图像中的小元素。此外，多轮强化学习显著增强了视觉搜索能力，使ViGoRL在V*Bench上超越了视觉语言模型工具使用管道和专有视觉语言模型，达到86.4%的准确率。在VisualWebArena上，这是一个需要仅从图像输入进行网络交互的基准，无需访问HTML，ViGoRL优于直接SFT和香草GRPO，并超过了该模型大小的先前最先进技术ICAL，尽管只使用视觉输入。

消融研究证实了定位的重要性：没有空间锚定训练的模型表现明显较差。此外，研究团队发现定位放大了其他视觉认知行为，如区域探索、定位子目标设定和视觉验证。人类评估表明，模型的视觉引用不仅在空间上准确，而且有助于理解模型的推理步骤。

那么为什么视觉定位有用呢？研究结果表明，将每个推理步骤空间锚定迫使模型以更加结构化、符合人类的认知形式进行推理。ViGoRL学会迭代引用、检查和验证特定视觉区域中的内容——放大认知行为，如子目标公式、视觉验证和回溯。

这种模型架构反映了认知科学的见解：人类依靠空间注意力和视觉例程将复杂问题分解为可管理的、感知上定位的步骤。定位不仅仅是减少计算负荷（正如人类空间注意力常被描述的那样），而是用外部视觉结构支撑推理——有效地使用世界的内容作为思考过程的一部分。研究团队在模型中观察到类似的好处：空间定位能够更好地泛化，特别是在分布外环境中，并通过使中间步骤在物理上可引用来提高可解释性。

这项研究为未来的AI视觉理解系统开辟了新的可能性。通过训练模型使用指示引用——指向、放大、验证——未来的系统可能更好地反映支撑人类问题解决的迭代、定位策略。这为构建不仅能有效推理，而且以可查询、可适应和与感知体验一致的方式推理的代理开辟了有前景的方向。

正如研究者所说："视觉定位强化学习是为模型注入通用视觉推理能力的强大范式。"这项研究不仅提高了AI系统的视觉理解能力，还使其推理过程更加透明和可解释，向着更智能、更人性化的人工智能迈出了重要一步。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.