科学家将R1技术迁移到多模态领域，只需10条数据就能提升模型性能|算法|r1技术|客户端节点

分享至

既能将 DeepSeek R1 技术迁移到多模态领域，也能让 Qwen2 VL 学会批判性思维，最低只需 10 条数据就能提升模型性能，这便是来自上海交通大学、上海人工智能实验室和香港中文大学的研究人员打造的名为 Visual-RFT（Visual Reinforcement Fine-Tuning）的视觉强化微调开源项目，它进一步扩展了强化微调在视觉任务上的应用领域。

在只有大约 100 个样本的数据极其有限的采样条件下，Visual-RFT 的准确率比基线提高 24.3%，而监督微调则下降了 4.3%。

在小样本实验中，尽管 Visual-RFT 使用最少的训练数据，但是与监督微调相比，它展示了更卓越的小样本学习能力。在推理定位方面，Visual-RFT 在高度依赖推理的 LISA 数据集上表现出色，超过了像 GroundedSAM 这样的专门模型。

此外，在开放词汇对象检测中，Visual-RFT 将识别能力快速转移到新类别，包括 LVIS（Large Vocabulary Instance Segmentation）中的罕见类别，表现出很强的泛化能力。

具体而言，2B 模型在新类别的 COCO 数据集上实现了从 9.8 到 31.3 的平均精度均值（mAP，mean Average Precision）改进，在特定的罕见类别的 LVIS 上实现了 2.7 到 20.7 的平均精度均值改善。

这些多样化的视觉感知任务不仅突显了 Visual-RFT 在视觉识别中的强大泛化能力，还凸显了强化学习在增强视觉感知和推理方面的关键作用。

Visual-RFT：微调大型视觉语言模型的范式转变

Visual-RFT，也是第一种采用基于群体相对策略优化的强化学习策略来增强大型视觉语言模型的视觉感知能力和定位能力的方法。

Visual-RFT 在后训练阶段使用基于群体相对策略优化的强化算法和可验证的奖励，来增强模型的视觉感知能力和推理能力，从而能够提高大型视觉语言模型在处理各种视觉任务时的性能，特别是在微调数据有限的情况下。

具体来说，Visual-RFT 使用大型视觉语言模型为每个输入生成包含推理 tokens 和最终答案的多个响应，然后使用视觉感知可验证奖励函数，通过群体相对策略优化（GRPO，Group Relative Policy Optimization）算法来更新模型。

研究中，研究人员为不同的感知任务设计了不同的可验证奖励函数，例如用于物体检测的联合交叉（IoU，Intersection over Union）奖励。在细粒度图像分类、少量样本物体检测、推理基础以及开放词汇对象检测基准上的实验结果表明，与监督微调（SFT，Supervised Fine-tuning）相比，Visual-RFT 具有更强的性能和泛化能力。

例如，在大约 100 个样本的一次细粒度图像分类中，Visual-RFT 的准确率比基线提高 24.3%。在少量样本物体检测中，Visual-RFT 在 COCO 数据集的 two-shot 设置上也超过了基线 21.9，在 LVIS 上超过了基线 15.4。

概括来说：

首先，Visual-RFT 将具有可验证奖励的强化学习扩展到视觉感知任务中，而这些任务在微调数据有限的情况下是有效的。

其次，研究人员为不同的视觉任务设计不同的可验证奖励，以几乎可以忽略不计的成本实现了高效、高质量的奖励计算。

再次，研究人员对各种视觉感知任务进行了广泛的实验，包括细粒度图像分类、小样本物体检测、推理基础和开放词汇表物体检测。在所有设置中，Visual-RFT 都实现了显著的性能提升，大大超越了监督微调基线。

通过使用基于规则的可验证奖励系统，Visual-RFT 减少了手动标记的需要并简化了奖励计算，从而在各种视觉感知任务中取得了显著的进步。Visual-RFT 在最小数据下优于监督微调，并显示出很强的泛化能力，借此展示了强化学习在增强大型视觉语言模型能力方面的潜力，使它们在视觉感知任务中变得更加高效和有效。

Visual-RFT：与依赖于记住正确答案的监督微调形成对比

Visual-RFT 的框架下图所示，其由来自用户的多模态输入数据由图像和问题组成。

策略模型 πθ 输出推理过程，并根据输入生成一组响应。每个响应都通过一个可验证的奖励函数来计算奖励。在对每个输出的奖励进行分组计算后，评估每个响应的质量并用于更新策略模型。为了确保策略模型训练的稳定性，Visual-RFT 使用 KL 散度（Kullback-Leibler Divergence）来限制策略模型和参考模型之间的差异。（注：KL 散度，也称为相对熵，是一种衡量两个概率分布之间差异的指标。）

为了在可视化任务上扩展强化微调，研究人员给出了可视化强化微调的实现细节。对于每个输入，Visual-RFT 使用大型视觉语言模型生成包含推理 tokens 和最终答案的多个响应。

研究人员表示，Visual-RFT 与依赖于记住正确答案的监督微调形成对比。相反，Visual-RFT 能够探索不同的潜在解决方案，并学习优化由研究人员设计的可验证奖励函数所定义的期望结果，而不仅仅是模仿预先定义的答案。

Visual-RFT 能够将训练范式从监督微调中的数据缩放（data scaling），转变为针对特定多模态任务量身定制的可变奖励函数的战略设计。

可验证奖励和视觉感知能力（例如检测、定位、分类）的协同结合，让研究人员所使用的模型能够通过详细的推理过程，快速且高效地掌握新概念。

Visual-RFT：让 Qwen2 VL 学会批判性思维

据介绍，研究人员采用少样本学习方法，为模型提供最少数量的样本进行训练。对于图像分类和目标检测任务，采用小样本设置来评估模型的细粒度判别和识别能力，在有限的数据上应用强化学习。

然后，针对注重推理基础、需要强大推理能力的 LISA 数据集，使用 Visual-RFT 训练模型并评估其推理性能和感知性能。

同时，对于开放词汇表对象检测，研究人员通过在包含 65 个基类的细分 COCO 数据集上使用 Visual-RFT 训练 Qwen2-VL-2/7B，来评估模型的泛化能力。

然后，在 COCO 数据集的 15 个新类别和 LVIS 的 13 个罕见类别上进行测试。

需要说明的是，该模型的视觉感知和推理能力是在开放的词汇检测环境中进行评估的。

实验中，研究人员首先提示模型检查图像中是否存在类别，然后预测图像中存在的类别的边界框。

首先，研究人员进行了小样本分类实验。

为了展示 Visual-RFT 在视觉领域的广泛泛化能力，研究人员在细粒度图像分类上进行少样本实验。

研究人员选择了四个数据集：Flower102、Pets37、FGVCAircraft 和 Car196，它们包含数十到数百个类似的类别，因此这一分类任务的难度较大。

结果显示，仅需一次数据，Visual-RFT 就可以显著提高性能（+24.3%）。

相比之下，在相同的最小数据量下，监督微调显示出明显的下降（-4.3%）。在 4-shot 设置下，监督微调的性能仍略低于基线，而使用 Visual-RFT 的强化微调模型的平均性能提高了 25.9。

在 8-shot 和 16-shot 设置下，随着数据量的增加，监督微调的性能略微超过基线。

然而，监督微调的性能仍然明显落后于 Visual-RFT。如下图，研究人员展示了在处理细粒度分类任务时，经过强化微调后模型的一些推理案例。

这些结果不仅证明了 Visual-RFT 的强大泛化能力及其从有限数据中学习的能力，而且证实了与监督微调相比，强化微调可以真正理解任务并从推理中进行更深入的学习。

随后，研究人员进行了小样本物体检测实验。

小样本学习一直是传统视觉模型和大规模视觉语言模型面临的核心挑战之一。强化微调为该问题提供了新的解决方案，使模型能够利用少量数据快速学习和理解。

研究人员从 COCO 数据集中选择了 8 个类别，每个类别有 1、2、4、8 和 16 幅图像，以构建数据有限的训练集。

对于 LVIS 数据集，研究人员选择了 6 个罕见类别。

由于这些罕见类别的训练图像非常稀疏，每个类别有 1 到 10 张图像，将其近似为 10-shot 设置。

然后，研究人员使用强化微调和监督微调对 Qwen2-VL-2/7B 模型进行 200 步训练，以评估模型在有限数据下的学习能力。虽然监督微调和强化微调都能提升模型在小样本设置下的识别准确率，但强化微调后的模型表现始终大幅优于监督微调模型，保持了显著的领先优势。

在 COCO 类别中，随着训练数据的增加，监督微调模型的平均精度均值约为 31，而强化微调模型接近 47。

在 LVIS 小样本实验结果中，对于 LVIS 中六个更具挑战性的罕见类别，强化微调仍然优于监督微调。

实验结果清晰地展现了强化微调在少样本设置下的优异性能，让模型仅通过少量数据就能通过强化学习实现视觉感知能力的显著提升。

研究人员进一步测试了一些抽象的域外数据集。具体来说，其选择了 MG（Monster Girls）数据集，其中包含不同类型的动漫风格怪物女孩。通过使用域外数据，增加了模型识别和推理的难度，并在 4-shot 和 16-shot 设置下进行了实验。结果表明，强化微调取得了显著的性能提升，超过了监督微调。

接着，研究人员进行了推理依据实验。

视觉语言智能的另一个关键方面是根据用户需求确定精确的对象。

此前的专业检测系统缺乏推理能力，无法完全理解用户的意图。

在 LISA 训练集的帮助下，人们已经开展了多项工作，使得大型语言模型能够为其他模型输出控制 tokens 或通过监督微调直接预测边界框坐标。

在本次研究中，研究人员探索了 Visual-RFT 在这项任务中的能力，借此发现强化学习比监督微调有着显著改进。

具体来说，研究人员使用 Visual-RFT 和监督微调针对 LISA 训练集上的 Qwen2 VL 2B/7B 模型进行微调，该训练集由 239 幅具有真实推理对象的图像组成。

研究人员遵循与 LISA 相同的测试设置，并比较监督微调和本次的结果，两者都经过了 500 步微调。

与监督微调相比，Visual-RFT 在边界框联合交叉方面显著提高了最终结果。

此外，研究人员使用 Qwen2 VL 预测边界框提示 SAM 来生成分割掩码。

借此发现，Visual-RFT 能够显著增强了定位能力，并且优于之前的专用检测系统。

其中，模型在思维过程中显著提高了推理能力和定位准确性。

通过 Visual-RFT，Qwen2 VL 学会了批判性思维，并能够通过仔细检查图像来产生准确的结果。

为了进一步证明强化微调的泛化能力，研究人员进行了开放词汇对象检测实验。

Visual-RFT 相对于监督微调的优势在于，前者对于任务有着真正深入的理解，而不仅仅是记住数据。为此，研究人员首先从 COCO 数据集中随机抽取了 6K 个注释，其中包括 65 个基本类别。

研究人员使用这些数据对 Qwen2-VL-2/7B 模型进行了可视化强化微调和监督微调，并在 15 个以前从未见过的新类别上对模型进行了测试。

为了增加难度，研究人员进一步测试了 LVIS 数据集中的 13 个罕见类别。

经过强化微调后，Qwen2-VL-2/7B 模型在 COCO 数据集中的 15 个新类别上实现了平均精度均值增加 21.5 和 9.5。

在 LVIS 数据集中更具挑战性的罕见类别中，平均精度均值分别增加了 18.0 和 14.7。

Visual-RFT 不仅将其检测能力从 COCO 基本类别转移到新的 COCO 类别，而且在更具挑战性的罕见 LVIS 类别上也取得了重大改进。

值得注意的是，对于下表中的一些罕见的 LVIS 类别，原始模型或监督微调训练的模型无法识别这些类别，导致 AP 值为 0。

然而，经过强化微调后，该模型在识别这些以前无法识别的类别（如蛋卷和蒲团）方面显示出从 0 到 1 的质的飞跃。这表明 Visual-RFT 对于提高大型视觉语言模型视觉识别的性能和泛化能力具有重大影响。

可以说，Visual-RFT 代表了微调大型视觉语言模型的范式转变，它提供了一种数据高效、奖励驱动的方法，增强了特定领域任务的推理和适应性。它成功地扩展了强化微调，使大型视觉语言模型能够在各种多模态任务中使用，例如用于少样本分类和开放词汇目标检测之中。目前，研究人员已经 Github 上完全开源了训练代码、训练数据和评估脚本。

参考资料：

https://arxiv.org/pdf/2503.01785

https://github.com/Liuziyu77/Visual-RFT

运营/排版：何晨龙

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.