清华大学团队发布ViSurf：让AI视觉模型学习更聪明的新方法|数学|实验|visurf

分享至

这项由清华大学（CUHK）的刘雨奇等研究者联合香港科技大学（HKUST）和中国人民大学（RUC）的团队完成的研究，发表于2025年10月的arXiv预印本平台，论文编号为arXiv:2510.10606v1。对这项研究感兴趣的读者可以通过该编号查询完整论文。这项研究为大型视觉语言模型的训练提供了一种全新的方法，就像为AI的学习过程设计了一套更加高效的教学方案。

一、为什么我们需要更好的AI训练方法

要理解这项研究的重要性，我们可以把训练AI模型想象成教孩子学习的过程。传统的方法主要有两种：一种是严格按照教科书教学的"督导式学习"（SFT），另一种是让孩子通过反复练习和自我纠错来学习的"强化学习"（RLVR）。

督导式学习就像传统的填鸭式教育。老师拿着标准答案，告诉学生什么是对的，学生死记硬背。这种方法的好处是学生能够快速掌握教科书上的内容，但问题是一旦遇到教科书之外的题目，学生往往手足无措，甚至把之前学过的知识都忘得一干二净。

强化学习则像是让孩子通过做题获得奖励和惩罚来学习。孩子做对了题目就获得奖励，做错了就受到惩罚，通过这种方式逐渐形成正确的解题思路。这种方法的好处是孩子学会了思考和推理，不容易忘记之前学过的知识，但问题是如果孩子对某个领域完全没有基础，光靠自己摸索很难找到正确的方向。

研究团队通过大量实验发现了一个有趣的现象：当AI模型面对它已经有一定了解的任务时，强化学习的效果更好；但当面对完全陌生的任务时，督导式学习反而更有效。这就好比一个数学不错的学生通过做更多题目能够进步更快，但如果让他自学一门从未接触过的物理课程，有老师指导显然更有效率。

研究团队特别关注了一个叫做"非对象分割"的任务来说明这个问题。在这个任务中，AI需要在图片中找出指定的物体，比如"能够煮水的工具"或"可以切东西的物品"。有时候，图片中根本就没有这样的物体，AI需要聪明地回答"没有找到"。结果显示，用督导式学习训练的模型虽然整体表现一般，但至少知道什么时候该说"没有"；而用强化学习训练的模型虽然整体分数更高，但却总是试图在图片中找出并不存在的物体，就像一个过度自信的学生，即使题目没有答案也要硬编一个出来。

二、ViSurf的巧妙设计思路

面对这个两难问题，研究团队提出了一个巧妙的解决方案：能不能把两种学习方法的优点结合起来呢？他们开发的ViSurf（Visual Supervised-and-Reinforcement Fine-Tuning）就像是设计了一套全新的教学方法，既有老师的指导，又保留了学生自主探索的空间。

ViSurf的核心思想可以用一个生动的比喻来解释。假设我们在教一个学生解数学题，传统的督导式学习就像老师直接告诉学生答案是什么，让学生记住；强化学习则像让学生自己做题，做对了给奖励，做错了给惩罚。而ViSurf的做法是：让学生先自己尝试解题，然后把学生的答案和标准答案放在一起比较，根据整体表现来决定奖惩。这样，学生既能从标准答案中学到正确的解题方法，又能通过自己的尝试培养思维能力。

从技术角度来看，ViSurf通过数学推导证明了督导式学习和强化学习的目标函数（可以理解为学习的方向和目标）实际上有着相似的结构。就像两个看起来完全不同的教学方法，其实在数学本质上是可以统一的。基于这个发现，研究团队设计了一个统一的目标函数，能够同时包含两种学习方法的优点。

三、三个巧妙的控制策略

为了让这套新的学习方法能够稳定运行，研究团队还设计了三个巧妙的控制策略，就像给新的教学方法配备了三个安全保障措施。

第一个策略叫做"格式对齐"。这就好比确保老师的标准答案和学生的答案使用相同的格式。比如，如果学生习惯把答案写成"{'bbox':[1,2,3,4]}"的格式，那么标准答案也应该调整为"{'bbox': [1, 2, 3, 4]}"的格式（注意冒号后面的空格）。虽然内容相同，但格式的微小差异在计算机看来就是完全不同的答案。通过格式对齐，确保标准答案能够真正发挥指导作用。

第二个策略叫做"思维奖励消除"。由于标准答案通常只给出最终结果，而没有解题的思维过程，如果直接使用标准答案的思维部分来评分，可能会误导模型。就好比标准答案只告诉学生"答案是5"，但没有说明"因为2+3=5"的推理过程。在这种情况下，ViSurf会暂时忽略标准答案的思维评分，让模型主要从自己的尝试中学习如何思考和推理。

第三个策略叫做"奖励平滑"。这是最精妙的一个设计。系统会比较学生自己的最佳答案和标准答案的质量。如果学生已经找到了比标准答案更好的解决方案，系统就会降低标准答案的重要性，让学生继续按照自己的思路学习。这就像一个好老师会说："你的方法比教科书上的还要好，继续按照你的思路走。"通过这种方式，避免了标准答案对已经表现优秀的模型造成干扰。

四、令人印象深刻的实验结果

为了验证ViSurf的效果，研究团队进行了大量的实验测试，涵盖了从视觉分割到数学推理的多个领域。实验结果就像一场精彩的比赛，ViSurf在各个项目中都展现出了强劲的竞争力。

在非对象分割任务中，ViSurf取得了显著的突破。基础模型的准确率只有1.8%，传统督导式学习能够提升到3.3%，强化学习却直接降到了0%（因为模型总是试图找出不存在的物体），而ViSurf直接飙升到了57.1%。这种提升幅度就像一个原本只能偶尔答对题目的学生，突然变成了班里的优等生。

在推理分割任务中，ViSurf同样表现出色。这类任务需要AI不仅能识别物体，还要进行复杂的逻辑推理。比如，给AI一张图片，让它找出"可能是女士使用的物品"，AI需要综合考虑物品的特征、使用场景等多个因素。在这个任务上，ViSurf的表现比基础模型提升了约17%，比单独使用督导式学习或强化学习都要好。

特别值得注意的是，ViSurf在数学推理任务上也表现不俗。数学推理对AI来说是一个特别具有挑战性的领域，因为它不仅需要识别图片中的数学符号和图形，还要进行复杂的逻辑推理。ViSurf在MathVista测试中取得了71.6%的准确率，比基础模型提升了3.4个百分点。虽然提升幅度看起来不大，但在数学推理这样的高难度任务中，每一个百分点的提升都代表着显著的进步。

更令人惊喜的是，ViSurf成功解决了传统方法的一个老大难问题——灾难性遗忘。传统的督导式学习就像强迫学生忘记之前学过的知识来学习新内容，这导致模型在学习新任务时会忘记之前掌握的技能。ViSurf通过巧妙的设计避免了这个问题，让模型既能学习新知识，又能保持之前的能力。

五、深入分析：为什么ViSurf这么有效

为了更深入地理解ViSurf的工作原理，研究团队进行了详细的分析，就像解剖一台精密机器来理解它的每个零件是如何协同工作的。

首先，他们分析了训练过程中的"熵变化"。熵可以理解为模型的"不确定性"或"探索性"。高熵意味着模型还在积极探索各种可能的答案，低熵则意味着模型已经比较确定自己的答案。研究发现，ViSurf的熵变化曲线呈现出一种理想的模式：开始时迅速下降（表示模型快速从外部指导中学习），然后缓慢收敛（表示模型在稳定地完善自己的能力）。这种模式避免了强化学习中常见的"熵坍塌"问题，即模型过早地锁定某种策略而失去探索新可能性的能力。

其次，他们观察了训练稳定性。在长期训练过程中，纯强化学习方法的性能会出现波动甚至下降，就像一个学生在反复练习中逐渐失去了学习的方向。而ViSurf展现出了更好的稳定性，性能曲线更加平稳，这说明新方法能够让模型在长期学习中保持正确的方向。

研究团队还发现了一个有趣的"边界效应"。当基础模型的能力较弱（准确率低于50%）时，ViSurf能够带来显著的性能提升；但当基础模型已经表现很好（准确率高于50%）时，ViSurf的提升幅度相对较小，其上限大致等同于纯强化学习的效果。这个发现符合直觉：对于已经很优秀的学生，额外的辅导带来的提升自然会相对有限。

另一个重要的发现是ViSurf大大减少了对精细提示词设计的依赖。传统的强化学习需要非常精确的指令来告诉模型应该输出什么格式的答案，就像需要给学生提供非常详细的答题模板。而ViSurf由于包含了标准答案作为参考，即使在提示词相对简单的情况下也能正常工作，这大大降低了实际应用中的技术门槛。

六、成本效益分析和实际应用前景

从实用角度来看，ViSurf不仅在效果上有所突破，在成本控制方面也表现出色。研究团队对比了不同训练方法的计算成本，发现ViSurf的内存使用量与纯强化学习相当，每步训练时间也基本相同，但效果却明显更好。这就像找到了一种既便宜又好用的新配方。

与传统的两阶段训练（先用督导式学习，再用强化学习）相比，ViSurf的单阶段训练不仅节省了总训练时间，还避免了两阶段方法中的灾难性遗忘问题。两阶段训练就像让学生先死记硬背一遍教科书，然后再让他们通过做题来理解，这个过程中很容易出现前面学的内容被后面学的内容覆盖的问题。

在与当前最先进方法的对比中，ViSurf也展现出了竞争优势。在gRefCOCO和ReasonSeg这两个重要的视觉理解测试中，ViSurf的表现达到了同类方法中的最高水平，这证明了新方法的实际价值。

更重要的是，ViSurf的设计理念具有很强的通用性。虽然目前的实验主要集中在视觉任务上，但这种将外部指导和内部强化相结合的思路可以推广到其他AI学习任务中。就像一种好的教学方法不只适用于数学，也可以用来教授语文、物理等其他学科。

从未来应用的角度来看，ViSurf特别适合那些需要处理多样化任务的AI系统。在实际应用中，AI往往需要同时处理一些它很熟悉的任务和一些完全陌生的任务。传统方法往往只能在其中一类任务上表现出色，而ViSurf的自适应特性让它能够根据任务的不同自动调整学习策略，这为构建更加智能和灵活的AI系统提供了新的可能性。

说到底，ViSurf代表了AI训练方法的一个重要进步。它不是简单地把两种现有方法拼凑在一起，而是通过深入的理论分析和巧妙的工程设计，创造出了一种全新的学习范式。这种范式既保留了督导式学习在处理新领域问题时的优势，又发挥了强化学习在培养推理能力方面的长处，同时通过精心设计的控制策略确保了训练过程的稳定性。

对于AI研究者来说，这项工作提供了一个新的思路：不是所有问题都需要完全重新发明轮子，有时候最好的解决方案来自于对现有方法的深入理解和巧妙组合。对于AI的实际应用来说，ViSurf展现出的强大适应性和良好的成本效益比使它很有希望成为未来AI训练的标准方法之一。

有兴趣进一步了解技术细节的读者可以查阅原论文，其中包含了完整的数学推导、详细的实验设置和更多的分析结果。这项研究为我们理解如何让AI学习得更好、更稳定、更高效提供了重要的启示。

Q&A

Q1：ViSurf和传统的AI训练方法有什么区别？

A：ViSurf最大的创新是把两种传统方法合二为一。以前要么用督导式学习（像老师直接教答案），要么用强化学习（让AI自己摸索），ViSurf巧妙地把标准答案混入AI的自主练习中，让AI既能从正确答案中学习，又能保持自主思考能力。

Q2：ViSurf训练成本会很高吗？

A：实际上ViSurf的成本控制得很好。它的内存使用量和训练时间都与单纯的强化学习差不多，但效果明显更好。相比传统的两阶段训练（先督导再强化），ViSurf的单阶段训练反而更省时间和资源。

Q3：ViSurf能解决什么实际问题？

A：ViSurf特别擅长处理AI既熟悉又陌生的混合任务场景。比如让AI同时处理图像识别、数学推理、异常检测等不同类型的问题时，ViSurf能自动调整学习策略，在熟悉任务上发挥强化学习优势，在陌生任务上利用督导学习快速掌握新知识。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.