上海AI实验室突破：新算法提升图像语义理解能力|信号|模态|视觉|推理|ai实验室|深度思考模型

分享至

这项由上海AI实验室黄思远、瞿晓烨等研究人员联合上海交通大学、香港中文大学等机构完成的研究发表于2025年，论文编号arXiv:2510.09285v1。感兴趣的读者可以通过该编号查询完整论文。

当你看到一道几何题时，你会先仔细观察图形，识别出关键的线段、角度和关系，然后基于这些视觉信息进行推理。但目前的AI系统在处理视觉推理问题时，往往像个"盲人摸象"的学生——它们可能凭借语言模式匹配碰巧答对了题目，却没有真正"看懂"图像中的关键信息。

上海AI实验室的研究团队发现了一个有趣的现象：就像班级里有些同学做数学题时不看图，纯粹靠背公式和猜测也能偶尔答对一样，现有的多模态AI系统经常依赖文本线索而忽视视觉信息的重要性。这种"投机取巧"的学习方式虽然在某些情况下能获得正确答案，但无法培养出真正的视觉推理能力。

研究团队就像给AI戴上了一副特殊的"眼镜"，让它能够清晰地识别出哪些思考步骤真正需要依赖视觉信息。他们开发了一种名为VPPO（Visually-Perceptive Policy Optimization，视觉感知策略优化）的新算法，这个算法的核心理念就像一位优秀的老师，能够精确地识别出学生在解题过程中哪些步骤体现了真正的视觉理解，然后重点强化这些关键环节的学习。

一、揭开AI"偷懒"的秘密：为什么机器总是避重就轻

当我们观察目前最先进的AI视觉推理系统时，研究团队发现了一个令人意外的现象。就像学生做几何题时可能不仔细看图，而是根据题目文字描述来猜测答案一样，AI系统也经常采用这种"偷懒"策略。

研究人员通过深入分析发现，在AI生成的推理过程中，只有很少一部分步骤真正依赖于视觉信息。这就像一个学生在解答"求圆的面积"这道题时，可能完全忽视了题目给出的圆形图案，仅仅根据"半径为5"这个文字信息来计算答案。虽然最终答案可能正确，但这种做法显然没有培养出真正的几何直觉。

更深层的问题在于现有的训练方法。传统的强化学习就像一位"粗糙"的老师，对于答对题目的学生，会平均地表扬他们解题过程中的每一个步骤，无论这些步骤是基于深入的视觉分析还是简单的文字匹配。这种"雨露均沾"的奖励方式导致AI系统更倾向于寻找那些不需要复杂视觉处理的"捷径"。

研究团队通过对Qwen2.5-VL-7B模型在数学视觉推理任务上的表现进行细致分析，发现了两个关键洞察。首先，在AI生成的完整推理链中，真正具有高视觉依赖性的关键词汇（比如几何概念、数值、逻辑操作符）只占很小的比例，大部分生成的内容都是相对通用的语言模式。其次，不同的推理路径在整体的视觉依赖程度上存在显著差异——有些推理路径确实建立在扎实的视觉理解基础上，而另一些则主要依赖语言模式的重复。

这种现象的根本原因在于，当前的训练奖励信号过于粗糙和稀疏。系统只能在完成整个推理过程后得到一个简单的"对"或"错"的反馈，就像学生只能在考试结束后知道总分，却不知道具体哪些解题步骤是正确的，哪些是错误的。这种反馈方式无法引导AI系统学会区分哪些推理步骤真正体现了视觉理解能力。

二、像侦探一样追踪：如何测量AI对图像的真实依赖

为了解决这个问题，研究团队开发了一种巧妙的"测谎器"，能够精确测量AI在生成每个词汇时对视觉信息的真实依赖程度。这个方法的核心思想就像给AI做"双盲测试"——让它分别在看到完整图像和部分遮挡图像时回答同一个问题，然后比较两种情况下回答的差异程度。

具体来说，研究团队会给AI系统同时展示两个版本的图像：一个是原始的完整图像，另一个是经过特殊处理的"损坏"版本。这个损坏过程很有意思——他们将图像分割成14×14像素的小方块（就像把一张照片撕成许多小碎片），然后随机将一半的碎片涂黑，这样就创造出一个保留了部分视觉信息但缺失了关键细节的"不完整"图像。

当AI系统基于这两个不同版本的图像进行推理时，如果某个生成的词汇在两种情况下的预测概率分布差异很大，那就说明这个词汇高度依赖于完整的视觉信息。相反，如果某个词汇的预测概率在两种情况下几乎相同，那就表明它主要是基于语言模式而非视觉理解。

研究团队使用KL散度这个数学工具来量化这种差异程度。KL散度就像一把精密的天平，能够测量两个概率分布之间的"距离"。当AI系统看到完整图像时预测某个词汇的概率分布与看到残缺图像时的预测分布相差越大，KL散度值就越高，说明这个词汇的视觉依赖性越强。

通过这种方法，研究团队能够为AI推理过程中的每一个生成步骤打上一个"视觉依赖性评分"。那些获得高分的词汇往往是推理过程中的关键节点——比如几何图形的特定属性、从图像中读取的数值、基于视觉观察得出的逻辑关系等等。

更令人惊喜的是，这个测量方法揭示了一个重要规律：视觉依赖性的分布呈现出明显的长尾特征。绝大多数生成的词汇依赖性较低（主要基于语言模式），只有少数关键词汇具有很高的视觉依赖性。这就像在一篇文章中，虽然有很多连接词和修饰词，但真正承载核心信息的关键词只有那么几个。

三、打造精准的AI导师：让机器学会重点学习

基于对视觉依赖性的深入理解，研究团队设计了VPPO算法，这个算法就像一位非常精明的私人导师，能够识别出学生学习过程中的关键环节，并给予针对性的指导和强化。

VPPO的工作原理建立在两个层面的精细调控上。在宏观层面，它会评估整个推理路径的视觉质量。就像一位老师批改作业时，不仅要看最终答案是否正确，还要评估学生的解题思路是否真正体现了对问题的深入理解。VPPO会计算每条推理路径中所有步骤的平均视觉依赖性，然后据此调整对该路径的重视程度。

那些具有高平均视觉依赖性的推理路径会获得更高的"加权系数"，就像老师会特别表扬那些展现出深度思考过程的学生作业一样。相反，那些主要依靠语言模式匹配的"投机"路径即使碰巧得到了正确答案，也会受到相对较低的强化。这种差别化的奖励机制引导AI系统逐渐偏向于那些真正基于视觉理解的推理方式。

在微观层面，VPPO采用了一种叫做"令牌级梯度过滤"的精细技术。传统的训练方法就像用大刷子粉刷墙壁，对推理过程中的每个步骤都给予同等的关注。而VPPO更像是用精细的画笔，只对那些真正重要的细节部分进行精心修饰。

具体来说，对于每条推理路径，VPPO会识别出视觉依赖性最高的前40%的关键步骤，然后将训练的注意力完全集中在这些关键环节上。这就像一位经验丰富的教练在训练运动员时，会重点强化那些对提高成绩最关键的技术动作，而不是平均分配练习时间。

这种选择性关注的好处是多方面的。首先，它避免了训练信号的稀释——通过过滤掉那些不重要的步骤，算法能够将有限的学习资源集中投入到最有价值的地方。其次，它降低了训练过程中的噪声干扰——那些基于语言模式匹配的"伪推理"步骤不再会混淆AI系统的学习过程。最后，它提高了训练的效率和稳定性——由于关注点更加集中，AI系统能够更快地收敛到更优的解决方案。

研究团队通过理论分析证明，VPPO相比传统方法能够显著降低训练过程中的方差。这个数学上的优势在实际应用中转化为更稳定的训练过程和更高的最终性能。就像一个学生通过有针对性的重点复习，往往比漫无目标的题海战术更容易取得好成绩。

四、实战验证：让数字说话的惊人效果

为了验证VPPO算法的实际效果，研究团队进行了一系列全面的实验测试，就像让一个经过特训的学生参加各种不同类型的考试来证明学习效果。他们选择了八个不同领域的具有挑战性的视觉推理基准测试，这些测试涵盖了数学推理、几何分析、逻辑思维和多学科综合应用等多个方面。

在7B参数规模的模型测试中，VPPO取得了令人印象深刻的成绩。与基准的DAPO算法相比，VPPO在平均准确率上实现了2.5个百分点的显著提升，从55.0%提高到了57.5%。这个看似不大的数字提升背后，实际上代表着AI视觉推理能力的重大飞跃，因为在这些高难度的推理任务中，每一个百分点的提升都需要算法在理解能力上的实质性进步。

更令人惊喜的是，这种优势在更大规模的32B参数模型上得到了进一步验证。VPPO在32B模型上的平均准确率达到了64.6%，比基准方法高出7.6个百分点。这种跨规模的一致性表现说明VPPO的改进不是偶然的，而是源于算法本身的优势。

在具体的任务表现上，VPPO展现出了全面而均衡的优势。在MathVerse数学视觉推理任务中，它的准确率达到71.6%，比基线方法提高了3.3个百分点。在需要复杂几何理解的Geo3k任务中，VPPO的表现尤其出色，准确率提升了5.0个百分点，达到46.5%。这些具体的数字反映了VPPO在处理需要深度视觉理解的推理任务时的显著优势。

除了性能提升之外，VPPO还展现出了更好的训练稳定性。训练过程的曲线图显示，采用VPPO的模型能够更快地达到收敛状态，并且在训练过程中表现出更少的波动。这就像一个学生在学习过程中不仅最终成绩更好，而且学习曲线更加平稳，没有出现大起大落的情况。

研究团队还进行了详尽的消融实验来验证算法各个组成部分的贡献。他们发现，单独使用轨迹级别的优势塑造能够带来1.3个百分点的改进，而单独使用令牌级别的梯度过滤能够带来2.1个百分点的改进。最重要的是，当这两个机制结合使用时，效果不是简单的相加，而是产生了协同效应，总体提升达到了2.5个百分点。

为了进一步验证视觉依赖性度量方法的有效性，研究团队还比较了不同的令牌选择策略。结果显示，基于视觉依赖性选择关键令牌的策略明显优于基于预测熵值的选择策略和随机选择策略。这证明了研究团队提出的视觉依赖性度量确实能够有效识别出推理过程中的关键步骤。

五、透过现象看本质：算法改进背后的深层智慧

VPPO算法的成功不仅体现在实验数字的提升上，更重要的是它体现了对AI学习过程的深层理解和精准干预。通过对具体推理案例的定性分析，我们能够更直观地看到这种改进是如何发生的。

在一个典型的几何推理问题中，传统算法可能会产生这样的推理过程：先提到一些几何概念，然后进行一系列计算，最后得出答案。表面上看，这个过程似乎是合理的，但仔细分析会发现，其中的很多步骤实际上并没有真正基于对图形的深入观察和分析。

相比之下，经过VPPO训练的模型会表现出截然不同的推理特征。它会更明确地指出从图像中观察到的关键信息，比如"从图中可以看出OA和OB是圆的半径，因此三角形AOB是等腰三角形"。这种表述不仅更加准确，而且清楚地展示了视觉观察与逻辑推理之间的联系。

更有趣的是，VPPO识别出的高视觉依赖性令牌往往对应着推理过程中的关键转折点。这些令牌通常包括几何术语（如"半径"、"切线"、"垂直"）、从图像中读取的数值、以及连接视觉观察与逻辑推理的关键词汇（如"因此"、"根据"、"由于"）。这表明算法确实学会了识别和强化那些体现真正视觉理解的关键环节。

研究团队还发现，经过VPPO训练的模型在面对复杂推理任务时展现出更好的鲁棒性。当问题的表述方式或图像的呈现形式发生变化时，这些模型能够更好地适应，因为它们的推理过程真正建立在对视觉信息的深入理解基础上，而不是对特定语言模式的记忆。

从训练效率的角度来看，VPPO也展现出了显著优势。由于算法能够更精确地定位学习的重点，模型能够用更少的训练步骤达到更好的性能。这不仅提高了训练效率，还降低了计算成本，使得这种改进具有很好的实用价值。

算法的理论基础也值得关注。研究团队通过严格的数学分析证明，VPPO能够显著降低策略梯度估计的方差。这个理论结果解释了为什么VPPO在实际应用中能够表现出更好的训练稳定性和收敛性。低方差的梯度估计意味着每次参数更新都更加可靠和有效，从而加快了整个学习过程。

六、突破与局限：算法改进的全面审视

尽管VPPO取得了显著的成效，研究团队也坦诚地分析了当前方法的局限性和未来改进的方向。这种科学严谨的态度让我们能够更全面地理解这项技术的现状和发展潜力。

从计算成本的角度来看，VPPO确实引入了额外的计算开销。由于需要对每个训练样本同时处理原始图像和遮挡版本，训练时间增加了约10%。不过，考虑到性能的显著提升，这个额外成本是完全值得的。就像购买一台更精密的仪器可能需要更高的初期投入，但能够带来更准确的测量结果和更高的工作效率。

在应用范围方面，当前的验证主要集中在数学、几何和逻辑推理等具有明确答案的任务上。对于一些更加开放性和创造性的视觉任务，比如艺术评析或创意写作，VPPO的效果还有待进一步验证。这是因为在这些任务中，"正确"的视觉理解可能没有唯一的标准，这给算法的设计和评估带来了新的挑战。

模型规模的可扩展性也是一个值得关注的问题。虽然VPPO在7B和32B参数的模型上都表现出了一致的改进效果，但在更大规模的模型（比如100B参数以上）上的表现还有待验证。随着模型规模的增长，其内在的推理机制可能会发生变化，这可能需要对算法进行相应的调整和优化。

在方法的普适性方面，当前的视觉依赖性测量主要基于图像遮挡的策略。虽然这种方法在当前的测试中表现良好，但针对不同类型的视觉任务，可能需要设计更加专门化的依赖性测量方法。比如，对于涉及时间序列的视频理解任务，可能需要考虑时间维度上的依赖性测量。

参数调整的敏感性也是实际应用中需要考虑的因素。VPPO算法中包含几个关键的超参数，比如令牌过滤的比例和优势塑造的范围。虽然研究团队通过实验确定了在测试数据集上的最优参数设置，但在应用到新的任务或数据集时，可能需要重新进行参数调优以达到最佳效果。

尽管存在这些局限性，VPPO所代表的研究方向具有重要的启发意义。它展示了通过更精细地理解和干预AI学习过程，我们能够显著提高模型在复杂推理任务上的表现。这种思路不仅适用于视觉推理，也可能扩展到其他需要多模态理解的AI任务中。

七、展望未来：开启AI视觉理解的新篇章

VPPO算法的成功为AI视觉推理领域打开了一扇新的大门，展现了未来发展的广阔前景。这项研究不仅在技术层面取得了突破，更重要的是提出了一种全新的思考框架，即如何让AI系统真正"看懂"而不是"猜对"。

从技术发展的角度来看，VPPO所采用的"令牌级视觉依赖性分析"方法可能成为未来多模态AI系统的标准组件。就像现在的深度学习模型普遍采用注意力机制一样，未来的视觉推理系统可能都会集成类似的依赖性分析模块，以确保推理过程真正建立在对视觉信息的深入理解基础上。

这种技术进步的实际应用前景十分广阔。在教育领域，配备了VPPO算法的AI辅导系统能够更准确地理解学生提交的手写作业和图表，提供更精准的指导和反馈。在医疗诊断中，AI系统能够更可靠地分析医学影像，因为它的诊断过程真正基于对影像特征的深入观察，而不是对报告模板的简单匹配。

在自动驾驶和机器人应用中，VPPO的思想同样具有重要价值。当机器人需要在复杂环境中进行决策时，确保其推理过程真正基于对环境的准确视觉理解是至关重要的。这不仅关系到任务执行的效果，更关系到安全性和可靠性。

从研究方法论的角度来看，VPPO展示了"精细化干预"在AI训练中的威力。传统的强化学习方法往往采用相对粗糙的奖励信号，而VPPO通过引入更精细的分析和更有针对性的干预，显著提高了训练效果。这种思路可能会启发更多类似的研究，比如在自然语言处理中分析语言理解的深度，在语音识别中区分基于声学特征和语言模式的识别过程。

值得注意的是，VPPO的成功也为AI可解释性研究提供了新的思路。通过分析哪些令牌具有高视觉依赖性，我们能够更好地理解AI系统的推理过程，识别其决策的关键节点。这对于构建更加透明和可信的AI系统具有重要意义。

当然，要实现这些美好前景，还需要解决一些技术挑战。比如，如何将VPPO的思想扩展到更复杂的多模态场景中，如何处理不同模态信息之间的相互作用，如何在保持算法有效性的同时降低计算成本等。这些都是未来研究需要重点关注的方向。

说到底，VPPO算法的真正价值不仅在于它带来的性能提升，更在于它为我们提供了一种新的视角来思考AI学习的本质。它告诉我们，要让AI真正智能，不能满足于表面的正确答案，而要深入到推理过程的内部，确保每一个步骤都体现了对问题的真正理解。

这种对"理解"而非"记忆"的强调，可能是AI发展史上的一个重要转折点。随着类似思想的进一步发展和应用，我们有理由相信，未来的AI系统将不仅能够给出正确答案，更能够用我们认可的方式来思考和推理。这样的AI系统将真正成为人类智能的有力助手，而不仅仅是一个复杂的模式匹配器。

研究团队的这项工作为整个AI领域树立了一个重要的里程碑。它不仅推进了技术的发展，更重要的是引导我们思考什么才是真正的智能，以及如何构建更加可靠和可信的AI系统。在AI技术日新月异的今天，这样的思考显得尤为珍贵和重要。

Q&A

Q1：VPPO算法是什么？它与传统AI训练方法有什么不同？

A：VPPO（视觉感知策略优化）是上海AI实验室开发的一种新型AI训练算法，专门用于提高多模态AI系统的视觉推理能力。与传统方法不同的是，VPPO能够精确识别AI推理过程中哪些步骤真正依赖视觉信息，然后重点强化这些关键环节的学习，而不是平均对待所有推理步骤。

Q2：为什么现有的AI系统在视觉推理上表现不佳？

A：主要问题是现有AI系统经常采用"投机取巧"的策略，即主要依靠文本模式匹配而非真正的视觉理解来回答问题。就像学生做几何题时不看图形，仅凭题目描述猜答案一样。传统训练方法无法区分哪些推理步骤体现了真正的视觉理解，导致AI学会了"猜对"而非"看懂"。

Q3：VPPO算法在实际测试中效果如何？

A：VPPO在多项视觉推理基准测试中都取得了显著改进。在7B参数模型上，平均准确率从55.0%提升到57.5%，在32B参数模型上达到64.6%，比基准方法高出7.6个百分点。更重要的是，算法还展现出更好的训练稳定性和更快的收敛速度。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.