南开大学团队推出PEPO：让AI看图推理像侦探破案一样精准|数学|新论文|逻辑推理|神经网络

分享至

在人工智能快速发展的今天，让机器像人类一样理解图像并进行复杂推理始终是一个巨大挑战。南开大学视觉计算与图像处理实验室以及快手科技的研究人员最近在这个领域取得了重要突破。这项研究发表于2026年3月，论文编号为arXiv:2603.22847v1，有兴趣深入了解的读者可以通过该编号查询完整论文。

当前的大型视觉语言模型就像一个需要同时具备观察力和推理能力的侦探。在破案过程中，侦探需要仔细观察现场的每一个线索，同时运用逻辑推理将这些线索串联起来得出结论。同样，AI模型在处理复杂的视觉推理任务时，也需要准确识别图像中的关键信息，并通过多步骤的逻辑推理得出正确答案。

然而，现有的训练方法存在一个根本性问题：它们对推理过程中的每个步骤都给予相同的重视，就像一个侦探对现场的所有物品都投入相同精力一样。这种做法忽略了一个重要事实：在推理链条中，有些步骤专注于观察和理解视觉信息（感知阶段），有些步骤则致力于逻辑分析和探索不同可能性（推理阶段），它们的作用完全不同，理应得到不同的对待。

研究团队通过深入分析发现，成功的多模态推理具有明显的结构化特征。当AI模型给出正确答案时，其推理过程中会出现两类关键token（可以理解为推理步骤中的关键词汇）：一类是与视觉信息高度相关的"感知型token"，它们就像侦探发现的关键物证；另一类是具有高不确定性的"探索型token"，它们代表了推理过程中的关键决策点，就像侦探在多个推理方向中做出选择的时刻。

为了解决这个问题，研究团队提出了一种名为"感知-探索策略优化"（Perception-Exploration Policy Optimization，简称PEPO）的新方法。这种方法的核心思想是在训练过程中给予不同类型的推理步骤不同的重视程度，就像训练一个侦探时，特别强化他观察线索和逻辑推理这两项最重要的技能一样。

一、传统方法的局限性：为什么需要更精细的训练策略

当前主流的训练方法主要采用群组相对策略优化（GRPO）等技术。这些方法的工作原理类似于训练多个学生同时解答同一道题目，然后比较他们的答案质量，根据相对表现给予奖励或惩罚。

这种方法的问题在于它采用"一刀切"的评价方式。假设一个学生在解答几何题时，答案最终是正确的，传统方法会对这个学生整个解答过程中的每一个步骤都给予相同的正面反馈。然而实际上，这个解答过程可能包含多个不同性质的步骤：有些步骤是在仔细观察图形（感知阶段），有些步骤是在进行数学计算（推理阶段），还有些步骤可能是无关紧要的冗余表述。

研究团队通过对几何推理数据集Geometry3K的深入分析发现了一个重要规律。他们使用Qwen2.5-VL-3B-Instruct模型生成大量推理样本，然后仔细分析那些得出正确答案的推理过程。分析结果显示，成功的推理过程具有明显的"双重特征"：首先，它们都包含一些与视觉信息密切相关的关键词汇，这些词汇通常指向图形中的具体元素，如"三角形"、"角度"、"线段"等；其次，它们在某些关键决策点会表现出较高的不确定性，这反映了模型在多个可能的推理路径中进行选择的过程。

更有趣的是，当研究团队进行对比实验，将同样的问题输入给模型但不提供图像时，那些原本与视觉信息高度相关的词汇的表示会发生显著变化，而那些主要反映推理不确定性的词汇则相对稳定。这就像一个侦探在黑暗中破案和在明亮环境中破案的区别：观察相关的推理步骤会受到视觉条件的显著影响，而纯逻辑推理步骤则相对独立。

这些发现揭示了一个重要问题：传统的序列级优化方法无法区分推理过程中不同步骤的具体作用，因此无法提供最有效的训练信号。就像用同一套标准评价侦探的观察能力和逻辑推理能力一样，这种方法虽然能够提供整体评价，但无法针对性地改进特定技能。

二、PEPO方法的核心原理：精准识别推理过程中的关键节点

基于上述发现，研究团队设计了PEPO方法，其核心思想是为推理过程中的每个步骤计算一个个性化的权重，就像为侦探破案过程中的每个行动分配不同的重要性分数一样。

PEPO方法包含三个主要组件，它们协同工作来实现精细化的训练优化。

首先是感知建模组件。这个组件的作用类似于评估每个推理步骤与视觉证据的关联程度。具体来说，对于推理过程中的每个词汇，系统会计算它的内部表示与图像特征表示之间的相似度。这个过程就像分析侦探的每个观察记录与现场证据的匹配程度一样。计算方法是使用余弦相似度来衡量文本token的隐藏状态向量与所有视觉token的隐藏状态向量之间的相关性，然后在所有模型层上进行平均。那些与视觉信息高度相关的推理步骤会获得更高的感知分数。

第二个组件是探索建模。这个组件专门识别推理过程中的关键决策点，就像识别侦探在推理过程中面临重要选择的时刻。系统通过计算每个推理步骤的信息熵来实现这一目标。信息熵反映了模型在生成某个词汇时的不确定性：如果模型对下一个词汇的选择非常确定，熵值就较低；如果模型在多个可能选择之间犹豫不决，熵值就较高。高熵值通常出现在推理的关键转折点，比如从一个推理阶段转向另一个阶段的时候，这些时刻对于引导模型探索不同的推理路径具有重要意义。

第三个组件是感知-探索融合机制。这是整个系统最精巧的部分，它将前两个组件的输出巧妙地结合起来，为每个推理步骤生成一个综合权重分数。这个过程首先对感知分数和探索分数进行归一化处理，确保它们在相同的数值范围内。然后，系统计算两个分数的中心化和，并通过一个平滑的门控函数对其进行处理。

这个门控函数的设计非常巧妙：它使用双曲正切（tanh）函数来产生平滑的调节效果，避免了突变式的权重分配。更重要的是，最终的权重计算会将门控信号与原始的视觉相似度分数相乘，这确保了视觉感知始终处于主导地位，而探索信号只是在视觉相关的基础上提供进一步的调节。这种设计避免了对视觉不相关但具有高不确定性的推理步骤给予过度重视。

最后，系统通过softmax函数对所有权重进行归一化，并乘以序列长度，确保权重的平均值为1。这个设计保证了整体的训练信号强度保持不变，只是重新分配了不同步骤之间的相对重要性。

三、token级别优势估计：重新分配训练注意力的精妙机制

PEPO方法的一个关键创新在于它如何将传统的序列级别优势转换为更精细的token级别优势。这个过程就像将对一篇文章的整体评价细化为对每个句子甚至每个词汇的具体评价一样。

在传统的GRPO方法中，如果一个推理序列得到了正确答案，系统会计算一个序列级别的优势分数，然后将这个分数均匀地应用到推理过程中的每个步骤。这就像一个老师对一篇好作文给出了高分，然后认为作文中的每个句子都同样优秀。

PEPO方法则采用了更加精细的评价策略。它为每个推理步骤计算一个个性化的优势分数，公式为：A_t = [(1-λ) + λw_t] × A，其中A是原始的序列级别优势，w_t是该步骤的权重，λ是一个控制参数。

这个公式的设计很有智慧。参数λ控制着个性化程度：当λ=0时，所有步骤得到相同的优势分数，退化为传统方法；当λ=1时，优势分数完全由权重决定，实现最大程度的个性化。在实际训练过程中，λ从0线性增长到1，这意味着训练初期保持相对保守的策略，随着训练进展逐渐增强个性化程度。

这种设计的妙处在于它既保持了训练的稳定性，又实现了精细化的优化。在训练早期，模型还没有学会准确识别关键的推理步骤，过度的个性化可能导致训练不稳定。随着训练的进行，模型逐渐学会了识别重要步骤，此时增强个性化程度能够带来更精确的训练信号。

更重要的是，这种token级别的优势分配机制保持了整体优势的总和不变。所有token的优势分数之和仍然等于原始序列的优势乘以序列长度，这确保了训练信号的整体强度保持一致，只是改变了内部的分配方式。这就像重新分配一个班级的学习资源：总资源量不变，但会根据每个学生的具体需求进行个性化分配。

这种方法的另一个优势是它可以无缝集成到现有的训练框架中。研究团队展示了如何将PEPO分别与GRPO和DAPO（另一种先进的训练方法）结合，形成PEPOG和PEPOD两个变种。这种兼容性意味着研究社区可以轻松地将这种改进应用到现有的系统中，而无需重新设计整个训练流程。

四、实验验证：多领域任务中的显著性能提升

研究团队在多个具有挑战性的视觉推理任务上验证了PEPO方法的有效性，实验结果就像一系列精心设计的考试，全面检验了这种新方法的能力。

在几何推理任务中，研究团队使用Geometry3K数据集进行训练，并在MathVista、MathVerse和LogicVista等数据集上进行跨域评估。实验使用了两种不同规模的模型：Qwen2.5-VL-3B和InternVL3-2B。结果显示，PEPO方法在所有评估指标上都实现了持续的改进。

具体来说，在Qwen2.5-VL-3B模型上，PEPOG相比传统GRPO方法平均提升了3.67个百分点，而PEPOD相比DAPO方法提升了0.45个百分点。在InternVL3-2B模型上，这些提升幅度分别达到了3.51和5.15个百分点。这些改进在统计上非常显著，特别是在需要整合视觉和符号推理的复杂任务上表现尤为突出。

在视觉定位任务中，研究团队使用RefCOCO数据集进行训练，并在LISA-Grounding数据集上进行跨域评估。这类任务要求模型根据自然语言描述在图像中精确定位目标对象，是对视觉理解和语言理解结合能力的严格考验。结果显示，PEPO方法在IoU@50指标上实现了0.86的提升，同时有效避免了高熵方法容易出现的训练崩溃问题。

特别值得注意的是，在几次实验中，仅使用高熵信息的对比方法出现了训练失败，模型无法收敛到有效解。这进一步证明了PEPO方法中感知和探索信息平衡融合的重要性，单纯依靠其中任何一种信号都无法达到最佳效果。

在少样本分类任务中，研究团队在FGVC Aircraft和Flower102数据集上进行了1样本、2样本和4样本的实验。这类任务特别具有挑战性，因为模型需要从非常有限的样本中学习新的视觉概念。PEPO方法在这些任务上也表现出色，相比GRPO方法分别实现了5.32和1.46个百分点的平均提升。

视觉谜题推理是另一个重要的测试领域。研究团队在PuzzleVQA和AlgoPuzzleVQA数据集上进行了实验，这些任务要求模型识别抽象的视觉模式并进行逻辑推理。PEPO方法在这些任务上同样实现了一致的改进，提升幅度在1.52到1.71个百分点之间。

为了验证方法的可扩展性，研究团队还进行了大规模训练实验。他们使用包含39000个样本的ViRL39K数据集进行训练，然后在七个不同的推理基准测试上进行评估。结果显示，相比GRPO和PAPO等先进方法，PEPO方法在大规模设置下仍然保持了显著的性能优势，平均提升达到3.87个百分点。

这些广泛的实验结果表明，PEPO方法的改进不是针对特定任务的偶然现象，而是一种具有普遍适用性的根本性改进。无论是需要精确视觉定位的任务，还是需要抽象逻辑推理的任务，PEPO方法都能够提供一致且显著的性能提升。

五、方法的技术优势：计算效率与训练稳定性的完美平衡

PEPO方法不仅在性能上表现优秀，在工程实现方面也展现出了显著优势，这对于实际应用具有重要意义。

首先，这种方法的计算开销极其有限。研究团队详细分析了PEPO相比传统方法增加的计算成本，发现额外的权重计算时间仅占整个训练步骤的不到1%。这意味着在获得显著性能提升的同时，训练成本几乎没有增加。这种高效性的实现得益于PEPO方法的巧妙设计：它直接利用模型训练过程中已经计算的隐藏状态和输出概率，无需引入额外的神经网络分支或复杂的计算模块。

更令人惊喜的是，PEPO方法在某些情况下甚至能够提高训练吞吐量。分析发现，经过PEPO训练的模型倾向于生成更简洁的推理序列，平均响应长度有所减少。这种现象可能是因为模型学会了更加聚焦于关键的推理步骤，减少了冗余的表述。较短的响应序列部分抵消了权重计算的开销，有时甚至带来了净的效率提升。

在训练稳定性方面，PEPO方法也表现出色。研究团队通过详细的训练曲线分析发现，PEPO训练过程展现出更加平滑和可预测的优化动态。相比传统方法，PEPO训练的模型在奖励收敛、响应长度控制、视觉对齐程度和探索行为等多个维度都表现出更好的稳定性。

特别值得注意的是视觉对齐程度的变化趋势。在PEPO训练过程中，模型的视觉相似度指标呈现稳步上升的趋势，表明模型在训练过程中逐渐学会了更好地利用视觉信息。相比之下，传统方法的视觉对齐程度变化较为不规律，有时甚至出现下降趋势。

在探索行为方面，PEPO方法维持了适度的熵值水平，既避免了过度保守导致的探索不足，也避免了过度探索导致的训练不稳定。这种平衡对于强化学习系统尤为重要，因为适当的探索是发现更好策略的关键，但过度探索可能导致训练发散。

PEPO方法的另一个重要优势是它的模块化设计。研究团队展示了如何将PEPO无缝集成到不同的基础训练框架中，包括GRPO和DAPO等。这种兼容性意味着现有的训练系统可以轻松地采用这种改进，而无需进行大规模的代码重构。

六、深入的消融实验：解析每个组件的独特贡献

为了深入理解PEPO方法中各个组件的作用，研究团队进行了一系列精心设计的消融实验，就像解剖一个精密机械来理解每个零件的功能一样。

首先，研究团队分别测试了仅使用感知信息（α=0）和仅使用探索信息的效果。结果显示，单独使用感知信息就能够带来显著的改进，这证明了视觉相似度确实是一个强有力的训练信号。然而，仅使用探索信息的效果则明显较差，有时甚至导致训练不稳定。这个发现强调了视觉感知在多模态推理中的核心地位。

当感知和探索信息结合使用时，性能得到了进一步提升，表明两种信号确实具有互补性。感知信息提供了与视觉内容的对齐，而探索信息帮助模型在关键决策点进行适当的探索，两者的结合产生了协同效应。

研究团队还测试了不同门控强度α值的影响。实验发现，PEPO方法在相当宽的α值范围内都能保持良好的性能，展现出良好的鲁棒性。最佳的α值通常在0.02到0.10之间，但具体的最优值会因任务而异。这种鲁棒性对于实际应用很重要，因为它减少了超参数调优的负担。

在权重设计的消融实验中，研究团队验证了几个关键设计选择的重要性。首先，去除渐进调度策略（即λ始终为1）会导致显著的性能下降，这证明了训练初期保守策略的必要性。其次，去除归一化处理也会降低性能，表明保持不同信号之间的数值平衡很重要。最后，将门控机制替换为简单的加法融合同样会带来性能损失，证明了平滑门控机制的价值。

研究团队还分析了不同模型层的贡献。他们测试了仅使用浅层、中层或深层特征来计算视觉相似度的效果，发现使用所有层的信息能够获得最佳性能。这表明视觉相关性信息在不同的抽象层次上都有分布，需要综合考虑才能获得最准确的评估。

另一个有趣的发现是关于相似度度量的选择。研究团队比较了余弦相似度、L1距离和L2距离等不同度量方法，发现余弦相似度确实是最有效的选择。这可能是因为余弦相似度能够捕捉方向上的相关性而不受向量幅度的影响，更适合度量语义相似性。

通过这些详尽的消融实验，研究团队不仅验证了PEPO方法各组件设计的合理性，也为未来的改进提供了清晰的方向。这些实验表明，PEPO的成功不是偶然的，而是每个设计选择综合作用的结果。

七、实际应用案例：从理论到实践的生动演示

为了更好地展示PEPO方法的实际效果，研究团队提供了一系列具体的推理案例对比，这些例子就像"前后对比照"一样直观地展现了改进效果。

在几何推理任务中，研究团队展示了一个关于求解三角形中未知角度的问题。使用传统GRPO训练的模型在推理过程中出现了明显的错误：它错误地应用了角度关系，尽管从图形中可以清楚地看出这些角度是互补关系，但模型却将它们当作相等关系处理。这种错误反映了传统方法在视觉感知和逻辑推理对齐方面的不足。

相比之下，使用PEPO训练的模型展现出了明显更好的表现。它首先正确地识别了图形中的角度关系，然后基于这种正确的视觉理解进行逻辑推理。在推理过程中，模型准确地应用了互补角的性质，最终得出了正确答案。这个例子生动地说明了PEPO方法如何帮助模型更好地整合视觉观察和逻辑推理。

在数学推导任务中，传统方法训练的模型经常出现前后矛盾的推理步骤。例如，在一个涉及代数变换的问题中，模型在推理中间引入了一个错误的等式，然后基于这个错误继续推导，最终得出了错误的结论。这种现象表明传统方法在保持推理一致性方面存在不足。

而PEPO训练的模型在同样的问题上表现出了更强的推理连贯性。它不仅避免了中间步骤的错误，还在整个推理过程中保持了逻辑的一致性，从正确的前提出发，通过合理的变换步骤，得到了正确的最终结果。

在视觉定位任务中，对比效果同样明显。给定一个复杂场景图像和描述"电线杆"的文本，传统方法训练的模型有时会错误地将注意力集中在图像中的树木或其他垂直结构上，显示出视觉理解的不准确性。

PEPO训练的模型则能够更准确地识别和定位电线杆，在推理过程中明确提到了电线杆的特征（如"高大的垂直杆状结构"），并准确地在图像中标出了正确位置。这种改进不仅体现在最终结果的准确性上，也体现在推理过程的清晰性和可解释性上。

这些案例分析揭示了PEPO方法改进的深层原因：它不仅提高了模型的推理准确性，还增强了推理过程的连贯性和可解释性。模型学会了在适当的时候关注视觉细节，在需要的时候进行逻辑探索，并且能够将这两种能力有机地结合起来。

研究团队还分析了训练动态的变化。在使用PEPO的训练过程中，模型的平均视觉相似度呈现稳步上升的趋势，同时保持了适度的熵值水平。这种训练动态表明模型在学习过程中逐渐强化了视觉-文本对齐，同时保持了适当的探索能力。

相比之下，传统方法的训练动态更加不稳定，视觉对齐程度的变化较为随机，有时甚至出现下降。这种不稳定性可能导致模型在某些类型的问题上表现良好，而在另一些问题上表现较差，缺乏一致的可靠性。

八、方法的局限性与未来展望：诚实面对挑战与机遇

尽管PEPO方法展现出了显著的优势，但研究团队也诚实地承认了当前方法存在的一些局限性，这种科学态度为未来的改进指明了方向。

首先，当前的实验主要集中在相对较小的模型上（2B-3B参数规模），由于计算资源的限制，研究团队尚未在更大规模的模型（如7B或更大）上进行充分验证。虽然理论上PEPO方法应该同样适用于大型模型，但大模型可能具有不同的训练动态和特征表示能力，因此其具体效果仍有待验证。

其次，评估范围主要局限于静态图像的推理任务。随着多模态AI向视频理解、动态场景分析等更复杂任务发展，PEPO方法在这些新兴应用领域的适用性还需要进一步探索。视频理解涉及时序信息的处理，可能需要对现有的感知建模方法进行相应调整。

另外，当前的视觉相似度计算主要基于隐藏状态的余弦相似度，这种方法虽然简单有效，但可能无法充分捕捉复杂的视觉语义关系。未来的研究可能需要探索更加精细的视觉-文本对齐机制，或者结合更先进的跨模态表示学习技术。

在实际部署方面，虽然PEPO的计算开销相对较小，但在极大规模的生产环境中，即使是微小的额外开销也可能产生显著的累积成本。因此，进一步优化计算效率仍然是一个值得关注的方向。

尽管存在这些局限性，PEPO方法开辟了多模态推理优化的新思路，其核心理念——区分对待推理过程中的不同类型步骤——具有广泛的适用潜力。这种思路可能启发更多的研究工作，探索如何在更细粒度上理解和优化AI系统的学习过程。

未来的研究方向可能包括：探索更加精细的推理步骤分类方法，不仅区分感知和探索，还可能识别其他类型的推理操作；开发更加高效的权重计算方法，减少计算开销；将类似思想扩展到其他类型的序列学习任务；以及探索如何将这种方法与其他先进技术（如检索增强生成、工具使用等）结合。

研究团队表示，他们计划继续推进这个方向的研究，包括在更大规模模型上的验证、在更多任务类型上的测试，以及与产业界合作探索实际应用的可能性。这种持续的研究努力有望进一步推动多模态AI系统的发展，让机器在理解和推理方面变得更加智能和可靠。

说到底，PEPO方法代表了AI研究中一个重要的发展方向：从粗粒度的整体优化转向细粒度的精细调节。就像从用大刷子粗糙涂抹转向用细画笔精心雕琢一样，这种精细化的方法有望在保持效率的同时显著提升AI系统的能力。对于普通人而言，这意味着未来的AI助手可能会在理解图像、回答视觉相关问题等方面表现得更加准确和可靠。无论是帮助学生解答几何题，还是协助专业人士进行复杂的视觉分析，这种改进都可能带来实实在在的帮助。有兴趣深入了解技术细节的读者，可以通过论文编号arXiv:2603.22847v1查阅完整的研究报告。

Q&A

Q1：PEPO方法与传统的GRPO训练方法相比有什么本质区别？

A：传统的GRPO方法对推理过程中的每个步骤都给予相同重视，就像用一把尺子衡量所有内容。而PEPO方法能够识别推理过程中的两类关键步骤：与视觉信息相关的感知步骤和体现推理不确定性的探索步骤，然后给予它们不同的重视程度。这种精细化处理就像侦探破案时会特别关注关键线索和重要决策点一样，能够提供更有针对性的训练信号。

Q2：PEPO方法的计算成本会不会很高，普通研究者能否使用？

A：PEPO方法的额外计算开销非常有限，仅占整个训练过程的不到1%。这是因为它直接利用了训练过程中已经计算的隐藏状态和输出概率，无需引入额外的神经网络模块。而且研究团队发现，由于PEPO训练的模型倾向于生成更简洁的推理序列，有时甚至能够提高整体训练效率。因此，这种方法对计算资源的要求并不比传统方法高，普通研究者完全可以使用。

Q3：PEPO方法在哪些具体应用场景中效果最明显？

A：PEPO方法在需要结合视觉理解和逻辑推理的任务中效果最为显著。包括几何问题求解、数学图表分析、视觉定位、图像中的逻辑推理等场景。特别是在那些需要模型既要准确观察图像细节又要进行多步逻辑推理的复杂任务中，PEPO的改进效果尤为明显。实验显示，在这些任务上通常能够获得3-5个百分点的性能提升。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.