ICML 2026｜首个视觉语言模型并行思考框架，一文解析内在机制|推理|区分性|大模型|icml

ICML 2026｜首个视觉语言模型并行思考框架，一文解析内在机制

2026-05-25 12:24:55　来源: 机器之心Pro

天津举报

分享至

当前，测试时扩展范式普遍致力于增加推理长度。然而，已有研究表明，随着推理长度的持续增长，以垂直扩展为核心的计算范式容易陷入探索僵化等问题。因此，从另一维度拓展推理的宽度显得尤为重要。K2.5、Step3-VL 和 LongCat-Flash-Thinking 等模型已在推理宽度方面开展了有益的探索。

但另一方面，在视觉任务中，深度推理仍面临严峻挑战：随着推理序列的拉长，模型对视觉特征的注意力被不断稀释，导致 “注意力漂移”，进而引发严重的视觉幻觉。

为此，我们提出了 Visual Para-Thinker：这一针对大规模视觉语言模型的首个并行思考框架，并分析了该并行思考框架在视觉任务中发挥作用的内在机制。我们将 Pa-Attention（并行注意力机制）和 LPRoPE （分段学习位置编码）机制融入到我们的方法中，从而实现了不同推理路径隔离性、无偏性和可区分性。

论文标题：Visual Para-Thinker: Divide-and-Conquer Reasoning for Visual Comprehension
论文链接: https://arxiv.org/abs/2602.13310
主页链接: https://github.com/xuhaoran1/Visual-Para-Thinker

并行推理路径：以视觉为中心划分

过往研究提出的并行思考范式，其核心在于通过拓展推理宽度以提升模型性能，基本原则是 “保持推理路径的多样性”。我们的 Visual Para-Thinker 同样遵循这一原则。然而，针对视觉语言模型的特性，我们进一步提出了一种以视觉为中心的路径划分方式，并认为其本质在于对视觉 token 注意力的重新分配。由此提出了两种视觉划分的分配模式：块划分和扫描划分

块划分：这种策略是根据特定的区域子图来划分推理路径的。在这个配置方面，每条路径都会吸引独特的视觉注意力分布，这种分布集中在指定的子区域，例如左上角、右上角、左下角或右下角等象限，如图 (a) 所示。

扫描划分：这种方法通过采用不同的视觉扫描轨迹来区分推理路径。具体而言，每条路径代表一种独特的视觉注意力分配，这种分配对应于一个预定义的扫描顺序，例如从左到右、从上到下、从右到左以及从下到上，如图 (b) 所示。

这两种视觉划分方式各有优劣：块划分虽然能够生成不同的子区域，但可能导致不同路径之间的计算冗余；而扫描划分虽结构简洁，却容易削弱路径之间的多样性。为此，我们采用混合训练策略，将两种划分方式生成的数据共同用于模型训练，以实现优势互补。

块划分方式下不同路径的对视觉令牌注意力分配模式可视化

视觉并行思考框架

基于以上两种视觉路径的划分方式，我们提出了视觉并行思考框架。该框架分为并行思考阶段和总结阶段，并维护了不同并行推理路径的隔离性、无偏性和可区分性

并行思考阶段：基于共同的上下文，通过视觉划分这一理念，分配不同推理路径的思考方向
总结阶段：将不同并行推理路径的背景信息进行整合，并综合考虑这些信息以得出最终结论。

隔离性

为了保证推理路径的隔离性，我们提出了Path-aware Attention (路径感知注意力)，不同于因果注意力，路径感知注意力通过不同 < think i > 的特殊 token 实现不同路径的上下文隔离范式。

无偏性

为了保证推理路径的可区分性，过往的做法将不同路径的 position id 赋予不同的区间实现路径的之间的可区分性。然而，由于大语言模型的固有偏差，此时不同区间的 position id 存在先后顺序，会出现 loss in the middle 等现象，不同路径的思考权重会存在天生的位置偏差，我们认为这种方法因为不能将不同推理路径等同看待，本质上依然是串行思考。基于以上见解，我们将不同路径的 position id 赋予相同的区间，具体来说，在并行推理阶段，不同路径的起始 token 的 position id 相同

而在总结阶段，总结 token 的起始 token 则取最长的推理路径的结束 token 的 position id + 1

这使得不同推理路径在 Visual Para-Thinker 模型看来不存在固有的位置偏差，因而保证了无偏性。

可区分性

然而，上述将不同路径的位置编码映射为同一区间的做法仅仅保证了其无偏性，但损伤了不同路径的可区分性。如果直接使用这种位置编码，会导致 Visual Para-Thinker 混淆不同的推理路径，导致最后的结果错误。因而我们提出了Learnable Parallel Rotary Position Embedding (LPRoPE)，具体来说，我们在不同 token 进行旋转位置编码之前，加入该 token 属于的推理路径的可学习位置编码，将旋转位置编码和可学习的绝对位置编码相结合，最终实现路径的可区分性。

数据与实验

训练配方

我们构建了一个包含 163,000 个问题 - 答案对的并行推理数据集，数据来源包括 LVIS、LAION、Microsoft COCO、PixMoCount、RefCOCO、RefCOCO+ 和 RefCOCOg 等。

在我们的数据构建框架中，Qwen3-VL-235B-A22BInstruct 充当教师模型。我们通过在温度为 0.1 的条件下实施一种融合了基于块的分区和扫描顺序分区的混合视觉分区策略，为每个样本生成四条以视觉为中心的推理路径。此外，我们还利用高温的 Qwen3-VL-30B-A3B-Instruct 和 InternVL3 5-241B-A28B 来生成更多样化的数据和检查样本。

图一

实验结果

我们的实验主要在在以视觉为中心的视觉感知类任务中进行，包括计数任务 (Pixmo,CountBench)、视觉搜索 (V*)、幻觉任务 (MMVP、HallusionBench) 及视觉定位 (RefCOCO) 等多种视觉感知任务，通过开展大量实验验证了所提方法的有效性。如图一所示，我们的方法在 V * 任务上分别在 3B 和 7B 上获得了 12.6 和 6.3 的提升，另一方面，在幻觉任务上 HallusionBench 上，我们的方法在 3B 和 7B 上获得了 6.1 和 5.0 的提升。这充分验证了多模态并行推理在视觉感知类任务上的提升。另一方面，在 Grounding 任务中，相比于原始的 Qwen2.5-VL，我们的方法也获得了一定程度上的提升，这些实验从各个方面验证了我们的方法的有效性。

图二

此外，我们还探讨了不同视觉任务对划分模式的偏好。以计数任务为例，其视觉注意力通常分散于图像各处。若采用块划分，各路径的计算结果可能因区域重叠而产生累积偏差，进而引发幻觉。因此，在此类任务中，我们倾向于使用扫描划分。

从本质上看，块划分方式通过将不同图像区域分配给不同路径，实现了显式的注意力分配；而扫描划分方式则通过改变模型对视觉 token 的注意顺序与方式，形成一种隐式的注意力分配机制，最终同样映射为多样化的推理路径。前者体现了从全局到局部的设计思路，后者则仍保留全局视角。

块划分方式可能导致不同推理重复计算

Visual Para-Thinker 是将并行思考框架应用于视觉语言领域的抛砖引玉之作，之后我们会将并行思考 RL，多轮思考，Agentic RL 等方法陆续应用在 Visual Para-Thinker 中，将 Visual Para-Thinker 实现更快更好的扩展。随着 K2.5，Step3-VL 和 LongCat-Flash-Thinking 等基座模型关注到并行思考这一范式，我们相信这一范式日后会爆发出巨大潜力。

作者简介

许浩然，浙江大学硕士。研究方向为 Multi-Agent、Multi-Modal、RL等。以第一/共一作者身份在 ICML、ACL、CVPR、AAAI、ICLR等国际顶级会议发表多篇论文。通讯单位为小米MiLMPlus团队。通讯作者为李佳泽，现任小米高级算法工程师，研究方向为Multi-Agent, Agentic RL。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.