网易首页 > 网易号 > 正文 申请入驻

ICML 2026|首个视觉语言模型并行思考框架,一文解析内在机制

0
分享至



当前,测试时扩展范式普遍致力于增加推理长度。然而,已有研究表明,随着推理长度的持续增长,以垂直扩展为核心的计算范式容易陷入探索僵化等问题。因此,从另一维度拓展推理的宽度显得尤为重要。K2.5、Step3-VL 和 LongCat-Flash-Thinking 等模型已在推理宽度方面开展了有益的探索。

但另一方面,在视觉任务中,深度推理仍面临严峻挑战:随着推理序列的拉长,模型对视觉特征的注意力被不断稀释,导致 “注意力漂移”,进而引发严重的视觉幻觉。

为此,我们提出了 Visual Para-Thinker:这一针对大规模视觉语言模型的首个并行思考框架,并分析了该并行思考框架在视觉任务中发挥作用的内在机制。我们将 Pa-Attention(并行注意力机制)和 LPRoPE (分段学习位置编码)机制融入到我们的方法中,从而实现了不同推理路径隔离性、无偏性和可区分性。



  • 论文标题:Visual Para-Thinker: Divide-and-Conquer Reasoning for Visual Comprehension
  • 论文链接: https://arxiv.org/abs/2602.13310
  • 主页链接: https://github.com/xuhaoran1/Visual-Para-Thinker

并行推理路径:以视觉为中心划分

过往研究提出的并行思考范式,其核心在于通过拓展推理宽度以提升模型性能,基本原则是 “保持推理路径的多样性”。我们的 Visual Para-Thinker 同样遵循这一原则。然而,针对视觉语言模型的特性,我们进一步提出了一种以视觉为中心的路径划分方式,并认为其本质在于对视觉 token 注意力的重新分配。由此提出了两种视觉划分的分配模式:块划分和扫描划分



块划分:这种策略是根据特定的区域子图来划分推理路径的。在这个配置方面,每条路径都会吸引独特的视觉注意力分布,这种分布集中在指定的子区域,例如左上角、右上角、左下角或右下角等象限,如图 (a) 所示。

扫描划分:这种方法通过采用不同的视觉扫描轨迹来区分推理路径。具体而言,每条路径代表一种独特的视觉注意力分配,这种分配对应于一个预定义的扫描顺序,例如从左到右、从上到下、从右到左以及从下到上,如图 (b) 所示。

这两种视觉划分方式各有优劣:块划分虽然能够生成不同的子区域,但可能导致不同路径之间的计算冗余;而扫描划分虽结构简洁,却容易削弱路径之间的多样性。为此,我们采用混合训练策略,将两种划分方式生成的数据共同用于模型训练,以实现优势互补。



块划分方式下不同路径的对视觉令牌注意力分配模式可视化

视觉并行思考框架

基于以上两种视觉路径的划分方式,我们提出了视觉并行思考框架。该框架分为并行思考阶段和总结阶段,并维护了不同并行推理路径的隔离性、无偏性和可区分性

  • 并行思考阶段:基于共同的上下文,通过视觉划分这一理念,分配不同推理路径的思考方向
  • 总结阶段:将不同并行推理路径的背景信息进行整合,并综合考虑这些信息以得出最终结论。



隔离性

为了保证推理路径的隔离性,我们提出了Path-aware Attention (路径感知注意力),不同于因果注意力,路径感知注意力通过不同 < think i > 的特殊 token 实现不同路径的上下文隔离范式。



无偏性

为了保证推理路径的可区分性,过往的做法将不同路径的 position id 赋予不同的区间实现路径的之间的可区分性。然而,由于大语言模型的固有偏差,此时不同区间的 position id 存在先后顺序,会出现 loss in the middle 等现象,不同路径的思考权重会存在天生的位置偏差,我们认为这种方法因为不能将不同推理路径等同看待,本质上依然是串行思考。基于以上见解,我们将不同路径的 position id 赋予相同的区间,具体来说,在并行推理阶段,不同路径的起始 token 的 position id 相同



而在总结阶段,总结 token 的起始 token 则取最长的推理路径的结束 token 的 position id + 1



这使得不同推理路径在 Visual Para-Thinker 模型看来不存在固有的位置偏差,因而保证了无偏性。

可区分性

然而,上述将不同路径的位置编码映射为同一区间的做法仅仅保证了其无偏性,但损伤了不同路径的可区分性。如果直接使用这种位置编码,会导致 Visual Para-Thinker 混淆不同的推理路径,导致最后的结果错误。因而我们提出了Learnable Parallel Rotary Position Embedding (LPRoPE),具体来说,我们在不同 token 进行旋转位置编码之前,加入该 token 属于的推理路径的可学习位置编码,将旋转位置编码和可学习的绝对位置编码相结合,最终实现路径的可区分性。



数据与实验

训练配方

我们构建了一个包含 163,000 个问题 - 答案对的并行推理数据集,数据来源包括 LVIS、LAION、Microsoft COCO、PixMoCount、RefCOCO、RefCOCO+ 和 RefCOCOg 等。

在我们的数据构建框架中,Qwen3-VL-235B-A22BInstruct 充当教师模型。我们通过在温度为 0.1 的条件下实施一种融合了基于块的分区和扫描顺序分区的混合视觉分区策略,为每个样本生成四条以视觉为中心的推理路径。此外,我们还利用高温的 Qwen3-VL-30B-A3B-Instruct 和 InternVL3 5-241B-A28B 来生成更多样化的数据和检查样本。



图一

实验结果

我们的实验主要在在以视觉为中心的视觉感知类任务中进行,包括计数任务 (Pixmo,CountBench)、视觉搜索 (V*)、幻觉任务 (MMVP、HallusionBench) 及视觉定位 (RefCOCO) 等多种视觉感知任务,通过开展大量实验验证了所提方法的有效性。如图一所示,我们的方法在 V * 任务上分别在 3B 和 7B 上获得了 12.6 和 6.3 的提升,另一方面,在幻觉任务上 HallusionBench 上,我们的方法在 3B 和 7B 上获得了 6.1 和 5.0 的提升。这充分验证了多模态并行推理在视觉感知类任务上的提升。另一方面,在 Grounding 任务中,相比于原始的 Qwen2.5-VL,我们的方法也获得了一定程度上的提升,这些实验从各个方面验证了我们的方法的有效性。



图二

此外,我们还探讨了不同视觉任务对划分模式的偏好。以计数任务为例,其视觉注意力通常分散于图像各处。若采用块划分,各路径的计算结果可能因区域重叠而产生累积偏差,进而引发幻觉。因此,在此类任务中,我们倾向于使用扫描划分。

从本质上看,块划分方式通过将不同图像区域分配给不同路径,实现了显式的注意力分配;而扫描划分方式则通过改变模型对视觉 token 的注意顺序与方式,形成一种隐式的注意力分配机制,最终同样映射为多样化的推理路径。前者体现了从全局到局部的设计思路,后者则仍保留全局视角。



块划分方式可能导致不同推理重复计算

Visual Para-Thinker 是将并行思考框架应用于视觉语言领域的抛砖引玉之作,之后我们会将并行思考 RL,多轮思考,Agentic RL 等方法陆续应用在 Visual Para-Thinker 中,将 Visual Para-Thinker 实现更快更好的扩展。随着 K2.5,Step3-VL 和 LongCat-Flash-Thinking 等基座模型关注到并行思考这一范式,我们相信这一范式日后会爆发出巨大潜力。

作者简介

许浩然,浙江大学硕士。研究方向为 Multi-Agent、Multi-Modal、RL等。以第一/共一作者身份在 ICML、ACL、CVPR、AAAI、ICLR等国际顶级会议发表多篇论文。通讯单位为小米MiLMPlus团队。通讯作者为李佳泽,现任小米高级算法工程师,研究方向为Multi-Agent, Agentic RL。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
多次侵入某战区医院数据库,窃取药品数据后对外销售,获利45.8万元!杨某被判3年6个月

多次侵入某战区医院数据库,窃取药品数据后对外销售,获利45.8万元!杨某被判3年6个月

都市快报橙柿互动
2026-06-03 22:25:44
碾压 1 亿水货!阿森纳白菜价抢世界级边锋,绝杀功臣即将让位

碾压 1 亿水货!阿森纳白菜价抢世界级边锋,绝杀功臣即将让位

澜归序
2026-06-04 06:00:36
人走了,产业也完了!印尼想赶走中方镍矿团队,算完账,全沉默了

人走了,产业也完了!印尼想赶走中方镍矿团队,算完账,全沉默了

阿讯说天下
2026-06-03 02:45:20
铁了心倒向美国?该国与美国联手做局收割中国,幸好中方早有防范

铁了心倒向美国?该国与美国联手做局收割中国,幸好中方早有防范

领悟看世界
2026-06-04 00:40:30
历史首次!中国双星携手冲NO.1,赵心童优势大,吴宜泽后发制人?

历史首次!中国双星携手冲NO.1,赵心童优势大,吴宜泽后发制人?

刘姚尧的文字城堡
2026-06-03 09:47:30
泰山景区发布紧急提示

泰山景区发布紧急提示

日照日报
2026-06-03 22:04:35
小三给我发孕检报告炫耀,我直接截图发给她老公:恭喜你当爸爸

小三给我发孕检报告炫耀,我直接截图发给她老公:恭喜你当爸爸

千秋文化
2026-06-01 20:24:19
FIFA秘书长:与央视达成了FIFA与中国有史以来金额最高的协议

FIFA秘书长:与央视达成了FIFA与中国有史以来金额最高的协议

懂球帝
2026-06-03 13:40:07
1969年,苏联曾计划7天攻进北京,毛主席紧急命令:疏散北京领导

1969年,苏联曾计划7天攻进北京,毛主席紧急命令:疏散北京领导

舆图看世界
2026-06-04 06:00:06
壶口瀑布景区陕西、山西门票6月起互通,大批游客点赞“一票通两省”举措,景区回应

壶口瀑布景区陕西、山西门票6月起互通,大批游客点赞“一票通两省”举措,景区回应

极目新闻
2026-06-02 19:49:04
《主角》大结局:熬过母亲与姐姐索取,易青娥终究栽在高五福手里

《主角》大结局:熬过母亲与姐姐索取,易青娥终究栽在高五福手里

东方不败然多多
2026-06-04 05:52:20
泰王苏提达出席48岁庆生仪式,王后穿亮紫泰装好旺,玛哈却好疲倦

泰王苏提达出席48岁庆生仪式,王后穿亮紫泰装好旺,玛哈却好疲倦

TVB的四小花
2026-06-04 02:15:19
涉中国航母,日方炒作:“起降约170架次”

涉中国航母,日方炒作:“起降约170架次”

环球时报国际
2026-06-03 08:21:45
激光第一股,海外订单井喷!

激光第一股,海外订单井喷!

风风顺
2026-06-04 01:25:03
日媒:日本物价降低至中亚国家水平,强势日元回不去了!

日媒:日本物价降低至中亚国家水平,强势日元回不去了!

随波荡漾的漂流瓶
2026-06-03 17:17:53
「生男生女不随机」,再添新证!哈佛连发两篇:母亲孕前压力大,生男孩的概率跌13%;29岁后生育,后代“性别扎堆”概率高13%

「生男生女不随机」,再添新证!哈佛连发两篇:母亲孕前压力大,生男孩的概率跌13%;29岁后生育,后代“性别扎堆”概率高13%

梅斯医学
2026-06-01 07:55:21
千万钻石沦为陪衬!奚梦瑶脖子一串老珍珠,才是豪门脸面

千万钻石沦为陪衬!奚梦瑶脖子一串老珍珠,才是豪门脸面

白面书誏
2026-06-03 15:19:54
普京亮剑,下达立陶宛“灭国”警告,不到24小时,立总统紧急灭火

普京亮剑,下达立陶宛“灭国”警告,不到24小时,立总统紧急灭火

李健政观察
2026-06-02 19:05:48
1735年雍正驾崩后,25岁的弘历龙椅还没坐稳,就紧急下了一道密旨

1735年雍正驾崩后,25岁的弘历龙椅还没坐稳,就紧急下了一道密旨

饭小妹说历史
2026-05-31 09:45:50
上海vs广厦总决赛G5时间已定!CCTV5直播,苏群一针见血上海隐患

上海vs广厦总决赛G5时间已定!CCTV5直播,苏群一针见血上海隐患

宝哥精彩赛事
2026-06-03 12:49:27
2026-06-04 06:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13159文章数 142660关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

数码
艺术
健康
教育
公开课

数码要闻

高通CEO安蒙:“2026年是智能体之年”,Token成AI新货币

艺术要闻

去这8个地方走走~过一个五彩斑斓的夏天!

违规干细胞抗衰美容,为何肆无忌惮

教育要闻

江苏航空职业技术学院:值得填报吗?热门专业就业现状及报考分析#搜索千校视频计划

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版