多模态推理新范式ThinkMorph ，文字与图像在统一架构共同演化|视觉|新论文|thinkmorph

多模态推理新范式ThinkMorph ，文字与图像在统一架构共同演化

2026-03-10 16:02:54　来源: 机器之心Pro

河北举报

分享至

NUS、ZJU、UW、Stanford、CUHK 联合提出「ThinkMorph」，主张让文字与图像在统一架构里「原生协作」、「共同演化」，而不是像当下大多数多模态模型那样，看完图像就闭上眼睛，后续完全靠文字链条推进。仅用 2.4 万条数据微调 7B 统一模型，视觉推理平均提升34.74%，多项任务比肩甚至超越GPT-4o和Gemini 2.5 Flash。更重要的是，模型涌现出未被训练覆盖的视觉操作能力与自主模式切换，显示出多模态推理走向「原生智能」或许正在跨过第一道门槛。

论文标题：ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
论文（arXiv）: https://arxiv.org/abs/2510.27492
代码：https://github.com/ThinkMorph/ThinkMorph
主页（全开源）：https://thinkmorph.github.io/

为什么需要「原生」多模态推理？

人类解决复杂问题时，「视觉思维」和「逻辑思维」是无缝切换的：看到一道几何题，我们会在脑中构建空间图景，同时用逻辑推演约束条件；走迷宫时，我们一边在视觉上追踪路径，一边在语言层面排除死胡同。两种思维模态彼此交织、互相推进，这是人类认知的基本方式。

图 1：人类认知中视觉与语言思维的自然协同

然而，当前主流的多模态大模型并非如此。图像只在输入阶段被 “看见” 一次，之后无论是思维链还是强化学习，提升的都是语言层面的推理。换言之，模型「看了一眼」之后就闭上了眼睛，纯靠文字完成后续所有思考。

一种思路是调用外部视觉工具来间接弥补，但天花板有限。ThinkMorph 走的是更彻底的路：「原生多模态推理（Unified Multimodal Reasoning）」：模型可以在推理的任何阶段自主生成中间图像来辅助思考，再用文字分析图像、推进逻辑，形成交替演进的推理链。整个过程在同一个统一模型中完成，不依赖任何外部工具或多阶段流水线。

图 2：工具增强 vs 原生多模态推理

这与人类的认知方式高度一致：我们解决视觉问题时，也是在「看」和「想」之间自然切换，而不是看一眼就闭上眼睛纯靠语言推演。ThinkMorph 让模型第一次具备了这种能力。

核心设计：互补而非同构

ThinkMorph 的核心理念：文字与图像在推理中应提供互补信息，共同演化，而非同构复制。

图 3：文字与图像互补协作，逐步推进推理过程

文字负责抽象分析和逻辑验证（「这块碎片左侧有棕色纹理，应在第三行第一列」），图像负责空间可视化和细节呈现（生成重排后的拼图效果图、标注边界框、绘制路径），两者互相推动，逐步逼近答案。

图 4：四类视觉推理任务的交错推理实现

基于统一多模态模型Bagel-7B，研究团队构建了约24K条高质量交错推理训练数据，覆盖四类视觉推理任务

图 5：四类视觉推理训练任务

原生多模态推理有多强，又能走多远？

在同一个基座模型上，研究团队分别微调了纯文字、纯视觉和交错「三种推理模式」进行对比。结果很清晰：交错推理在视觉密集型任务上全面领先。文字与图像在推理中确实能互补协作，而非简单相加。

图 6：三种推理模式的性能对比

更关键的是「泛化能力」。在全部 24K 数据联合训练后，ThinkMorph 在9 个基准上相比基础模型平均提升 20.74%，其中包括多个从未见过的域外任务。尽管只有 7B 参数，它已可以与大规模模型比肩：在 BLINK-J 上超越 Qwen2.5-VL-72B 超过 10 个百分点，在 SAT 空间推理上领先 GPT-4o 24.67 个百分点，在 MMVP 上匹配 Gemini 2.5 Flash。

这不只是规模的胜利，而是训练策略的胜利：交错推理让生成与理解相互强化，用更少的数据撬动了更强的视觉推理能力。

图 7：ThinkMorph 在 9 个基准上的泛化表现

不止于性能：原生多模态推理的潜力远超想象

如果 ThinkMorph 只是「性能更好」，它可能只是又一篇刷榜论文。但比数字更重要的，是这个初步探索中涌现出的一系列积极信号。它们暗示：原生多模态推理的潜力，我们才刚刚触及冰山一角。

图 8：三个涌现信号概览

信号一：未见视觉操作 —— 模型自主习得了 8 种新技能

训练数据中只包含四类基础视觉操作（拼图可视化、路径绘制、边界框标注、区域高亮），但测试时模型自发展现了 8 种从未见过的操作如放大（zoom-in）、图像修复（inpainting）等。

图 9：模型涌现的未见视觉操作示例

最典型的例子：面对「这个灯笼椒是红色还是黄色？」这个问题，模型自动生成了一张放大图来辨认颜色的细微差异，完全模仿了人类凑近观察的认知策略，而这种操作在训练数据中从未出现。在某些基准上，这类涌现操作占到了所有视觉生成的10% 以上。

研究团队分析了其来源机制：预训练赋予了原始的视觉操作能力，而交错推理微调激活了这些能力在推理场景中的目的性运用。

信号二：自主模式切换 ——「这道题不需要视觉辅助」

尽管只用交错推理数据训练，模型在5.3%的测试案例中「自主切换」为纯文字推理。这不是随机行为：在切换的样本上准确率达到81.25%，比坚持交错推理高出 7.29 个百分点。

模型学会了判断「这道题需不需要视觉辅助」，像人类一样灵活协调语言和视觉，而非机械执行固定流程。

图 10：自主模式切换案例与统计

信号三：协同解空间探索 —— 多样性驱动更好的测试时扩展

在 Best-of-N 采样下，交错推理一致优于单模态推理，且分布偏移越大优势越明显。在最具挑战的 BLINK-J 上，交错推理从 65.33% 提升到 73.33%（+8.0%），而纯视觉推理反而下降 2.0%。

原因在于：单模态推理链局限于单一表示空间，而交错推理同时在文字和图像空间中探索，天然产生更「多样化」的推理轨迹，覆盖更广的解空间。

图 11：Best-of-N 测试时扩展对比

涌现属性的进一步验证

上述三个涌现信号是否只是个别任务上的偶然？在更广泛的域外基准上，研究团队进一步验证了它们的稳健性。

测试时扩展的表现因任务类型而异：在推理密集型任务（如 VStar）上，性能随采样数 N 单调提升（+5.89%@N=8）；而在感知主导型任务（如 BLINK-J）上呈现 U 形曲线，需要更大的采样量才能逃离局部最优。

图 12：不同任务类型的测试时扩展趋势

此外，当模型被允许在不同推理模式间灵活切换时，模式多样性本身进一步放大了测试时扩展的收益，为未来更高效的多模态扩展提供了方向。

图 13：模式多样性对测试时扩展的增益

边界在哪里？

ThinkMorph 同时讨论了这种推理方式的边界条件。在图表分析中，关键信息本身就是文字（标签、数值），纯文字推理反而略优（+1.88%）；但在需要精确视觉定位的任务上（如 MMVP），交错推理优势明显（+6.33%）。简单说：需要持续「看」的任务，交错推理最优；一眼就能提取关键信息的任务，文字推理更高效。

图 14：交错推理的边界条件分析

总结：原生多模态推理的未来

ThinkMorph 仍是「原生多模态推理」的一场初步探索，但它已经证明，文字与图像一旦在统一架构中共同演化，就会涌现出训练数据从未覆盖的新能力，并学会自主判断何时该看、何时该想。

如果说当下的推理增强是在语言空间里把推理拧到极致，而 ThinkMorph 暗示下一次范式级突破可能不在更长的文本链条里，而在视觉与语言「交错协作」的原生推理里。跨过第一道门槛之后，等待被释放的是一种构建智能的全新默认方式。让多模态成为默认的思考方式，而这才刚刚开始。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.