清华联合字节跳动：AI学会用图像思考，让机器像人一样推理世界|视觉|新论文|知名企业

分享至

这项由清华大学和字节跳动Seed联合发起的研究于2026年1月发表，论文编号为arXiv:2601.19834v1，研究团队提出了一个颠覆性观点：让AI通过生成图像来进行推理，就像人类在头脑中构建"心理图像"一样思考问题。这种全新的推理方式可能彻底改变我们对人工智能的认知。

当你试图回想家里客厅的布局，或者想象将一张纸折叠后打孔会形成什么图案时，你的大脑会自动生成各种视觉画面。这些"脑海中的图像"帮助你理解空间关系，预测物理变化，解决复杂问题。而目前的AI系统，包括ChatGPT这样的语言模型，主要依靠文字进行推理，就像一个只会纸上谈兵的理论家，缺乏直观的视觉理解能力。

研究团队发现了一个有趣现象：尽管当前AI在数学和编程等抽象领域表现出色，但在涉及物理世界的空间推理任务上却表现糟糕，甚至连小孩子都能轻松解决的问题都会出错。这就好比一个学富五车的学者，能够背诵大量理论知识，却不知道如何在现实中应用这些知识。

为了解决这个问题，研究团队开发了一种全新的推理模式。传统AI就像一个只能通过语言描述来理解世界的人，而他们的新方法让AI能够"看到"和"想象"画面，在推理过程中生成具体的图像来辅助思考。这种方法被称为"视觉链式思维推理"，就像给AI装上了"想象力"。

研究的核心创新在于提出了"视觉世界模型"概念。简单来说，这就是AI在头脑中构建的一个虚拟世界，它可以在这个虚拟世界中进行各种实验和预测。当面对复杂问题时，AI不再仅仅依靠文字描述，而是能够生成相应的图像来验证自己的推理过程，就像人类在解决空间几何问题时会在脑海中转动图形一样。

**一、AI推理的两种"大脑"：语言脑与视觉脑**

人类的大脑拥有两套信息处理系统，心理学家称之为"双重编码理论"。第一套是语言系统，负责处理抽象概念和逻辑关系；第二套是视觉系统，负责处理空间信息和形象记忆。这两套系统相互配合，让人类能够灵活应对各种复杂情况。

当前的AI系统主要模仿人类的语言系统。它们通过阅读大量文本学会了语言规律，能够进行逻辑推理、数学计算和代码编程。但是，它们缺少相当于人类"视觉脑"的能力，无法形成直观的空间概念和物理直觉。这就像让一个从未见过颜色的人去描述彩虹一样困难。

研究团队提出了一个关键假设：对于涉及物理世界的推理任务，视觉生成能够提供比纯文字描述更丰富、更准确的信息。这个假设被称为"视觉优势假说"。他们认为，视觉信息不仅更加具体直观，还包含了大量在纯文字中难以表达的空间关系和物理规律。

为了验证这个假设，研究团队开发了一套完整的理论框架。他们将推理问题建模为"多观察马尔可夫决策过程"，这个拗口的名词其实很好理解：就像你在一个房间里，可以从不同角度观察同一个物体，每个角度都能提供独特的信息。AI系统需要整合这些不同"观察角度"的信息，才能形成完整的理解。

在这个框架中，AI的推理过程被分解为两个基本能力：世界重构和世界模拟。世界重构就像拼图游戏，AI需要根据部分观察信息推断出完整的场景结构。比如看到一个物体的正面和侧面，推断出它的背面长什么样。世界模拟则像预测未来，AI需要想象如果对当前场景进行某种操作，会产生什么结果。

**二、VisWorld-Eval评测：七个关键考验**

为了系统地测试AI的视觉推理能力，研究团队精心设计了一套名为VisWorld-Eval的评测体系，包含七个精心挑选的任务，每个任务都针对特定的认知能力进行考察。

纸张折叠任务考验AI的几何变换能力。给定一张纸的折叠过程和最终的打孔图案，AI需要推断展开后会形成什么样的孔洞分布。这个任务看似简单，但实际上涉及复杂的对称性理解和空间变换计算。人类在解决这类问题时会在脑海中"展开"纸张，而AI也需要学会这种视觉想象能力。

多步操作任务则测试AI的状态跟踪能力。场景中有多个不同颜色和形状的物体，AI需要根据一系列文字指令（比如"将红色圆柱体放到黄色立方体左边"）更新场景状态，并回答最终的空间关系问题。这就像让AI在脑海中玩一个三维版的俄罗斯方块游戏。

球体轨迹预测任务考察AI对物理规律的理解。给定一个弹球的初始位置和运动方向，AI需要预测它经过多次反弹后会进入哪个洞口。这个任务要求AI理解弹性碰撞的基本物理定律，并能够进行精确的轨迹计算。

立方体三视图任务则测试AI的空间几何能力。给定一个立方体堆叠结构的三个视图，AI需要推断从另一个角度观察时的样子。这类似于工程制图中的投影问题，需要强大的三维空间想象能力。

真实场景空间推理任务最接近日常生活应用。给定从第一人称视角拍摄的多张房间照片，AI需要理解空间布局，判断物体之间的相对位置关系。这就像让AI具备基本的空间导航能力。

迷宫寻路和推箱子游戏则是经典的路径规划问题。这两个任务虽然看起来简单，但能够清楚地反映AI的序列决策能力和目标导向思维。

研究团队将这七个任务分为两大类：需要世界模拟能力的任务（纸张折叠、多步操作、球体轨迹、迷宫、推箱子）和需要世界重构能力的任务（立方体三视图、真实场景推理）。这种分类帮助研究者精确定位AI在不同认知维度上的表现差异。

**三、三种推理模式的较量**

研究团队设计了三种不同的推理模式进行对比实验：隐式世界建模、显式语言世界建模和视觉世界建模。

隐式世界建模就像一个经验丰富的象棋大师，能够凭借直觉快速判断局面，但无法清楚解释自己的推理过程。这种模式下，AI直接根据输入信息给出答案，不生成任何中间推理步骤。这种方法的优势是速度快，缺点是缺乏可解释性，遇到复杂问题时容易出错。

显式语言世界建模则像一个严谨的分析师，会详细记录每一步推理过程。AI会用文字描述当前状态、分析可能的行动选择、预测各种结果。比如在解决迷宫问题时，它会这样思考："当前位置是(2,3)，北边是墙，东边是通路，南边已经走过，所以应该向东移动到(3,3)。"这种方法逻辑清晰，但对于复杂的空间关系，纯文字描述往往力不从心。

视觉世界建模则是研究团队的创新方法，它让AI在推理过程中生成图像来辅助思考。回到迷宫例子，AI不仅会用文字描述，还会生成一张显示当前位置和可能路径的图像。这种方法结合了语言的逻辑性和视觉的直观性，特别适合处理涉及空间关系的复杂问题。

实验结果令人印象深刻。在纸张折叠任务中，纯语言推理的准确率只有27.4%，而引入视觉推理后准确率跃升至39.2%，提升幅度超过40%。这个提升看似不大，但考虑到任务的复杂性，已经是一个显著的进步。

更有趣的发现出现在多步操作任务中。语言推理的准确率仅为40.0%，而视觉推理达到了66.6%，提升幅度高达66%。这说明对于需要跟踪复杂状态变化的任务，视觉信息确实能够提供显著帮助。

在立方体三视图任务中，视觉推理的优势更加明显，准确率从60.2%提升到76.8%。研究团队还分析了不同难度级别下的表现，发现即使在超出训练数据范围的高难度任务中，视觉推理仍能保持约10%的性能优势。

然而，并非所有任务都从视觉推理中受益。在迷宫寻路任务中，隐式推理反而表现最好，达到77.0%的准确率，而视觉推理只有39.3%。这个反差说明了一个重要问题：不是所有推理任务都需要显式的视觉建模。

**四、深入解析：为什么视觉推理有时有效，有时无效**

研究团队深入分析了视觉推理成功和失败的根本原因，提出了两个关键因素：信息丰富度和先验知识。

信息丰富度方面，视觉表示相比文字描述能够编码更多细节信息。当你尝试用文字描述一个复杂的三维结构时，很容易遗漏重要的空间关系。而图像能够同时显示所有的位置、大小、角度等信息，避免了描述不完整的问题。这就像地图与文字路线描述的区别：地图能够一目了然地显示所有道路和地标的相对位置，而文字描述再详细也难免有遗漏。

先验知识则涉及AI在训练过程中积累的经验。当前的多模态AI系统是在大量互联网图像和视频上训练的，自然积累了丰富的视觉世界知识，比如物体的常见形状、空间变换的规律、物理运动的特征等。当任务与这些预训练知识匹配时，视觉推理就能发挥优势。

研究团队还通过理论分析证明了一个重要结论：在完全可观察的确定性环境中，显式世界建模并不会带来额外好处。这解释了为什么在简单的迷宫任务中，隐式推理反而表现更好。迷宫的状态相对简单，当前位置可以用简单的坐标表示，不需要复杂的视觉表征。

更令人惊喜的是，研究团队发现AI确实能够学会隐式的世界建模。他们通过"探针实验"深入分析了AI的内部表示，发现即使在不显式生成坐标的情况下，AI的内部神经网络也能准确编码当前位置信息。这就像一个熟练的司机，即使不看GPS也能凭直觉知道自己在哪里。

这些发现对于未来AI系统的设计具有重要指导意义。它们告诉我们，并不需要为所有任务都引入复杂的视觉推理机制，而应该根据任务特性选择最适合的推理模式。

**五、样本效率革命：用更少数据学得更好**

研究的另一个重要发现是视觉推理的样本效率优势。在纸张折叠任务中，使用视觉推理的AI系统只需要四分之一的训练数据就能达到与纯语言推理相同的性能水平。这种效率提升对于实际应用具有重大意义。

这种效率优势的根源在于预训练知识的迁移。AI系统在互联网上见过大量纸张折叠、几何变换的相关视频和图像，这些经验可以直接应用到新任务中。相比之下，用纯文字描述这些变换过程要困难得多，AI需要从头学习如何用语言精确表达复杂的几何关系。

研究团队还测试了强化学习对不同推理模式的影响。他们发现，即使经过强化学习优化，不同推理模式之间的性能差距依然存在，这进一步证明了视觉推理的内在优势并非来自训练不足，而是方法本身的特性。

**六、世界模型的保真度：生成图像的准确性分析**

研究团队还深入分析了AI生成图像的准确性。他们发现，在立方体三视图任务中，纯语言推理生成的符号矩阵准确率接近零，而视觉推理生成的图像准确率稳定在50%以上。这个对比非常鲜明，说明视觉生成确实能够产生更可靠的世界模型。

更有趣的是，即使AI的语言推理出现错误，它生成的图像有时仍然是正确的。这种现象表明，AI的视觉生成能力可能依赖于不同于语言推理的知识来源，体现了多模态学习的独特价值。

研究团队通过对比不同规模立方体堆叠的任务发现，随着问题复杂度增加，语言描述的局限性愈发明显，而视觉生成仍能维持相对稳定的准确率。这进一步支持了"视觉优势假说"。

**七、技术实现：让AI学会"用眼睛思考"**

从技术角度看，研究团队采用了BAGEL模型作为基础架构。BAGEL是一个先进的统一多模态模型，能够同时理解和生成文本与图像。研究团队在此基础上开发了专门的训练方法，让AI学会在推理过程中恰当地使用视觉生成。

训练过程采用了监督微调和强化学习相结合的策略。监督微调阶段，AI学习如何模仿人类专家的推理过程，包括何时生成图像、生成什么样的图像、如何将图像信息整合到推理中。强化学习阶段则通过任务表现的反馈进一步优化AI的推理策略。

一个有趣的技术细节是损失函数的设计。研究团队需要同时优化语言生成的交叉熵损失和图像生成的流匹配损失，并在强化学习过程中对视觉生成部分进行特殊的正则化处理，避免生成质量的退化。

**八、未来展望：通向更智能AI的桥梁**

这项研究的意义远超出了技术改进本身。它为AI系统获得更类似人类的推理能力指明了方向。研究团队认为，随着多模态AI技术的不断发展，未来的AI系统将能够更加灵活地在不同模态之间切换，根据任务特点选择最合适的推理方式。

在实际应用方面，这种技术特别适合机器人、自动驾驶、工业设计等需要空间推理的领域。比如，一个家用机器人在整理房间时，需要理解物体的三维结构、预测移动后的空间布局，这些都是传统纯语言AI难以胜任的任务。

研究团队也坦诚地指出了当前方法的局限性。目前的视觉生成质量仍有待提高，特别是在处理精细几何细节时容易出现模糊或扭曲。此外，如何让AI更好地理解三维空间中的复杂交互仍是一个挑战。

另一个有趣的发现是，AI在某些任务上表现出了"涌现"的推理能力。即使没有明确的坐标监督，AI也能学会内部的空间表示，这暗示了AI可能具备比我们想象中更强的自主学习能力。

说到底，这项研究最大的贡献在于打破了AI推理必须依赖语言的传统观念，开启了多模态推理的新时代。就像人类既会用语言思考也会用图像思考一样，未来的AI系统也将拥有更加丰富多样的"思维方式"。当AI能够像人类一样在脑海中构建生动的画面、进行直观的空间推理时，它们处理现实世界复杂问题的能力必将获得质的飞跃。

对于普通人来说，这意味着未来的AI助手将更加智能、更加实用。无论是帮助设计家具摆放、规划旅行路线，还是协助解决各种空间布局问题，AI都将表现得更像一个真正理解物理世界的智能伙伴。这项研究为我们展现了一个令人期待的未来：AI不再只是冷冰冰的计算机程序，而是拥有"想象力"的智能生命体。

Q&A

Q1：什么是视觉链式思维推理？

A：视觉链式思维推理是一种让AI在思考过程中生成图像来辅助推理的新方法。就像人类解决空间问题时会在脑海中想象画面一样，这种方法让AI能够"看到"和"想象"具体场景，而不只是用文字描述来思考，特别适合处理涉及空间关系和物理变化的复杂问题。

Q2：为什么有些任务用视觉推理效果好，有些反而不好？

A：这主要取决于任务的复杂程度和所需信息类型。对于需要理解复杂空间关系的任务，如纸张折叠、三维物体变换等，视觉推理能提供更丰富直观的信息，效果显著更好。但对于相对简单的任务，如基础迷宫寻路，隐式推理就足够了，过度复杂的视觉建模反而可能干扰判断。

Q3：这种视觉推理技术什么时候能在日常生活中应用？

A：目前这项技术还处于研究阶段，主要在学术环境中验证概念的可行性。但随着多模态AI技术的快速发展，预计在未来几年内，我们可能会在智能机器人、家居设计软件、教育辅助工具等领域看到这种技术的应用，帮助解决各种需要空间想象和物理推理的实际问题。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.