蒙特利尔大学等机构揭示AI在协作空间理解方面的惊人差距|锚点|推理

分享至

这项由蒙特利尔大学Mila魁北克人工智能研究所、IIIT海德拉巴德等机构联合开展的研究发表于2026年4月，论文编号为arXiv:2603.27183v2。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你在一个陌生的大型公园里和朋友走散时，会发生什么？一个人说"我在喷泉旁边的路灯下"，另一个人回答"我看到一棵高树和那个喷泉"。虽然两人看到的景象不完全相同，但通过简单的对话，他们能够建立起对整个公园布局的共同理解，最终成功会面。这种通过语言交流来整合不同视角信息的能力，是人类空间智能的一个重要体现。

然而，当前最先进的多模态大语言模型能否做到这一点呢？研究团队带着这个问题，开发了一个名为COSMIC的全新测试平台，专门用来检验AI系统是否具备这种协作空间理解能力。就像给AI安排了一场"空间对话考试"，让两个AI助手分别站在房间的不同位置，只能看到各自的视野范围，然后通过自然语言对话来共同解决空间相关的问题。

研究结果令人意外。即使是最先进的AI模型，在这项看似简单的任务上也表现得相当吃力。最好的模型GPT-5和Gemini-3-Pro只能达到大约72%的准确率，而人类在同样的任务中轻松达到了95%的准确率。这个差距就像是大学生和小学生在解数学题时的表现差别一样明显。

更有趣的是，研究人员发现AI模型存在一个明显的能力层次差异。它们在识别两个视野中共同存在的物体方面表现还算不错，但当需要推理物体之间的空间关系时就开始出现困难，而在构建整个房间的全局地图这样的高级任务中几乎完全失败，表现接近随机猜测的水平。

这就好比让两个人通过对讲机合作组装一台复杂机器。AI能够准确描述各自看到的零件，但当需要理解这些零件如何在空间中相互连接，或者构建出整台机器的完整图像时，它们就显得力不从心了。

**一、COSMIC测试平台：为AI设计的空间对话考场**

为了系统性地研究这个问题，研究团队创建了COSMIC测试平台，这个名字代表"协作空间交流"。可以把它想象成一个专门为AI设计的考场，里面摆放着各种精心设计的3D室内场景，包括客厅、卧室、浴室、厨房和餐厅等899个不同的环境。

在每个测试场景中，有两个AI助手扮演不同的角色：一个是"回答者"，需要回答关于房间的问题；另一个是"帮助者"，负责提供自己视野范围内的信息来协助回答者。就像两个侦探在案发现场的不同位置，需要通过无线电交流来拼凑出完整的犯罪现场图像。

这个测试平台包含五种不同难度的任务，就像游戏中的五个关卡，从简单到复杂逐步提升难度。第一个关卡是"锚点识别"，要求AI识别出两个视野中都能看到的共同物体，这就像确认两人都能看到同一个地标。第二个关卡是"全局计数"，需要统计房间内某种物体的总数，避免重复计算两人都能看到的物体，这考验的是去重能力。

第三和第四个关卡涉及相对关系推理。"相对距离"任务要求判断哪个物体离目标物体最近或最远，而"相对方向"任务则需要一个助手告诉另一个助手某个物体在他那里的什么方向。这两个任务就像让两个人在没有地图的情况下，仅通过语言描述来确定路线和方位。

最高难度的第五个关卡是"认知地图构建"，要求AI通过对话整合两个不同视角的信息，判断一张俯视图是否准确反映了房间的真实布局。这个任务相当于让两个只能看到部分信息的人合作绘制出完整的地图。

为了确保测试的公平性和准确性，研究团队使用了程序化生成技术来创建这些3D场景，确保每个场景都有足够的复杂性和多样性。同时，他们还设计了巧妙的干扰选项，防止AI通过猜测或使用常识推理来作弊。比如在锚点识别任务中，错误选项包括只有一个助手能看到的物体，以及与正确答案同类但颜色或位置不同的物体。

**二、AI表现分析：能力等级的清晰分层**

通过对多种主流AI模型的测试，研究团队发现了一个有趣的现象：不同类型的AI模型表现出明显的能力分层，就像学生在不同科目上的成绩差异一样。

在最基础的锚点识别任务中，最优秀的模型能达到90%以上的准确率，这意味着它们能够相当准确地识别两个视野中的共同物体。这就像两个人都能准确地说出他们都看到了同一个红色沙发或白色桌子。然而，当任务复杂度稍微增加到全局计数时，所有模型的表现都有所下降。这个任务需要AI不仅要识别物体，还要避免重复计算，就像清点一间房子里的椅子总数，需要确保不把两人都能看到的那把椅子算两次。

更令人惊讶的是，当任务进入需要空间推理的阶段时，AI的表现急剧下降。在相对距离任务中，即使是最好的模型也只能达到70-80%的准确率，而相对方向任务的表现更是糟糕，大多数模型只能勉强超过50%的随机猜测水平。这就好比让两个人通过对话确定房间里哪个物体离窗户最近，或者告诉对方某个看不见的物体在自己的左边还是右边，AI在这些看似简单的任务上表现得相当吃力。

最引人注目的发现是，在最高难度的认知地图构建任务中，几乎所有AI模型都彻底失败了，表现接近随机猜测的50%水平。这个结果特别引人深思，因为构建空间心理地图是人类空间认知的核心能力之一。想象两个人站在一栋陌生房子的不同房间里，仅通过描述各自看到的情况就能合作画出整栋房子的平面图，这对人类来说虽然有挑战但完全可行，但对当前的AI来说却是一个几乎不可能完成的任务。

研究还发现，让AI进行"思考"能够在某些任务上带来显著改善。当给模型提供明确的中间推理步骤时，它们在锚点识别和相对距离任务上的表现有了明显提升，准确率平均提高了10-15个百分点。这就像让学生在考试时可以在草稿纸上写下思考过程，有助于他们得出更准确的答案。

然而，这种"思考"能力的提升是有限的。在更高级的空间推理任务中，即使有了明确的推理过程，AI的表现仍然没有显著改善。这表明问题的根源不在于推理步骤的缺失，而在于AI对空间关系的根本理解能力不足。就像给一个不会游泳的人详细讲解游泳技巧，虽然理论知识增加了，但在水中的实际表现不会有根本性改变。

**三、人类与AI的对话模式差异：效率与深度的鸿沟**

为了更深入地理解AI在协作空间理解方面的不足，研究团队还收集了250段人类之间的对话作为对比基准。这种对比就像是观察两种不同的工作方式：专业团队与初学者团队在解决同一个问题时的表现差异。

人类在进行空间协作对话时表现出了令人印象深刻的效率和精确性。他们的对话具有强烈的目标导向性，通常在前几轮交流中就能迅速确定共同的参照点，然后围绕这些参照点进行高效的信息交换。比如在锚点识别任务中，人类会迅速说出"我看到一个蓝色沙发"，对方确认"我也看到了，它旁边有个白色茶几"，这样几句话就能建立起可靠的空间锚点。

更重要的是，人类对话显示出明显的收敛特征。随着对话的进行，他们提及的新物体数量会逐渐减少，这表明他们正在围绕已确认的共同元素深化理解，而不是漫无目的地描述所见。这就像两个装修工人在电话中协调工作，最初可能会提到房间里的各种物体，但很快就会聚焦到关键的测量点和参照物上。

相比之下，AI模型的对话模式截然不同。它们的对话通常更加冗长，但信息密度却相对较低。更关键的是，AI在整个对话过程中始终保持较高的新物体提及率，这意味着它们没有表现出人类那种逐步聚焦和深化理解的能力。这就像两个没有经验的助手在仓库里清点货物，他们会不断描述看到的新东西，但始终无法形成对整个仓库布局的清晰认识。

人类还表现出了强大的错误修正能力。当发现推理出现偏差时，他们能够迅速回溯并修正错误的假设，成功率达到79%。这种能力在协作问题解决中至关重要，就像两个人合作解谜题时，一旦发现某条思路走不通，能够快速回到正确的轨道上。

然而，AI模型在这方面的表现令人担忧。最好的AI模型的错误修正率仅为28%，大多数模型更是低至8%左右。这意味着一旦AI在对话早期形成了错误的空间理解，它们往往会一直沿着这条错误的路径走下去，直到得出错误的结论。这就像两个人在没有指南针的森林里迷路，一旦选错了方向，就会越走越远。

这种差异揭示了一个更深层的问题：AI不仅在空间理解能力上存在不足，在协作交流的元认知能力方面也存在显著缺陷。它们缺乏人类那种能够监控对话进展、评估理解质量、并在必要时调整策略的高级认知能力。

**四、失效模式分析：AI犯错的三大类型**

通过对150个失败案例的详细分析，研究团队识别出了AI在协作空间理解中失败的三种主要模式，这些模式就像医生诊断疾病时发现的不同症状类型。

第一类是感知失效。这类错误占所有失效的约20%，虽然比例相对较小，但往往成为后续错误的导火索。感知失效包括两种子类型：物体识别失败和属性错误标记。物体识别失败是指AI完全遗漏了视野中明显存在的物体，或者把一个物体错误地归类为另一种物体。这就像一个人戴着度数不对的眼镜，把桌子看成了椅子。属性错误标记则是指AI正确识别了物体类别，但错误地描述了其颜色、大小或位置等属性，比如把白色的柜子说成是蓝色的。

这种感知错误的危险性在于它的连锁反应。当一个AI助手错误地描述了某个物体的颜色时，另一个助手就会在自己的视野中寻找这个并不存在的物体，从而导致整个对话偏离正轨。这就像两个人在电话中描述走失的宠物，如果一个人错误地说宠物是黑色的而实际上是白色的，另一个人就会一直寻找错误的目标。

第二类是跨视角锚定失效，这是最主要的失效类型，占到所有错误的46%。这类错误反映了AI在建立共同参照系方面的根本性困难。跨视角锚定失效有三种表现形式。

第一种是指称歧义，即AI使用了不够精确的描述，导致对方无法唯一确定所指的物体。比如在一个有多个椅子的房间里，AI只是说"椅子旁边的桌子"，而没有进一步限定是哪把椅子。这就像在拥挤的停车场告诉朋友"我在红色汽车旁边"，而停车场里有十几辆红色汽车。

第二种是实例合并错误，即两个AI助手错误地认为它们各自看到的不同物体实际上是同一个物体。比如一个助手看到房间东墙的白色柜子，另一个助手看到西墙的白色柜子，它们可能会错误地认为这是同一个柜子，从而在计数任务中漏掉一个。

第三种是实例重复错误，这是实例合并的反面，即两个助手把同一个物体误认为是两个不同的物体。这种错误在全局计数任务中特别致命，会导致重复计算。

第三类是几何与关系推理失效，占所有错误的34%左右。这类错误暴露了AI在空间几何理解方面的深层缺陷。最常见的是视角转换失败，即AI无法正确地将一个助手的空间描述转换到另一个助手的参照系中。比如当帮助者说"那个桌子在我的左边"时，回答者需要根据双方的相对位置推断出这个桌子在自己参照系中的方向，但AI往往会在这种转换中出错。

另一种常见的几何失效是布局理解错误。AI难以从2D的自我中心视角中推断出3D空间中物体的真实排列关系。这就像让人仅通过门缝观察房间就要画出完整的房间布局图，AI在这种三维空间推理方面显示出明显的不足。

这些失效模式往往不是孤立出现的，而是相互关联、层层叠加的。一个早期的感知错误可能导致后续的锚定失效，进而引发几何推理错误，最终导致完全错误的结论。这种错误的累积效应解释了为什么AI在复杂空间推理任务中的表现如此糟糕。

**五、对未来发展的启示：弥合人机协作的空间理解鸿沟**

这项研究的发现对AI发展具有深远的意义，特别是在我们越来越依赖AI进行复杂协作任务的今天。当前AI系统在协作空间理解方面的局限性，就像是一个在其他方面都很聪明的助手，却在涉及空间协调的任务中频频出错。

研究结果表明，仅仅通过增加训练数据或调整模型参数可能无法解决这些根本性问题。AI需要的是更深层的空间认知能力改进，包括更好的三维空间表示能力、更精确的视角转换机制，以及更强的元认知监控能力。

在实际应用中，这些发现提醒我们在设计人机协作系统时需要特别小心。比如在智能家居环境中，当多个AI助手需要协作完成空间相关任务时，可能需要引入明确的空间标准化协议，而不是完全依赖自然语言交流。在机器人协作系统中，可能需要结合其他传感器信息来补偿纯视觉交流的不足。

这项研究也为改进AI的空间理解能力指明了方向。未来的改进可能需要从多个角度入手：开发更好的三维空间表示模型，训练专门的视角转换能力，增强错误检测和修正机制，以及设计更有效的空间交流协议。

同时，这项工作也突显了人类空间智能的卓越性。即使在AI快速发展的今天，人类在空间协作方面的能力仍然远超机器。这种能力不仅体现在准确的空间感知上，更体现在高效的协作交流和强大的错误修正能力上。

说到底，这项研究揭示了一个重要事实：真正的智能协作不仅需要强大的个体能力，更需要有效的交流机制和共同理解的建立。当我们朝着更加智能的AI系统迈进时，协作能力可能是比个体智能更加关键的发展方向。

对于普通人来说，这项研究的意义在于让我们更好地理解AI的能力边界。在可预见的未来，涉及复杂空间协调的任务仍然需要人类的深度参与。同时，这也提醒我们在设计AI辅助系统时，应该充分利用人类在空间理解方面的优势，而不是简单地试图用AI替代人类的所有功能。

这个研究领域还有很大的探索空间。未来的工作可能会扩展到动态环境、多感官融合、以及更复杂的协作场景。随着技术的不断进步，我们有理由相信AI在协作空间理解方面的能力会逐步提升，但这需要的不仅仅是计算能力的提升，更需要对空间认知本质的更深入理解。

Q&A

Q1：COSMIC测试平台是什么？

A：COSMIC是一个专门测试AI协作空间理解能力的平台，包含899个3D室内场景。在每个场景中，两个AI助手分别从不同角度观察房间，只能通过对话来共同解决空间相关问题，就像两个人在不同位置通过无线电协作一样。

Q2：AI在空间协作任务中表现如何？

A：AI表现远不如人类。最好的AI模型只能达到72%的准确率，而人类轻松达到95%。AI在识别共同物体方面还算不错，但在空间关系推理上表现糟糕，在构建房间整体布局图的任务中几乎完全失败，接近随机猜测的水平。

Q3：人类和AI在空间对话上有什么差别？

A：人类对话高效且有针对性，会快速确定共同参照点然后深入讨论，平均用词量少但信息密度高。AI则相反，对话冗长但效率低，始终在描述新物体而不聚焦关键信息，错误修正能力也远不如人类。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.