你有没有想过,当你看一张照片时,大脑在瞬间完成了多少神奇的工作?你能立刻知道哪个物体离你更近,能判断出桌子比椅子大,还能想象如果从另一个角度看这个房间会是什么样子。这些对我们来说轻而易举的事情,对于人工智能来说却像是攀登珠穆朗玛峰一样困难。
![]()
2026年1月,字节跳动Seed团队完成的一项研究,为我们揭开了AI理解空间的秘密。核心发现是:AI学习"看懂"三维世界的方式,竟然和人类婴儿的成长过程惊人地相似,都需要从最基础的感知能力开始,一步步建立起复杂的空间智能。
一个刚出生的婴儿认识世界的过程是什么?最开始,婴儿只能感知到光线的明暗变化,分不清妈妈的脸和背后的墙壁有什么区别。慢慢地,他开始能分辨出不同物体的轮廓,知道奶瓶比积木大,玩具熊在床的左边。再大一些,他学会了在脑海中想象:如果我绕到桌子另一边,那个藏起来的糖果就能被看到了。最后,他能够规划自己的行动:先爬过地毯,再绕过椅子,就能拿到那个心心念念的玩具了。
正是受到这种人类认知发展规律的启发,研究团队提出了一个名为SpatialTree的框架。这个名字很形象,空间能力就像一棵大树,从根部的基础感知能力开始生长,逐渐分出枝干,最终长出能够在真实世界中行动的"果实"。这棵能力树有四个层次,每个层次都建立在前一个层次的基础之上,就像盖房子必须先打地基一样。
感知层:AI睁开眼睛看世界的第一步
让我们先从这棵能力树的根基说起。感知层是整个空间智能的起点,就好比一个刚学会睁眼的婴儿开始观察这个世界。在这个阶段,AI需要学会五种最基本的能力:几何感知、运动感知、方向感知、关系感知和定位感知。
几何感知是其中最核心的部分,它让AI能够理解物体的物理属性。这包括三个维度的能力:判断距离、估计大小和识别形状。判断距离就像你走在路上能立刻知道前面那辆车离你有多远,是应该加速还是减速。估计大小则是能够判断一个苹果能不能一手握住,一个门洞够不够宽让你通过。识别形状是最基础的,让AI能够分辨出圆形的杯子和方形的书本。
运动感知分为两种类型,研究者们用了两个专业术语来区分它们:自我中心的运动感知和他物中心的运动感知。自我中心的运动感知就是感知自己在移动,当你坐在行驶的汽车里,你能感觉到车子在前进,在转弯。他物中心的运动感知则是观察外界物体的运动,你站在路边,能看到一辆自行车从左边骑到右边,能判断它大概有多快。
方向感知可能是最有趣的一种能力。它包括两个方面:一是感知重力方向,也就是知道哪边是上哪边是下。这听起来很简单,但想象一下,如果你看一张歪着拍的照片,你仍然能判断出真正的地平线在哪里,这就是重力感知在起作用。二是感知物体的朝向,比如看到一个杯子,你能判断它是正放着还是歪倒了。
![]()
关系感知让AI能够理解物体之间的空间关系。最基本的关系包括"在里面"、"在外面"、"在上面"、"被遮挡"等等。更进一步的是对应关系识别,当你从不同角度拍两张同一个房间的照片时,AI需要能认出两张照片里的那把椅子其实是同一把椅子。这就像你在机场接人,即使朋友换了发型换了衣服,你仍然能在人群中认出他来。
定位感知则是回答"在哪里"这个问题的能力。它包括检测和定位两个方面:检测是发现物体的存在和大致范围,定位则是精确地确定物体在三维空间中的坐标位置。
研究团队在测试中发现了一个非常有趣的现象:这些基础感知能力之间几乎是相互独立的。也就是说,一个AI可能在判断距离方面表现出色,但在识别运动方面却一塌糊涂。这就像有些人天生方向感极好,但对颜色却不敏感一样。这种独立性意味着,训练AI的一种感知能力,并不会自动提升其他感知能力。
心智映射层:给空间穿上语言的外衣
当AI掌握了基础的感知能力之后,下一步就是要把这些感知到的信息用语言表达出来,并且能够记住它们。这就是心智映射层要解决的问题,它包括理解和记忆两大能力。
理解能力是把看到的空间信息翻译成语言的过程。这听起来简单,但其实非常复杂。比如,当AI看到一个人骑在马上,它不仅要识别出有一个人和一匹马,还要理解"骑"这个动作所代表的空间关系,人在马的上方,人的腿在马的两侧,人的手握着缰绳。这种理解比简单的"人在马上面"要丰富得多。
理解能力还包括一个特别重要的方面:视角转换。想象你站在一个房间的门口,你能看到沙发在你的左边,电视在你的正前方。现在,如果有人问你"从窗户那个位置看,沙发在哪边?"你需要在脑海中切换到窗户的位置,重新计算沙发相对于那个新位置的方向。这种心理上的"换位思考"对AI来说是一个巨大的挑战。
另一个理解能力的组成部分是可供性理解,这个词听起来有点拗口,但概念其实很简单。可供性指的是物体能够被用来做什么。当你看到一把椅子时,你立刻知道它可以用来坐;看到一个杯子的把手,你知道那是用来握的地方;看到一扇门,你知道它可以被打开。AI需要学会这种理解能力,才能真正与物理世界互动。
记忆能力则是心智映射层的另一半。它让AI能够建立认知地图,也就是在脑海中构建一个环境的整体表征。当你在一个陌生的城市逛了一圈之后,你的大脑会自动建立一张这个城市的心理地图,记住博物馆在酒店的东边,餐厅在河的南岸。AI也需要这种能力,它要能够从一系列视频帧或者多角度图片中,拼凑出一个完整的空间表征。
记忆能力还包括检索功能。当有人问"你刚才在视频里看到的那本红色的书放在哪里?"AI需要能够回溯自己的"记忆",找到那本书最后出现的位置。这就像你在家里找眼镜,需要回想自己最后是在哪里摘下来的。
研究结果显示,心智映射层的能力与感知层有着密切的联系。那些在基础感知任务上表现更好的AI模型,在理解和记忆任务上也往往表现更好。这证实了研究者的假设:高层能力确实是建立在低层能力基础之上的。
心智模拟层:在脑海中预演未来
如果说感知层是AI的眼睛,心智映射层是AI的语言中枢,那么心智模拟层就是AI的想象力。这个层次让AI能够在脑海中进行推理和规划,而不需要真正去执行动作。
心智模拟层包含两大能力:因果推理和顺序规划。因果推理是理解"为什么"和"如果...会怎样"的能力。想象你看到一个玻璃杯放在桌子边缘,你的大脑会自动进行一系列推理:如果有人碰到桌子,杯子可能会掉下来;如果掉下来,它可能会摔碎;如果摔碎,可能会伤到旁边的人。这种因果链条的推理对于安全行动至关重要。
研究团队设计了多种任务来测试AI的因果推理能力。其中一个有趣的测试是关于几何形状的推理:给AI看一张纸被折叠然后打孔的过程,让它预测纸展开后孔会在什么位置。这需要AI在脑海中"模拟"折纸和展开的过程。另一个测试是关于物体运动的预测:给AI看一个球滚动的起始状态,让它预测球最终会停在哪里。
还有一类因果推理任务是关于空间关系的。比如,给AI看两张从不同角度拍摄的建筑物照片,问它这两张照片是从同一侧拍的还是从相对的两侧拍的。AI需要在脑海中构建建筑物的三维模型,然后推理两个拍摄位置之间的关系。
顺序规划是心智模拟层的另一个核心能力。它让AI能够设计出一系列有逻辑顺序的步骤来达成目标。最简单的例子就是路径规划:从A点到B点,应该先向左走到路口,然后右转,再直走到目的地。但顺序规划的应用远不止于此。
研究中有一个特别有挑战性的规划任务:给AI看一堆彩色积木的初始状态和目标状态,让它规划出一系列移动步骤,把积木从初始状态变成目标状态。这就像解魔方一样,需要考虑每一步移动会如何影响整体布局,需要避免走入死胡同。
测试结果显示,心智模拟层的表现与低层能力高度相关。那些在感知和心智映射方面表现优秀的模型,在推理和规划任务上也明显更强。更有趣的是,心智模拟层内部的不同能力之间也存在很强的相关性——擅长因果推理的模型往往也擅长顺序规划。这说明这些高层认知能力之间存在某种共享的"智能基础"。
智能体能力层:从思考到行动
智能体能力层是整棵能力树的最顶端,也是所有能力的最终汇聚点。在这个层次,AI不再只是被动地观察和分析,而是要真正采取行动,与物理世界进行互动。这就像一个人光是懂得游泳的理论知识还不够,必须真正跳进水里才能学会游泳。
智能体能力层主要考察两种类型的任务:目标导向执行和开放世界探索。目标导向执行是指AI被给定一个明确的目标,需要生成一系列动作来完成这个目标。比如,给AI看一个机械臂的当前位置和目标位置的图片,让它规划出机械臂应该如何移动。或者在一个游戏场景中,让AI控制角色从当前位置移动到目标位置。
为了让AI能够执行这些任务,研究团队设计了一套统一的动作空间。这套动作系统借鉴了电影摄影中的镜头运动术语。平移动作包括前进后退、左右移动和上下移动。旋转动作包括水平转向、抬头低头和倾斜。此外还有特殊动作如抓取和释放。通过这套标准化的动作语言,AI可以在不同的场景中执行任务,无论是控制游戏角色、机械臂还是人类手势。
开放世界探索则是更高级的能力。在这种任务中,AI没有被给定明确的目标,而是需要自己去探索环境、获取信息、设定目标。这更接近人类在现实世界中的行为方式——我们并不总是被告知要做什么,而是需要自己观察环境、发现问题、寻找解决方案。
![]()
研究团队从多个来源收集了智能体任务的数据,包括视频游戏录像、机器人操作视频和人类手部操作视频。对于游戏视频,他们提取了相机的运动轨迹,并将连续的运动转换为离散的动作序列。对于机器人视频,他们记录了机械臂的位置和抓手的开合状态。对于人手视频,他们标注了推、拉、抓等基本手势。
测试结果揭示了一个重要发现:智能体能力层与其他三个层次都有很强的相关性,尤其是与心智模拟层的相关性最高。这证实了研究者的核心假设,要让AI在物理世界中有效行动,它必须首先具备良好的感知、理解、记忆和推理能力。这些能力是层层递进的,跳过任何一层都会导致最终行动能力的缺陷。
能力如何传递:AI学习的有趣规律
研究团队不仅建立了评估框架,还进行了大量的训练实验,探索不同能力之间是如何相互影响的。他们使用了一种叫做监督微调的训练方法,专门针对某些特定能力进行强化训练,然后观察这种训练会如何影响其他能力。
![]()
第一个重要发现是关于同层能力之间的关系。当研究者专门训练AI的距离判断能力时,AI在距离判断任务上的表现确实提升了,但与此同时,它在运动感知、关系感知等其他感知任务上的表现却下降了。这就像一个学生如果只专注练习数学,可能会导致语文成绩下滑一样。研究者称这种现象为"负迁移"——专注训练一种能力可能会干扰其他相关能力。
然而,第二个发现更加有趣:虽然同层能力之间存在负迁移,但低层能力向高层能力的传递却是正向的。当AI被训练提升距离判断能力后,虽然它的其他感知能力下降了,但它在理解任务和目标执行任务上的表现却提升了。这就像学会了精确测量长度的木匠,虽然不一定更擅长辨别木材颜色,但在制作家具时会更加得心应手。
第三个发现解释了为什么会出现这种跨层传递。研究者提供了一个生动的例子:当AI经过距离判断训练后,它不仅能够回答简单的"哪个物体更近"的问题,还能够处理更复杂的场景。比如,给它一张照片和一堆坐标点,让它按照深度顺序排列这些点,训练后的AI能够做得更好。更令人惊讶的是,这种能力还能够迁移到完全不同的任务上——比如控制机械臂。因为操作机械臂需要精确判断目标物体的距离,而距离判断能力的提升直接帮助了这个任务。
第四个发现是关于多能力联合训练的。虽然单独训练某一种能力可能会干扰其他能力,但如果同时训练多种基础能力,效果会大不相同。研究者将距离判断、大小估计和对应关系识别三种能力的训练数据混合在一起进行训练,结果发现AI的整体性能提升超过了单独训练每种能力的效果之和。这种现象被称为"多能力协同"——不同能力的联合训练能够产生一加一大于二的效果。
这些发现对于AI训练有重要的实践指导意义。它们告诉我们,要提升AI的高层能力,不能只是直接训练高层任务,而应该首先打好基础。同时,训练基础能力时不能只盯着一种能力,而应该多种能力协同训练,这样才能避免负迁移,实现能力的整体提升。
思考与直觉的博弈:AI也需要"快思考"和"慢思考"
研究的最后一部分探索了一个哲学性很强的问题:AI在处理空间任务时,应该更多地依赖直觉还是深思熟虑?这个问题与心理学家丹尼尔·卡尼曼提出的"快思考"和"慢思考"理论不谋而合。
研究团队使用了一种叫做强化学习的训练方法来探索这个问题。在强化学习中,AI通过不断尝试并根据结果获得奖励或惩罚来学习。他们发现了一个令人意外的现象:鼓励AI进行更多"思考"的训练方法,在不同类型的任务上产生了截然不同的效果。
对于高层任务,如因果推理和目标执行,更多的思考确实带来了更好的表现。这很容易理解,这些任务本身就需要逻辑推导和步骤规划,多想一想总是好的。但是,对于基础感知任务,如距离判断和数量估计,过多的思考反而导致了性能下降。
这个发现可以用日常生活中的例子来理解。想象你在打网球,当球飞过来时,你需要立刻判断球的速度和方向,然后挥拍击打。如果你在这个时候开始认真思考"球的初速度是多少,考虑到空气阻力和重力加速度,它的轨迹应该是...",那你肯定会错过击球的最佳时机。这种情况下,直觉和本能反应比深思熟虑更有效。
但是,如果你是在规划一场比赛的战术,思考对手的弱点、自己的优势、如何分配体力,这时候深思熟虑就比直觉更可靠了。空间智能中的不同任务也是如此:有些需要快速直觉反应,有些需要慢速深入思考。
基于这个发现,研究团队提出了一种叫做"自动思考"的策略。这种策略的核心思想是:根据任务的性质自动决定是否启用深度思考模式。对于基础感知任务,抑制不必要的推理过程,让AI直接给出答案;对于复杂推理任务,则鼓励AI展开详细的思考步骤。
实验结果证明了这种策略的有效性。采用自动思考策略的AI模型在整个能力树的所有层次上都实现了性能提升,而不是像之前那样在某些层次提升、在另一些层次下降。这个发现对于未来AI系统的设计有重要的启示意义:我们不应该追求一个"总是深思熟虑"或"总是快速反应"的AI,而应该建造一个能够根据情境灵活切换认知模式的智能系统。
主流AI模型的空间智能水平
研究团队对市面上主流的多模态大语言模型进行了全面测试,结果为我们描绘出了当前AI空间智能的全景图。测试涵盖了三类模型:具有思考能力的模型、不具有思考能力的模型,以及开源模型。、
![]()
在所有测试的模型中,谷歌的Gemini 3 Flash取得了最高分57.8分,紧随其后的是Gemini 3 Pro的56.5分。字节跳动自己的Seed1.8模型也表现不俗,获得了50.3分的成绩。在开源模型中,Qwen3VL-235B以40.0分领先。
一个有趣的发现是,同一系列的模型在开启思考模式和关闭思考模式时,表现差异明显。以Gemini 2.5 Pro为例,开启思考模式时得分50.1分,关闭思考模式时得分41.4分。这印证了前面关于思考与直觉的讨论——总体来说,思考能力对复杂空间任务确实有帮助。
从各个能力层次来看,所有模型在智能体能力层的表现都相对较弱,尤其是在目标执行任务上。即使是表现最好的Gemini 3 Flash,在目标执行任务上也只获得了31.6分。这说明让AI真正在物理世界中有效行动,仍然是一个巨大的挑战。
相比之下,模型们在因果推理和顺序规划任务上的表现要好得多,顶尖模型能够达到六七十分的水平。这可能是因为这些任务仍然主要依赖语言推理能力,而这正是当前大语言模型的强项。
至顶AI实验室
这项研究为我们提供了一个全新的视角来理解和评估AI的空间智能。过去,研究者们各自为战,有人专注于距离估计,有人研究物体检测,有人攻克路径规划,但很少有人思考这些能力之间的关系。SpatialTree框架第一次把这些碎片化的能力整合成一个有机的整体,揭示了它们之间的层级关系和依赖结构。
研究告诉我们,要建造一个真正能够在物理世界中行动的AI,我们不能走捷径。不能指望通过直接训练高层任务就能获得高层能力,必须从基础感知能力开始,一步一步往上建造。这就像你不能指望一个不会走路的婴儿突然学会跳舞一样。
这项研究对于自动驾驶、机器人、虚拟现实等领域都有直接的应用价值。比如,如果我们发现某个自动驾驶系统在紧急制动时表现不佳,传统的做法可能是收集更多紧急制动的数据来训练。但根据SpatialTree的框架,也许问题的根源在于系统的距离感知能力不足,应该先提升这个基础能力。
对于普通人来说,这项研究帮助我们理解为什么当前的AI助手在某些看似简单的空间任务上会犯傻。当你让AI描述一张照片里各个物体的位置关系时,它可能会给出自相矛盾的答案,说A在B的左边,又说B在A的左边。这不是因为AI太笨,而是因为它的空间感知能力还没有发展到人类婴儿几个月大时的水平。
研究团队在论文的最后指出,SpatialTree框架为未来的研究开辟了多个方向。我们可以探索哪些能力最适合在预训练阶段学习,哪些能力可以通过少量数据的强化学习快速获得,哪些能力必须通过与真实世界的交互才能习得。这就像研究人类儿童的发展一样,有些能力是与生俱来的,有些需要后天学习,有些只有通过亲身体验才能掌握。
当我们展望AI的未来时,也许可以这样想象:未来的AI系统会像人类一样,从婴儿期开始成长,逐步发展出越来越复杂的空间智能。它们会先学会看,再学会理解,然后学会想象,最终学会行动。SpatialTree为这个成长过程提供了一张路线图,而我们才刚刚开始踏上这段旅程。
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。
Q&A
Q1:SpatialTree是什么?它和普通的AI评测有什么不同?
A:SpatialTree是一个评估AI空间智能的层级框架,它把空间能力分成四个由低到高的层次:感知、心智映射、心智模拟和智能体能力。与普通评测不同,它不是孤立地测试单个任务,而是揭示了不同空间能力之间的依赖关系,帮助我们理解AI应该按什么顺序学习这些能力。
Q2:为什么AI在执行具体动作方面表现最差?
A:因为执行动作是空间智能金字塔的顶端,它依赖于所有底层能力的支撑。一个AI要能够正确操控机械臂,它必须先能准确感知距离、理解物体关系、记住环境布局、规划动作序列。任何一个环节的缺陷都会导致最终执行的失败,所以这是最难攻克的能力层次。
Q3:这项研究对普通人有什么实际意义?
A:这项研究帮助我们理解为什么现在的AI助手在某些空间任务上会出错,也预示了未来AI的发展方向。对于使用AI产品的人来说,可以对AI的空间理解能力有更合理的预期;对于从事相关行业的人来说,这个框架提供了系统提升AI空间智能的方法论。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.