![]()
这项由SenseTime Research(商汤科技研究院)的Zhongang Cai、Ruisi Wang、Chenyang Gu等核心贡献者与新加坡南洋理工大学合作完成的重要研究,于2025年11月18日发表在arXiv平台(论文编号:arXiv:2511.13719v1),为我们揭示了一个令人惊讶的现象:即使是最先进的AI模型,在理解空间这件对人类来说最自然不过的事情上,竟然表现得像个"路痴"。
想象一下,你让一个聪明的朋友帮你描述房间里的布局——沙发在电视的左边,茶几在中间,书架靠着后墙。这些对我们来说是再简单不过的空间关系,但对现在的AI来说,却是一座难以逾越的高山。研究团队通过构建SenseNova-SI-8M数据集(包含八百万个精心设计的空间智能样本)和训练SenseNova-SI系列模型,在空间智能的多个关键领域取得了突破性进展。
研究团队发现,现有的多模态基础模型虽然在很多任务上表现出色,但在空间智能方面却存在着令人意外的短板。这就好比一个博学的学者能够背诵莎士比亚的全集,但却分不清左右手。为了解决这个问题,研究团队采用了一种全新的数据驱动方法,不改变模型的基础架构,而是通过精心构建的大规模空间数据来"教会"AI如何像人类一样理解三维空间。
这项研究的创新意义不仅在于技术突破,更在于为未来的具身AI和机器人技术铺平了道路。正如研究团队所言,空间智能是实现真正智能机器人的基础能力——一个无法理解空间关系的机器人,就像一个闭着眼睛的舞者,永远无法优雅地与物理世界互动。
一、空间智能:AI界的"方向感缺失症"
在我们的日常生活中,空间认知就像呼吸一样自然。当你走进一个陌生的咖啡厅,大脑会自动构建一张三维地图:收银台在前方,座位区分布在左右两侧,洗手间通常在角落。这种能力被科学家称为"空间智能",它包括了对三维空间的理解、推理和交互能力。
然而,当研究团队测试当前最先进的AI模型时,他们发现了一个令人震惊的现象。这些在文本理解、图像识别等任务上表现卓越的AI系统,在面对空间推理任务时却表现得像刚学会走路的幼儿。比如,当你向AI展示一张桌子上放着几个物品的照片,然后询问"如果你站在桌子的另一边,苹果会在杯子的哪一边?"这样的问题时,AI往往会给出错误或不一致的答案。
这种现象被研究团队形象地称为AI的"方向感缺失症"。就像有些人天生路感不好,即使拿着地图也会迷路一样,现有的AI模型在空间理解方面存在着根本性的缺陷。更有趣的是,研究发现即使是像GPT-5这样的顶级商业模型,在某些空间推理任务上的表现也远不如人类。
问题的根源在哪里呢?研究团队深入分析后发现,现有的AI训练数据中严重缺乏高质量的空间智能样本。大多数训练数据都集中在平面的文本和图像理解上,而对于三维空间关系、视角转换、空间推理等核心能力的训练相对匮乏。这就像一个人从小只看过平面画作,从未接触过立体雕塑,自然无法理解三维空间的复杂性。
更深层的问题是,空间智能涉及多个认知层面的协同工作。不仅要能够识别物体,还要理解它们之间的相对位置关系,更要能够从不同角度和视点进行推理。这种多层次的认知能力对现有的AI架构来说是一个巨大的挑战。
二、五大核心能力:构建AI空间认知的基石
为了系统性地解决AI的空间认知问题,研究团队采用了一种科学而全面的方法。他们借鉴了人类空间认知的研究成果,将空间智能分解为五个核心能力维度,就像将一座复杂的建筑拆解成基础的构件一样。
第一个核心能力是"度量测量"(Metric Measurement)。这种能力就像我们大脑中内置的一把尺子,能够估算物体的大小、距离和空间尺度。当你看到一张照片时,能够直觉地判断出桌子大约有多长、房间大概有多大、两个物体之间的距离是多少。研究团队为这个能力设计了大量的训练样本,包括从单个物体到整个场景的各种尺度测量任务。
第二个能力是"空间关系"(Spatial Relations)。这相当于我们在大脑中建立的坐标系统,能够理解前后、左右、上下这些基本的空间关系。不过这里有个有趣的细节:空间关系分为两个层次,局部层次关注的是物体之间的直接关系,比如"苹果在桌子上";而全局层次则涉及整个场景的空间布局,比如"客厅的沙发相对于整个房间来说靠近窗户"。
第三个能力被称为"心理重构"(Mental Reconstruction),这是一个相当高级的认知能力。就像我们看到一个物体的一面时,大脑会自动推断出它的其他面长什么样。研究团队设计了一个巧妙的诊断任务:给AI展示一个物体的某个角度,然后询问另一个角度展示的是物体的哪一面。这要求AI能够在脑海中构建物体的三维模型,并进行视角转换。
第四个能力"视角转换"(Perspective-taking)可能是最复杂的一个。研究团队将其进一步细分为三个递进的层次。最基础的是"视觉对应",就像玩找不同游戏一样,能够在不同视角的图像中找到相同的物体或特征点。中级层次是"相机运动推理",能够理解两张图片之间相机是如何移动和旋转的。最高级别是"异中心坐标转换",这涉及在不同的坐标系统之间进行转换,包括从相机视角到物体中心视角,再到假想的观察者视角。
最后一个能力是"综合推理"(Comprehensive Reasoning),这是前四种能力的集大成者。它要求AI能够协调使用多种空间能力,在复杂的场景中进行多步骤的空间推理。这就像一个指挥家需要协调整个乐团的演奏一样,需要将各种基础能力有机结合起来。
研究团队特别强调,这种分层设计确保了视角转换不仅仅是简单的图像匹配,而是要求模型建立内在的空间表征,理解观察角度变化对空间关系的影响。这种设计哲学贯穿了整个训练数据的构建过程。
三、SenseNova-SI-8M:史上最全面的空间智能训练数据集
构建高质量的训练数据集是这项研究的核心挑战之一。研究团队面临的情况就像要为一个从未见过立体世界的人编写一套完整的空间认知教科书。他们需要收集和创造足够丰富、平衡且高质量的空间智能样本。
SenseNova-SI-8M数据集的构建过程可以比作精心策划的一场教学活动。研究团队首先收集了现有的所有相关开源数据集,这包括大约0.6万个通用QA对和3.3万个专门针对空间推理的样本。这些数据来自于VSR、SPEC、GQA、VQA、IconQA等通用数据集,以及Open3D-VQA、CLEVR系列、REL3D、SAT、GRiD-3D、MultiSpa、MindCube、ViCA、VLM-3R、VSI-590K等专门的空间智能数据集。
不过,研究团队很快发现了一个严重的数据不平衡问题。现有的数据就像一个偏科严重的学生,在某些方面表现突出,在其他方面却严重不足。度量测量和空间关系的数据相对丰富,但视角转换和心理重构的数据却稀少得可怜。特别是视角转换中的点级对应、相机运动分析,以及异中心坐标转换等高级能力,在现有数据中几乎是空白。
为了解决这个问题,研究团队决定自己动手,从零开始构建缺失的数据。他们充分利用了一系列高质量的三维数据集,包括MessyTable、ScanNet、ScanNet++、SUN RGB-D、CA-1M、Ego-Exo4D、Matterport3D等。这些数据集提供了丰富的三维场景信息和多视角图像,为生成大规模、准确的空间推理问题提供了基础。
数据生成的过程充满了创新性和挑战性。以视角转换任务为例,研究团队需要从同一场景的多个视角图像中自动生成问答对。他们设计了复杂的算法来识别不同视角中的共同物体和特征点,计算相机的运动参数,并生成相应的问题和标准答案。这个过程就像训练一个AI导演,需要它能够从不同角度拍摄同一个场景,并理解每个镜头之间的关系。
特别值得一提的是,研究团队在视角转换数据的构建上投入了大量精力。他们认识到,视角转换是空间智能的核心能力,也是现有模型最薄弱的环节。因此,他们不仅大幅增加了这类数据的数量,还确保了数据的多样性和质量。从简单的点对应到复杂的多步骤视角推理,从室内场景到室外环境,从静态物体到动态变化,数据集涵盖了视角转换的各个方面。
最终,研究团队成功构建了包含850万个样本的SenseNova-SI-8M数据集,其中新增的450万样本主要集中在之前被忽视的视角转换和心理重构任务上。这个数据集的规模和质量都达到了前所未有的水平,为空间智能的研究提供了坚实的基础。
四、多模态基础模型的空间智能改造
在数据集准备就绪后,研究团队面临的下一个挑战是如何有效地将空间智能能力注入到现有的多模态基础模型中。这个过程就像为一台高性能跑车安装导航系统,既要保持原有的优秀性能,又要增加新的能力。
研究团队选择了三个代表性的多模态基础模型作为实验平台,每个都有其独特的特点和优势。Qwen3-VL代表了从语言基础扩展的技术路线,它先建立了强大的语言理解能力,然后逐步扩展到视觉和音频模态。这种方法的优势在于语言理解能力强,能够很好地处理复杂的文本指令。
InternVL-3则采用了完全不同的策略,它从一开始就是为多模态设计的,视觉和语言能力是同时从零开始训练的。这种原生多模态的设计使得模型在跨模态对齐、跨模态推理等方面具有天然的优势。对于空间智能这种需要深度整合视觉和语言理解的任务来说,这种架构特别有优势。
Bagel模型则代表了一个全新的范式,它将理解和生成能力统一在一个架构中。这种统一架构的独特之处在于,它不仅能够理解空间关系,还能够生成相应的视觉内容,这为空间智能的应用开辟了新的可能性。
训练过程的设计体现了研究团队的深思熟虑。他们选择了一种保守但有效的策略:保持原有模型架构不变,采用数据驱动的方法来培养空间智能。这种方法的好处是能够最大程度保持模型原有的优势,同时降低引入新问题的风险。
具体的训练方案相当严格和标准化。所有模型都使用相同的SenseNova-SI-8M数据集进行一个周期的训练,使用128个GPU,批次大小为2048。整个训练过程大约需要三天时间。学习率设置为5×10^-6,使用AdamW优化器。对于视频数据,系统会从每个视频中采样最多16帧进行处理。
这种统一的训练方案确保了不同模型之间结果的可比性,也使得研究团队能够更准确地评估数据驱动方法的效果。训练过程中,研究团队密切监控模型在各个空间智能维度上的表现,确保能力的平衡发展。
五、突破性成果:全面超越现有模型的空间智能表现
训练完成后的SenseNova-SI模型在空间智能测试中展现出了令人瞩目的表现,这些结果不仅验证了研究方法的有效性,也为AI空间认知的发展树立了新的标杆。
在VSI-Bench这个专门测试视频空间推理能力的基准测试中,SenseNova-SI达到了68.7%的准确率。这个成绩相当令人印象深刻,要知道这个测试要求AI能够理解视频中复杂的三维场景布局,并在扩展的上下文中进行推理。相比之下,之前最好的开源模型Cambrian-S-7B只达到了67.5%,而SenseNova-SI使用更小的模型规模就超越了这个成绩。
在MMSI这个极具挑战性的多图像空间推理测试中,SenseNova-SI取得了43.3%的成绩。MMSI的特殊之处在于每个问题都是研究人员手工制作的,而不是通过模板批量生成的,因此具有更高的质量和难度。这个成绩比基础的InternVL3-8B模型提高了54.6%,显示了空间智能训练的显著效果。
最令人振奋的结果出现在MindCube测试中,SenseNova-SI达到了85.6%的惊人准确率。MindCube专门测试从有限观察中进行心理建模的能力,要求AI能够重构被遮挡的空间并模拟不同的观察视角。这个成绩比基础模型提升了超过100%,证明了数据驱动方法在培养高级空间认知能力方面的巨大潜力。
在ViewSpatial-Bench这个专门评估多视角定位能力的测试中,SenseNova-SI获得了54.6%的成绩。这个测试重点评估模型在自中心(相机)和异中心(人或物体)视角之间进行推理的能力,这种能力对于实际应用中的空间导航和机器人操作至关重要。
SITE测试提供了最全面的认知覆盖,统一了30多个数据集,涵盖了空间智能的各个方面。SenseNova-SI在这个综合测试中达到了50.1%的成绩,证明了模型在各种抽象测试场景中的泛化能力。
更重要的是,这些空间智能能力的提升并没有以牺牲通用多模态能力为代价。在MMBench-En这个代表性的通用多模态基准测试中,SenseNova-SI保持了84.9%的高准确率,甚至略有提升。这证明了研究团队的训练策略是成功的——通过数据多样性有效避免了灾难性遗忘,在获得空间智能的同时保持了模型的通用性。
特别值得注意的是,SenseNova-SI在某些特定的空间能力上甚至超越了GPT-5这样的顶级商业模型。在视角转换任务中,SenseNova-SI的表现明显优于GPT-5,这主要归功于训练数据中大量的视角转换样本。这个结果表明,即使是最先进的商业模型,在空间智能方面仍有很大的提升空间。
研究团队的分析还揭示了一个有趣的现象:不同规模的模型在各种空间能力上表现出了不同的学习曲线。在度量测量、空间关系和综合推理任务上,2B和8B模型表现出相似的性能轨迹,但在视角转换任务上,两者的行为显著不同。研究团队推测,这可能是因为2B模型缺乏足够的容量来稳健地学习视角转换这种复杂的认知能力。
六、数据扩展的奇妙效应:AI空间智能的成长曲线
研究团队通过系统性的实验揭示了数据扩展对AI空间智能发展的深刻影响,这些发现为我们理解AI学习过程提供了宝贵的洞察。
数据混合策略被证明是极其有效的。通过聚合大量公共数据集并进一步扩大空间智能语料库,SenseNova-SI在相当的数据预算下,使用更小规模的模型(2B)就超越了现有的7B空间智能基线模型。这个结果表明,数据的质量和多样性往往比模型规模更为重要。就像一个营养均衡的饮食比单纯增加食物分量更有益于健康一样,多样化的训练数据比简单增加模型参数更能提升AI的空间认知能力。
模型规模对不同能力发展轨迹的影响展现出了有趣的模式。在度量测量、空间关系和综合推理任务上,InternVL3的2B和8B变体表现出相似的性能轨迹,这表明这些能力相对容易学习,不需要特别大的模型容量。然而,在视角转换任务上,两种规模的模型行为出现了显著分化。研究团队的分析表明,2B模型可能缺乏足够的容量来稳健地学习视角转换这种认知上更为复杂的能力。
这种现象揭示了AI学习空间智能的一个重要特征:不同的空间能力对模型容量有着不同的要求。简单的空间关系理解可能不需要太多参数,但复杂的视角转换和三维推理则需要更大的模型容量来支撑。这为未来的模型设计提供了重要的指导原则。
能力之间的差异反映了数据驱动增益的特定模式。像GPT-5这样的专有模型在空间关系任务上表现突出,但在视角转换方面显示出明显的不足。相比之下,SenseNova-SI-InternVL3-8B在视角转换上令人信服地超越了GPT-5,这直接归功于训练期间包含的大规模、全面的视角转换数据。
更有趣的是,研究团队发现了能力协同的现象。尽管他们在训练期间只包含了非常有限的综合推理数据,但SenseNova-SI仍然逐渐在综合推理性能上超越了GPT-5。这表明基础空间任务(如视角转换和空间关系)的进步会转移到更复杂的推理技能上,存在着能力之间的相互促进效应。
随着训练数据量的增加,性能增益逐渐减少的现象也值得深思。虽然目前还不清楚继续扩展是否会最终达到触发更强新兴能力的临界点,但研究团队观察到了一些早期的新兴空间智能迹象。这种饱和趋势可能表明,未来的进展需要在SenseNova-SI基础上构建的范式转变,而不仅仅是简单的数据扩展。
基于这种认识,研究团队承诺完全开源SenseNova-SI的权重,让社区能够跳过昂贵的扩展阶段,专注于在强大的、空间能力突出的基础上推进算法创新。这种开源策略不仅体现了研究团队的开放精神,也为整个AI社区的发展做出了重要贡献。
七、令人惊喜的能力涌现:AI空间智能的意外收获
在大规模混合领域训练过程中,研究团队观察到了一些可能暗示新兴空间智能早期迹象的有趣现象,这些发现为我们理解AI如何获得空间认知能力提供了珍贵的洞察。
最引人注目的现象是能力的"溢出效应"。为了更严格地检验空间能力的溢出,研究团队进行了严格的对照实验:让模型只在单一数据集上训练,然后在完全不同领域的任务上进行评估。结果显示出了清晰的空间理解新兴和迁移现象。
比如,从Ego-Exo4D构建的视角转换数据集要求模型在自中心和异中心视角之间进行转换,这迫使模型推断跨视角的几何关系。这种能力强烈地迁移到了下游任务,如迷宫寻路和MMSI的位置推理任务,这两者都依赖于序列视角模拟和跨视角信息聚合。类似地,从MessyTable图像构建的数据集要求模型识别共享对象并推断两个视角之间的空间关系,这在MMSI的位置推理和属性推理等基准子类别上产生了显著的性能提升,这些任务都依赖于配对图像之间的稳健空间对应识别。
这些发现表明,在视角转换中可能存在"元任务"的概念,这些元任务能够使相关的空间能力得到发展。这就像学会骑自行车的人更容易学会骑摩托车一样,某些基础的空间认知技能具有很强的迁移性。
另一个令人惊讶的观察是模型的外推能力。虽然SenseNova-SI最多只使用16帧进行训练,但它能有效地泛化到推理时32帧或更多的序列。这表明SenseNova-SI学会了构建连贯的空间结构,而不是仅仅重复局限于监督训练窗口的模式。
这种外推能力特别有意义,因为它表明模型真正理解了空间关系的本质,而不是简单地记忆训练样本中的模式。更有趣的是,虽然SenseNova-SI没有继续外推到64帧以外,但与明确使用64或128帧长上下文窗口训练的Cambrian-S相比,SenseNova-SI在推理时使用大幅更少的帧数仍然实现了可比的性能。这表明SenseNova-SI具有更强的空间理解能力,能够在更大的时间间隔内形成有意义的连接,而不依赖于密集采样的帧序列。
这种能力的出现可能反映了AI对空间结构的深层理解。就像一个熟悉某个城市的人即使只看到几个关键地标也能推断出整体布局一样,训练良好的AI模型似乎能够从有限的视觉信息中构建出完整的空间表征。
研究团队还观察到了跨任务泛化的现象。在某个特定空间任务上训练的模型,在看似无关的其他空间任务上也表现出了非平凡的迁移效果。这种现象暗示着空间智能可能存在某些共同的底层机制,不同的空间任务可能都依赖于这些共同的认知基础。
这些新兴能力的发现为AI空间智能的发展提供了重要的理论支撑,也为未来的研究方向指明了道路。它们表明,通过精心设计的训练数据和合适的训练策略,AI确实有可能发展出类似人类的空间认知能力。
八、严格的验证:确保AI真正理解空间而非投机取巧
为了确保SenseNova-SI的优异表现来自于真正的空间理解能力,而不是对训练数据的过拟合或对文本模式的投机取巧,研究团队设计了一系列严格的验证实验。这些验证就像医生对病人进行全面体检一样,要从多个角度确认AI的空间智能是否真实可靠。
首先是语言捷径的检测。近期研究表明,一些多模态模型可能会利用语言捷径来回答问题,而不进行真正的视觉推理。为了测试这一点,研究团队使用了VSI-Debiased,这是VSI的一个特殊设计变体,专门消除了那些可以在没有视觉理解的情况下正确回答的问题。
结果显示,当在VSI-Debiased上进行评估时,SenseNova-SI相比Cambrian-S-7B表现出了更小的性能下降。SenseNova-SI从常规VSI的68.7%下降到VSI-Debiased的62.8%,下降了约6个百分点。而Cambrian-S-7B从67.5%下降到59.9%,下降了约8个百分点。这个结果表明SenseNova-SI更少依赖文本启发式,更多依赖于空间基础的理解。
更严格的测试是完全移除视觉输入。研究团队让模型在没有任何图像的情况下回答MindCube的问题,仅仅依靠文本描述。令人震惊的是,之前在MindCube上的开源最佳模型MindCube-RawQA-SFT在没有图像的情况下得分为50.7,这与其完整视觉输入时的性能(51.7)几乎相同,揭示了它对语言先验的严重依赖,而不是视觉推理。
相比之下,SenseNova-SI从有视觉输入时的85.6%下降到无视觉时的52.5%,显著的下降证实了它确实在使用视觉信息,而不是依赖语言捷径。有趣的是,两个模型在无视觉情况下都收敛到大约50分的成绩,这凸显了基准测试去偏的重要性。
为了进一步验证SenseNova-SI不会过拟合到文本选项顺序,研究团队进行了循环测试。这种测试重新排列问题中的选择项,以消除对特定文本模式的依赖。SenseNova-SI在软循环测试中表现出最小的性能下降。即使在需要稳健处理答案选择的所有旋转的硬循环测试中,SenseNova-SI也只下降了10分,而MindCube-RawQA-SFT下降了近30分。这证明了SenseNova-SI对表面文本模式的敏感性要低得多,具有更稳定、更基于输入的推理能力。
研究团队还通过分析模型的注意力模式和中间表征来验证空间理解的真实性。他们发现,SenseNova-SI在处理空间任务时,注意力更多地集中在图像中的关键空间特征上,而不是文本中的语言线索。这种注意力分布模式与人类在进行空间推理时的认知模式高度相似。
另一个验证维度是模型对空间关系变化的敏感性。研究团队创建了一系列对照实验,在其中微调图像中物体的位置关系,观察模型答案的相应变化。结果表明,SenseNova-SI对这些微妙的空间变化表现出了高度的敏感性,进一步证实了其真正的空间理解能力。
这些严格的验证实验不仅证明了SenseNova-SI的空间智能是真实可靠的,也为评估AI空间认知能力提供了重要的方法论贡献。它们表明,在AI的空间智能评估中,必须采用多维度、多层次的验证方法,才能确保模型的能力是基于真正的理解而不是巧妙的投机取巧。
九、空间思维链的探索:AI推理方式的新尝试
在AI领域,思维链(Chain-of-Thought, CoT)推理已经成为处理复杂推理任务的标准方法。研究团队自然想到一个问题:这种在文本推理中大获成功的方法,能否也帮助AI更好地进行空间推理呢?为了回答这个问题,他们进行了一次初步但深入的探索。
研究团队设计了三种不同的空间思维链方法,每种都有其独特的设计理念。第一种是CoT-GPT-5,这是最直接的方法,直接使用大型语言模型GPT-5来标注思维链。给定问题和正确答案,GPT-5会生成详细的推理过程。这种方法的优势在于能够产生流畅、自然的推理文本,但缺点是可能缺乏空间推理的专业性。
第二种方法CoT-MindCube-Aug-CGMap借鉴了MindCube的做法,在思维链中构建JSON格式的认知地图。这种认知地图试图以结构化的方式记录空间信息和推理过程。比如,它会记录"物体A在位置(x1, y1),物体B在位置(x2, y2),因此A相对于B的位置关系是..."这样的信息。
第三种方法CoT-SenseNova-SI-CGMap是研究团队的扩展版认知地图,它提供了更详细的物体跟踪功能。这种方法不仅记录静态的位置信息,还会跟踪物体在多帧中的运动轨迹,将它们映射到精确的世界坐标系统(而不是粗糙的网格),并更明确地推理相对空间关系。
为了确保实验的可靠性,研究团队在每种变体上都使用了大约10万个样本进行训练,这个规模相对于典型的思维链研究来说是相当大的。他们选择了VSI的物体相对方向任务作为评估对象,这是一个已知会困扰InternVL3等强基线模型的具有挑战性的子集。
实验结果却令人意外。虽然研究团队精心设计的CoT-SenseNova-SI-CGMap在三种方法中取得了最高的改进,但所有思维链变体的绝对增益都很有限,不足以证明其计算开销是合理的,特别是考虑到训练和推理期间所需的额外令牌数量。
具体来说,基础的InternVL3-8B在该任务上的准确率为39.3%,使用简单的无思维链方法可以提升到54.9%。而三种思维链方法的表现分别是:CoT-GPT-5为40.0%,CoT-MindCube-Aug-CGMap为39.9%,CoT-SenseNova-SI-CGMap为47.9%。虽然最后一种方法确实有所改进,但相比于简单数据扩展带来的15.6个百分点的提升,思维链方法的8.6个百分点提升显得相形见绌。
更令人深思的是,思维链方法需要生成大量的中间文本,这大大增加了计算成本。CoT-GPT-5平均生成1070.7个输出令牌,CoT-MindCube-Aug-CGMap生成1490.6个令牌,而CoT-SenseNova-SI-CGMap生成了2262.8个令牌,而简单方法只需要3.4个令牌就能给出答案。
这个结果引发了研究团队的深入思考。为什么在文本推理中如此有效的思维链方法,在空间推理中却效果有限呢?一个可能的解释是,空间推理涉及的是视觉-空间信息的处理,这种信息的本质与文本信息有着根本性的差异。空间关系更多地依赖于直觉和整体感知,而不是逐步的逻辑推导。
另一个解释是,当前的思维链方法本质上还是基于文本的,它们试图用语言来描述和推理空间关系。但空间信息可能更适合用非文本的方式来表示和处理,比如通过内部的几何表征或空间地图。这就像试图用文字来描述一首音乐的美妙一样,语言的线性特性可能无法充分捕捉空间信息的多维特性。
研究团队承认这些结果是初步的,现在下定论还为时过早。但这些发现确实表明,虽然精心设计的思维链可以提供适度的好处,不应该完全被忽视,但仅基于文本的推理可能既不是最有效也不是最高效的空间智能范式。这可能暗示需要超越传统思维链的更广泛范式转变。
十、实战验证:从虚拟走向现实的机器人应用
为了评估SenseNova-SI增强的空间智能的实际应用价值,研究团队将其应用到了真实的机器人操作任务中。这就像让一个刚学会空间推理的AI学生参加实际的操作考试,检验其空间能力是否能转化为实际的行动能力。
实验平台是EmbodiedBench,这是一个专门评估具身智能的综合基准测试。研究团队特别关注其中的空间子集,这些任务需要机器人理解和执行包含丰富空间语言的用户指令,比如"左"、"上方"、"后面"、"水平"等描述。在这个设置中,SenseNova-SI被实例化为一个具身智能体,控制虚拟的Franka Panda机器人执行用户指令。
重要的是,研究团队没有对SenseNova-SI进行任何针对机器人任务的微调,这是一个真正的零样本测试。这种测试方式更能体现模型空间智能的泛化能力,也更接近实际应用场景中的情况。
实验设计了两种提示设置来评估性能。官方提示(OP)提供从输入图像中提取的边界框坐标信息,这是标准的设置。而空间智能导向提示(SIP)则在OP的基础上增加了额外的物体定位线索,以减少物体识别中的歧义,更好地分离空间推理性能。
实验结果令人振奋。在官方提示设置下,SenseNova-SI的成功率从基础InternVL3-8B的10.4%大幅提升到16.6%,提升了59.6%。在空间智能导向提示设置下,成功率从20.8%提升到33.3%,提升了60.0%。虽然绝对数字看起来不算很高,但考虑到这是零样本测试,且机器人操作本身就是一个极具挑战性的任务,这样的提升已经相当显著了。
更有意思的是,作为对比,顶级商业模型GPT-4o在同样的任务上分别取得了37.5%和45.8%的成功率。虽然SenseNova-SI还没有完全达到GPT-4o的水平,但考虑到它是一个完全开源的模型,这样的性能差距已经相当可观了。
通过对具体任务执行过程的分析,研究团队发现SenseNova-SI在几个关键方面表现出了改进。首先,它更可靠地识别了关键的空间线索。比如,当指令说"把左边的三角形放在右边的圆柱体上面"时,SenseNova-SI能够准确识别出"左边"、"右边"、"上面"这些空间关系,并将其转化为具体的操作坐标。
其次,SenseNova-SI在空间推理方面表现得更加准确。它能够理解复杂的空间关系,比如"把星形放入形状分类器"这样需要理解物体几何属性和空间适配关系的指令。基础模型往往在这类任务上会出现理解偏差,而SenseNova-SI则能够更准确地把握任务要求。
最后,SenseNova-SI在动作规划方面也表现出了更好的一致性。它生成的动作序列更加连贯和合理,能够让机器人顺利完成任务。这表明空间智能的提升不仅有助于理解任务要求,也有助于规划实现目标的具体步骤。
研究团队还展示了一些具体的执行案例。在"把左边的三角形叠在右边的圆柱体上"这个任务中,SenseNova-SI能够准确识别左右两个物体,计算出合适的抓取和放置位置,并生成流畅的机器人动作序列。整个过程展现了从空间理解到动作执行的完整链条。
这些实验结果证明了SenseNova-SI的增强空间智能确实能够直接惠及具身操作任务。它表明AI的空间认知能力不仅仅是学术练习,而是具有真实应用价值的能力。对于未来的家庭服务机器人、工业操作机器人等应用来说,这种空间智能能力将是必不可少的。
这项研究验证了空间智能在从AI理解到AI行动转化过程中的重要价值,为具身AI的发展提供了重要的技术支撑。随着机器人技术的不断发展,我们有理由相信,具备强大空间智能的AI将在更多实际场景中发挥重要作用。
结论
说到底,这项由商汤科技研究院主导的研究为我们揭示了一个既令人惊讶又充满希望的现实:AI的空间智能问题并不是无解的技术难题,而是可以通过精心设计的数据和科学的训练方法来解决的。
研究团队通过构建SenseNova-SI-8M这个迄今为止最全面的空间智能训练数据集,成功地让AI模型在空间理解方面取得了突破性进展。SenseNova-SI不仅在多个权威基准测试中创造了新的记录,更重要的是,它证明了数据驱动的方法能够系统性地培养AI的空间认知能力。
这项研究的意义远不止于技术层面的突破。它为我们展现了AI发展的一个重要方向:通过深入理解人类认知的基本机制,我们可以更有效地设计AI系统的学习过程。空间智能作为人类认知的基础能力之一,其在AI系统中的成功实现,为更高级的认知能力(如常识推理、创造性思维等)的培养提供了重要的启发。
从实际应用的角度来看,SenseNova-SI在机器人操作任务中的出色表现预示着一个激动人心的未来。当AI真正理解了空间关系,家庭服务机器人就能更好地理解"把茶杯放在沙发旁边的小桌上"这样的指令,工业机器人就能更精确地执行复杂的装配任务,自动驾驶汽车就能更好地理解道路空间结构。
研究团队发现的能力涌现现象也给我们带来了重要的启示。AI在学习空间智能的过程中表现出的跨任务迁移能力和外推能力,暗示着人工智能系统可能具备比我们预期更强的泛化学习能力。这为未来开发更加智能、更加通用的AI系统提供了信心。
当然,这项研究也揭示了当前技术的局限性。思维链推理在空间智能任务中的有限效果表明,我们可能需要开发全新的推理范式来处理空间信息。数据扩展的饱和趋势也提醒我们,单纯的数据驱动方法可能存在天花板,未来的突破可能需要算法创新和数据改进的结合。
研究团队的开源承诺体现了科学研究的开放精神,也为整个AI社区的发展做出了重要贡献。通过开放SenseNova-SI的模型权重和训练数据,他们让更多的研究者能够在这个坚实的基础上继续探索,推动空间智能技术的进一步发展。
展望未来,随着空间智能技术的不断成熟,我们有理由期待AI系统在理解和交互物理世界方面取得更大的突破。从能够精确导航的家庭机器人,到能够进行复杂装配的工业系统,再到能够理解复杂空间关系的设计助手,空间智能将成为下一代AI应用的重要基础。
这项研究不仅回答了"AI能否像人类一样理解空间"这个问题,更为我们指明了实现这个目标的具体路径。在人工智能向着更加通用、更加智能的方向发展的道路上,空间智能的突破无疑是一个重要的里程碑。对于那些希望深入了解这项开创性研究的读者,可以通过arXiv:2511.13719v1查询完整的技术论文,获得更详细的研究细节和实验数据。
Q&A
Q1:SenseNova-SI相比其他AI模型在空间智能方面有什么优势?
A:SenseNova-SI在五个主要空间智能基准测试中都创造了开源模型的最佳记录,比如在VSI-Bench上达到68.7%,在MindCube上达到85.6%。它的核心优势在于通过精心构建的800万样本训练数据,系统性地培养了度量测量、空间关系、视角转换等五大核心空间能力,特别是在视角转换任务上甚至超越了GPT-5等商业模型。
Q2:这项研究对普通人的生活会产生什么影响?
A:SenseNova-SI的空间智能能力将直接推动下一代智能机器人和AI应用的发展。未来的家庭服务机器人将能更好地理解"把杯子放在沙发旁边"这样的指令,自动驾驶汽车能更准确地理解复杂路况的空间结构,AR/VR应用也能提供更真实的空间交互体验。研究团队已经在机器人操作任务中验证了这些应用潜力。
Q3:SenseNova-SI-8M数据集有什么特别之处?
A:SenseNova-SI-8M是目前最全面的空间智能训练数据集,包含800万个样本,覆盖度量测量、空间关系、心理重构、视角转换和综合推理五大核心能力。它的特别之处在于填补了现有数据集的重要空白,特别是大幅增加了之前被忽视的视角转换任务数据,这些数据来自MessyTable、ScanNet、Ego-Exo4D等高质量三维数据集。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.