AI迎来关键转折，空间智能爆发临界点已至？|算法|机器人|智能体|大模型|人工智能

分享至

文｜极智GeeTech

空间智能是人工智能理解、生成、推理并与三维世界交互的能力，这种能力是人类和动物智能的核心，历经5.4亿年的进化才得以完善，而语言的进化仅用了不到百万年。

空间智能之所以至关重要，是因为它不仅是感知世界的方式，更是与物理环境互动的基础。无论是机器人、智能辅助驾驶、虚拟现实的沉浸式体验，还是内容创作的革新，空间智能都是不可或缺的基石。

被誉为"AI教母"的李飞飞断言："没有空间智能，通用人工智能（AGI）将无法实现。"

回顾过去一年，Scaling Law驱动的新范式开始告别参数规模崇拜，多模态AI生成能力涌现多个爆款应用，打开了全新的竞速空间。

从李飞飞的ImageNet到最近腾讯发布并开源混元3D世界模型、高德上线全球首个地图AI原生智能体、蘑菇车联发布首个深度理解物理世界大模型MogoMind，从2D图片到3D模型，再到真实物理世界，一切都在表明，空间智能作为AI与现实世界交互的关键技术之一，其爆发临界点正在到来。

空间智能为何如此重要？

空间智能的核心目标——不仅要让AI能够"看见"世界，还要让它能够理解三维空间，并在其中进行互动和学习，这是从单纯的视觉识别到真正理解、操作现实世界的跨越。

如今，我们正站在数字世界的类似转折点上，空间智能可能成为推动AI突破当前能力限制的关键。正如视觉能力催生了生物智能，空间智能将引领AI进入一个全新的发展阶段。

在2025世界机器人大会上，中国工程院院士倪光南指出，AI与空间智能的融合，是当前落实国家"人工智能+"行动的关键核心技术，它正在重构三维物理世界，拓展大模型通向物理世界的桥梁。

他在演讲中强调，视觉是智能的起点。倪光南引用数据指出，一个4岁小孩通过视觉在四年中学到的视频信息量，与一个典型大语言模型学习的互联网全部公开文本信息量相当，这说明要让AI真正认识和理解世界，仅靠文本信息是远远不够的，必须重视视觉信息。

与语言模型相比，空间智能的复杂性令人叹为观止。语言是线性的、一维的，而三维世界充满了动态性和物理规律。从二维图像重建三维结构是一个数学上的"病态"问题，意味着可能存在多种解法，这使得空间智能的开发远比语言处理复杂。

此外，语言数据在互联网上随处可见，而空间数据大多存在于我们的感知中，难以直接获取。这种数据稀缺性为AI研究带来了巨大挑战。

总体上，空间智能难题被归纳为四大核心挑战。

首先，是维度复杂性。语言是一维序列，而现实世界是三维空间与一维时间的结合。这种维度的指数级增长导致组合复杂性呈爆炸式上升，使得空间智能的计算需求远超语言模型。

其次，信息获取的非适定性。无论是生物眼睛还是机器摄像头，都是将三维世界"投影"到二维平面。这种数学上的"降维打击"，使得从2D图像重建3D信息成为一个病态问题。人类通过双眼视差、运动视差等多重线索解决这一问题，但机器需要模拟类似的多模态感知能力。

第三，生成与重建的二元性。语言模型主要处理是生成任务，如文本生成；而空间智能系统必须同时具备"生成"虚拟世界和"重建"真实物理世界的能力。这种二元性要求模型在生成时遵守物理规律，在重建时捕捉细节，这对算法设计提出了极高要求。

第四，数据的稀缺性。互联网上存在海量的语言数据，但适用于空间智能训练的结构化三维数据却极为稀缺，"真实数据+合成数据"的混合策略可以与探索如何利用人类大脑中的先验知识来弥补数据缺口。

通往四维世界的五大层次

空间智能重建是计算机视觉领域的核心挑战，其目标在于从视觉数据中还原三维空间的动态演化过程。这一技术通过整合静态场景结构与时空动态变化，构建出具有时间维度的空间表征系统，在虚拟现实、数字孪生和智能交互等领域展现出关键价值。

这种多维度的空间建模能力正成为新一代人工智能发展的基础设施——无论是构建具身智能的环境认知体系，还是训练具备物理常识的世界模型，高保真的4D空间表征都发挥着基石作用。

值得注意的是，前沿研究正从单纯的几何重建转向对场景物理属性和交互逻辑的建模，这种转变使得空间智能不仅能呈现视觉真实的动态场景，更能支撑智能体与虚拟环境的拟真交互。

在构建空间智能过程中，可以划分为五个递进的层次：

第一层（Level 1）：底层三维属性的重建（如深度、位姿、点云图等）。三维场景理解的基石在于对底层视觉线索的精准恢复，这一层级聚焦于四大核心要素：深度感知、相机定位、点云构建与动态跟踪，这些基础组件共同构成了三维空间的数字化骨架。

第二层（Level 2）：三维场景组成要素的重建（如物体、人体、建筑、场景等）。在完成底层3D线索提取后，这一层的研究重点转向场景中具体对象的精细化建模，包括人物、各类物体以及建筑结构等元素的几何重建。虽然现有方法能够处理这些元素的空间分布问题，但对它们之间的动态交互关系仍缺乏有效建模。

值得关注的是，随着神经辐射场、3D高斯点云表示以及可变形网格等创新技术的突破性进展，研究者们已经能够实现具有高度真实感的细节还原和整体结构保持。这些技术进步不仅显著提升了重建质量，更为影视特效制作、虚拟现实等应用场景提供了关键的技术支撑。

第三层（Level 3）：完整的4D动态场景的重建。这一层研究致力于突破静态场景的限制，通过引入时间维度构建动态4D表征系统，为沉浸式视觉体验提供技术支撑。从应用场景来看，相关研究主要聚焦两大方向：面向通用场景的4D重建技术，以及针对人体运动的专项动态建模方法。这种技术分野反映了不同应用场景对时空建模的差异化需求。

第四层（Level 4）：包含场景内部组成部分之间交互关系的重建。这一层代表了空间智能研究的重要突破，其核心在于建立场景元素间的动态交互模型。作为交互行为的主导者，人体自然成为研究的重点对象，早期工作开创性地实现了从视频中提取人体与物体的运动关联。得益于三维表征技术的革新，新一代算法在交互物体的几何外观和运动轨迹重建方面取得了显著提升。

特别值得注意的是，人-场景交互建模这一新兴研究方向，通过解构人与环境的复杂互动机制，为构建具有物理合理性的数字世界奠定了重要基础。

第五层（Level 5）：引入物理规律以及相关约束条件的重建。Level 4系统在交互建模方面取得重要突破，但仍面临物理真实性的关键挑战。现有方法普遍未能整合基础物理规律（如重力、摩擦等），导致其在机器人动作模仿或辅助驾驶等任务中存在明显局限。

Level 5的突破性进展主要体现在人体运动仿真和场景物理建模，结合仿真平台与深度强化学习，将研究范畴扩展至物体形变、碰撞检测等复杂物理现象，实现了从视频到物理合理动作的转化。

这个层级化的技术框架，展现了AI认知能力从基础到高阶的完整进化路径——就像教一个孩子先学会观察（Level 1），再认识物体（Level 2），接着理解运动（Level 3），然后掌握互动（Level 4），最终领悟物理规律（Level 5）。这种循序渐进的突破，正在推动虚拟世界从"看起来真实"向"动起来真实"的质变。

空间智能开启无尽想想象力

从技术演进角度看，空间智能代表了人工智能领域的一种崭新思维方式。它通过将感知信息转换为关于外部环境的抽象模型，使得智能体能够有效预测和理解周围世界的动态变化。

以自动驾驶为例，空间智能不仅可以帮助辅助智驾系统根据历史经验预测其他车辆和行人的行为，还能在特定情况下提前调整行车策略，极大提高行驶安全性与效率。这种基于物理规则和常识的数字世界生成能力，是以往任何人工智能技术都无法比拟的。

空间智能可以被视为人工智能从"自发感知"走向"自主认知"的迈进，其让人工智能技术开始突破信息空间的局限，向真实世界的三维空间扩展，进一步提升了人工智能在实际环境中的适应能力。

它不仅是人工智能技术的再次进化，更是人工智能系统朝着真正理解和交互我们所生活的三维世界迈出的关键一步。正如语言智能让人工智能能够理解和生成人类语言一样，空间智能将使人工智能能够理解和操作物理世界。

相较于传统的图像识别技术，空间智能要求人工智能具备三维空间的理解与实时行为调整能力。通过对动态场景的分析与决策，人工智能不仅能够识别物体，还能够理解它们之间的相对位置和运动轨迹。

比如，在复杂的城市交通环境中，辅助驾驶系统必须利用空间智能来预测交通流动，同时确保能够有效应对突发的交通情况。此种双重能力的结合，让自动驾驶的安全性和可靠性将发生质的飞跃。

空间智能不仅拓宽了人工智能的应用场景，也推动了算法的进一步发展。未来，空间智能将为智能体提供更高层次的认知与推理能力，使其能够在模拟的虚拟环境中进行反复实验，从而优化决策在现实世界中的应用。

如此，科学家和工程师们可以在无风险的条件下，测试和改进智能算法的表现。这种在虚拟环境中的训练，为现实中的应用提供了更加保险的保障，对于推动技术的成熟具有重要意义。

在日本，空间智能已全面铺开。比如日本正在把整个东京进行3D数字孪生化，这是实现AI空间智能的关键一步。这一数字孪生模型的规模非常大，而且它对东京的刻画也非常之精细，其绝对位置精度大约在10cm以内，不仅包含了LiDAR点云，还有详实的CityGML和实时交通数据。根据日本的预期，到2030年将实现一个完整的数字孪生城市，从交通到能源做到信息无缝融合，越来越多的城市房屋、工厂将转化为模拟数据。

对于城市进行的数字孪生其实也就是基于感知的城市数据，在网络空间上像"孪生"一样再现建筑物、道路等基础设施与经济活动、人流等各种要素。也就是说，可以通过基于从物理空间各个领域的活动中获取的实时数据，在网络空间中进行高级分析和模拟，并将其结果以交互式的形式高速反馈到物理空间。

正如英伟达高级研究科学家Jim Fan所言，未来的城市管理将依赖于实时图形引擎中的模拟和集群系统，这将使得机器人和自动化设备能够快速适应复杂的环境。机器人将不会孤立地进行训练，它们能够在实时图形引擎中进行模拟，并通过一个巨大的集群进行扩展，以生成下一个数万亿级别的高质量训练数据。

通过在高精度模拟环境中训练，机器人能获得丰富的训练数据，并在复杂场景中快速学习。这种方法将推动机器人从虚拟世界到现实世界的顺利迁移，提升其在实际应用中的效率和智能。

与传统的城市模拟相比，数字孪生能够提供实时反馈，并随着城市的动态变化而调整其状态，这使得城市管理变得更加灵活和高效。

例如，在新南威尔士州，通过数字孪生和人工智能结合的技术，交通管理可以实时调整以减少拥堵，从而最大程度地提高社会效益。

在中国，物理世界AI大模型MogoMind通过通感算一体化设备整合车辆轨迹、交通流量等异构数据，依托交通数据流实时全局感知、物理信息实时认知理解、通行能力实时推理计算、最优路径实时自主规划、交通环境实时数字孪生，以及道路风险实时预警提醒六大关键能力，不仅能够识别路面状况、交通标识、障碍物的物理状态，还能将复杂的交通环境信息转化为可理解、可执行的智能决策建议，为交通管理部门和出行者提供应对方案。推动城市交通从"单点智能"走向"全局智能"。

在医疗领域，空间智能技术可以对医学影像数据进行三维重建和分析，帮助医生更准确地诊断疾病。例如，对CT、MRI等影像数据进行三维重建，可以更清晰地显示人体器官和病变的位置、形状和大小，为医生提供更准确的诊断信息。同时，空间智能技术还可以为医生提供手术导航和辅助决策，通过对患者的身体结构进行三维建模和分析，医生可以更好地了解手术部位的解剖结构和血管分布，提高手术的准确性和安全性。

五亿年前，视觉的出现颠覆了黑暗的世界，引发了最深刻的动物进化模式。过去十年，人工智能的进步同样令人惊叹。当我们开始为计算机和机器人赋予空间智能，就像大自然开启了生物多样化时代，人工智能的未来将由此更具无尽想象力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.