空间智能来势汹汹！从实验室到消费级刚需，如何重塑AI具身时代?|算法|视觉|机器人|李飞飞

分享至

机器之心发布

明天，一年一度的 CES 即将在美国拉斯维加斯璀璨开幕。作为全球科技产业最重要的风向标之一，笔者在超前探访之后欣喜发现，在今年机器人「后厨翻炒」与 AI 眼镜「同声传译」的热闹之外，行业终于开始直面核心命题：无法理解三维空间的 AI，终究只是缺乏行动力的「语言巨人」。

如何解题？空间智能（Spatial Intelligence），这一被李飞飞定义为「AI 下一个十年」的关键赛道，正在本届 CES 上完成从学术概念到产业实践的突破性跨越。从巨头的算力竞赛到中国初创企业的端侧破局，一场关于「空间智商」的全球竞速已悄然开幕，让我们一探究竟 ——

今年 CES 2026 展馆，具身智能（Embodied AI）仍旧是各大厂商的展示重点，但在这背后一种冷静的共识正在行业底层悄然凝聚：如果 AI 不能像生物一样理解三维空间，那么它将永远被困在屏幕或昂贵的遥控器里。

今年，当大众还在讨论大语言模型（LLM）的逻辑能力时，一批专注于「空间智能」的公司已经开始在端侧重构 AI 的感知边界。

感知困局：万亿参数为何敌不过一只苍蝇的空间直觉？

CES 2026 的展台前，一个矛盾现象引发行业深思：一边是参数规模突破万亿、逻辑推理能力逼近人类的大语言模型（LLM）；另一边是依赖激光雷达或人工远程操控才能勉强运行的智能设备。多数 AI 眼镜仍停留在「2D 提词器」的初级阶段，而号称「自主决策」的机器人，在复杂物理环境中甚至难以完成简单的避障动作。

「一只苍蝇没有万亿级参数，却能在杂乱空间中极速避障、精准着陆。」一位资深 AI 投资人的感叹，点出了当前具身智能的核心痛点。

正如 OpenAI 前首席科学家 Ilya Sutskever 与 Meta AI 负责人 Yann LeCun 共同指出的：物理世界的常识无法通过文字完全习得。猫与苍蝇不识字，却凭借与生俱来的空间直觉，在 3D 环境中展现出远超超级计算机的感知与决策能力。

这种「语言强、手脚笨」的困境，本质上便是「空间智能」的缺失。

李飞飞曾定义「空间智能」为 AI 的下一个十年：若 AI 无法理解物体的深度、距离、遮挡与重力，就永远无法真正「具身」。在语言智能趋于饱和的今天，AI 行业的竞争焦点正从「参数竞赛」转向「感知革命」—— 谁能以更低成本实现更快的空间直觉，谁就掌握了下一轮技术浪潮的主动权。

空间智能：AI 理解世界的「认知革命」

为何整个行业将破解具身困境的希望押注于「空间智能」？其根本原因在于，这并非一次寻常的技术迭代，而是一场让 AI 获得「人类理解世界」底层能力的认知革命。

李飞飞在其论述中深刻指出，空间智能是人类认知的「脚手架」。从婴儿通过抓握与爬行来探索环境，到消防员在浓烟中凭借直觉判断建筑坍塌的风险，我们无时无刻不依赖着对深度、距离、遮挡和物理关系的瞬间理解。这种能力在文字诞生之前便已存在，它根植于进化之中，是连接感知与行动、驱动智能涌现的核心循环。

然而，当前最被人熟知的 AI 工具却似乎尚未具备这种思维方式。它们能处理海量文本与图像，却在理解物体间空间关系、预测物理动态等根本任务上表现薄弱，与它们所试图交互的物理现实严重脱节。

要弥合这一鸿沟，李飞飞提出需要为 AI 构建全新的认知基础 —— 即能够理解、推理并与复杂世界交互的「世界模型」。这要求模型具备三种核心能力：生成性，能创造在视觉、几何与物理层面皆一致的世界；多模态性，可融合处理文本、图像、动作等多种信号；交互性，能预测动作对世界状态的影响。这远超越了对语言序列的建模，是对高维、动态物理规律的统一表征，其挑战规模空前。

一旦攻克空间智能，意味着 AI 将首次获得类似生物的空间直觉与物理常识。

这将不再是让机器「看到」更多像素，而是让其「理解」场景中物体为何存在、如何关联，以及将如何变化。由此，AI 才能从被动的信息处理器，蜕变为能在真实世界中主动规划、安全交互的智能体。

这场认知革命的产业价值不言而喻。一旦 AI 掌握了空间智能，自动驾驶将拥有媲美人类的场景理解与预判能力；机器人能在复杂环境中实现真正自主的导航与灵巧操作；智能制造、医疗手术辅助等领域也将获得颠覆性的可靠「伙伴」。

这不仅是技术的升级，更是 AI 融入并赋能物理世界的「通行证」。

全球竞速：「世界生成」与「空间决策」技术路径分野

当前，空间智能的技术革命催生了两大核心路径的分化：世界生成派与空间决策派。

一条致力于构建与生成逼真的 3D 世界，为 AI 提供学习和训练的无限场景；另一条则专注于在现实环境中实现实时的空间理解与动作决策，让 AI 能真正「动手操作」、像人一样融入真实物理世界。

本届 CES 清晰地展现了这两种路径的平行竞赛与互补可能。

路径一：世界生成 —— 创造 AI 的「无限模拟场」

该路径的核心在于，通过生成式模型构建高保真、可交互的虚拟环境，为机器人训练、游戏娱乐、影视创作等提供「数字孪生」基础。

META 凭借 SAM 3 (3D）项目，致力于为物理世界中的万物进行 3D 标记与重建，旨在建立最庞大的视觉词典。由李飞飞领衔的 World Labs 则走得更远，其「Marble」模型不仅能够理解 3D 场景，更能像造物主一样生成并与之交互，是目前空间建模的「科研天花板」。来自中国的 GIGA 同样聚焦于此，专注于利用神经渲染等技术，从 2D 图像或视频中高效生成高质量的 3D 场景资产。

这条路径的价值在于，它能为缺乏真实交互数据的机器人训练，以及需要大量 3D 内容的创意产业，提供一个成本可控、规模无限的「练兵场」和「素材库」。

路径二：空间决策 —— 赋予机器「实时行动力」

与「造世界」的宏大叙事并行，另一批公司正攻坚更具即时挑战的命题：如何让机器基于当下的视觉输入，在毫秒间理解空间关系并做出安全、精准的决策。

NVIDIA 的 NitroGen 项目通过建立视觉到动作的端到端模型，减少传统规划环节的延迟。自动驾驶领域的小鹏汽车等其城市级智能驾驶系统本质上是在复杂开放的世界中完成持续的空间决策。银河通用（Galbot）研发的 VLA 模型，试图将视觉感知、语言指令与动作生成紧密耦合，让机器人「看到即思考，思考即行动」。联汇科技 OmAI 则更侧重于通过普通 RGB 摄像头和有限的端侧算力下，实现极高精度的 3D 开放空间感知，为无人装备和可穿戴设备提供视觉决策核心。

这条路径的竞争，围绕着实时性、精度、功耗与成本展开，直接决定了具身智能能否走出实验室，走进动态变化的真实生活与普通消费场景。

当然，两条路径并非割裂，而是共同构成空间智能的完整闭环。

「世界生成」为「空间决策」提供了海量、安全的训练与仿真环境；而「空间决策」中带来的真实数据与挑战，又不断反哺和修正「世界生成」的模型，使其更贴近物理规律。

这场竞速的本质，是 AI 在「虚拟」与「现实」之间构建双向通道的能力比拼，其终点则是创造出真正具备空间常识、能与人类世界无缝交互的智能体。

行业拐点：当空间感知进入「百元时代」

但比终点更早来临的将是行业「拐点」。

不论何种技术路径的演进，都将指向一个清晰的产业目标：将曾经成本高昂的空间感知能力变成一项可大规模普及的基础服务。

在本届 CES 现场，我们还看到了关于纯视觉路径打破空间感知「昂贵魔咒」的更多可能。

长期以来，3D 空间感知被昂贵的硬件设备所垄断：多摄像头 BEV 架构或数千美元的激光雷达，让具身智能只能局限于高端实验室和工业场景。但在 2026 年的展台上，一种「视觉优先」的技术路径正在改写游戏规则。

美国 AI 顶级大厂率先吹响了范式转型的号角 ——

META SAM 3 (3D）：试图把全世界的物体在 3D 空间中「标记」出来，为 AI 提供最全的视觉词典。
META 谢赛宁 (SuperSensing）：追求超越像素的物理洞察力，让 AI 能「看透」运动物体的物理惯性。
NVIDIA NitroGen：建立 Vision-Action（视觉－动作）的直连通路，让机器人不再通过语言大脑转译，而是凭视觉直觉直接做出反应。

顶级厂商不计成本地利用算力优势打造的「大」模型，对端侧的硬件也有极高的要求，「堆料」成为主流美式机器人厂商和可穿戴设备厂商的唯一选择。

不过，笔者也在 CES 现场看到了另一类产业化技术破局者 —— 著名的消费电子品牌韶音（Shokz）与 AI 空间智能厂商联汇科技（OmAI）联合推出的 AI 眼镜，它展示了一种极具破局性思路的技术路径。

这款搭载了联汇科技 OmAI 核心空间智能技术的 AI 眼镜：彻底抛弃了昂贵的传感器，仅通过普通的 RGB 摄像头 + 端侧的 OmModel 模型，即实现了实时的 3D 开放空间感知。对于用户而言，这副轻便的眼镜能将物理世界即时转化为清晰的避障指令；而对于行业而言，可轻便搭载的高性能低成本的空间感知能力，意味着：模型优势可以将 3D 空间感知的成本降到单目摄像头的水平。

过去，实现可靠的 3D 感知往往意味着高昂的硬件成本 —— 多摄像头 BEV（鸟瞰图）架构或者是数千美元的激光雷达。这使得具身智能被禁锢在昂贵的工业场景或高端实验室中。

如今，算法重构让高精度空间感知能力得以嵌入低功耗端侧芯片 ——

其一，脱离激光雷达的纯视觉方案，让 AI 眼镜、家用机器人等设备真正进入消费级价格区间；

其二，端侧实时处理能力，为盲人导航、具身机器人等场景筑牢安全底线；

其三，从「看到物体」到「理解空间」的跨越，让具身智能完成了从感知到决策的关键进化。

当底层算法重构取代了硬件堆砌，具身智能也将迎来走出实验室的可能。

投资人观察：寻找具身智能领域的「Intel Inside」

在提前看展的过程中，一位同行的硅谷投资人坦言：「过去我们看参数规模，现在我们看空间智能的落地效率。谁能让 AI 在物理世界中实现‘仿生灵动’，谁就赢得了下一个十年。」

具身智能和可穿戴设备的「iPhone 时刻」，或许将始于这次 CES 展释放的空间感知成本革命信号 ——

从「实验室」到「消费级」：当 3D 空间感知的成本从数万元（激光雷达方案）降至数百元（纯视觉算法方案）时，市场容量将发生指数级扩张。不仅是盲人眼镜，扫地机器人、低空无人机乃至消费级具身机器人的大规模落地将不再受困于硬件整机成本门槛。

数据的入口效应：谁能让 AI 在各类复杂室内外场景中实现「视觉闭环」，谁就掌握了物理世界最真实的数据流。这种数据的护城河，远比单纯的文本爬取深得多。

投资人的集体共识指向了一个清晰趋势：未来 3-5 年，具备端侧、实时、高精度 3D 空间感知与决策能力的企业，将成为具身智能生态中不可或缺的「视觉芯片级」供应商，其行业地位也将堪比 PC 时代的 Intel、移动时代的 ARM，因为这些厂商会让具身智能和可穿戴设备真正走入千家万户，成为新的消费级市场。

结语

从 CES 2026 的现场来看，这场从「语言智能」到「空间智能」的跃进已经不可逆转。而这场革命的想象力远不止于此：在消费端，百元级 3D 感知方案将催生智能穿戴、智能家居的新品类爆发，让 AI 设备成为像手机一样的生活必需品。在工业端，低成本空间智能将推动智能制造、物流仓储的效率革命，为企业降本增效提供核心动力。在社会价值层面，它将为残障人士、老年人等各类刚需群体带来更便捷的生活方式，加速 AI 普惠。

如果说过去两年，LLM 以「博学」令人震撼。那么，未来三年，AI 将以其在物理世界中的「仿生灵动」与「自主」重新定义智能边界，而我们正在见证 AI 从「语言智能」向「空间智能」的范式跃进。在这场全球竞速中，技术范式的重构、成本门槛的突破、应用场景的落地，正共同推动具身智能迎来真正的「iPhone 时刻」。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.