具身导航，感知推理到底是「上帝」，还是执行控制是「命门」？| GAIR Live 023|算法|轨迹|机器人|大模型

分享至

从“几何路径规划”到“空间智能”，具身智能正在经历史诗级范式跃迁。

作者丨岑峰

如果说大语言模型（LLM）的爆发赋予了 AI 思考的“灵魂”，那么具身智能（Embodied AI）的崛起则是要为 AI 打造一副可以感知、行动并改变物理世界的“身体”。在这一进程中，导航技术作为机器人触达环境的第一步，正经历着从传统的“几何路径规划”向“空间智能”的史诗级范式跃迁。

当下的具身导航早已超越了简单的 A 点到 B 点的避障。随着三维视觉、神经渲染（NeRF/3DGS）以及端到端（End-to-End）智驾经验的深度融合，机器人的“眼睛”越来越亮，“腿脚”也愈发灵巧。

这背后隐藏着一场技术范式之争：具身导航的命门，究竟在于大脑的空间理解与常识推理，还是在于肢体在物理世界中的精密执行与安全反馈？

本期 GAIR Live 邀请到了两位极具代表性的跨界专家——浙江大学百人计划研究员彭思达博士与具身多模态大模型算法专家郝孝帅博士。彭思达博士深耕三维视觉与神经渲染（如 3DGS、NeRF），代表着具身智能的“眼睛”与空间大脑；郝孝帅博士作为全球首个跨域具身大模型 MiMo-Embodied 的第一作者，拥有深厚的智驾落地经验，代表着具身智能的“双腿”与实战决策。

在这场一个半小时的圆桌对话中，两位专家围绕具身导航的多个争议焦点展开了深度碰撞：

▪ 关于本质：从“几何位姿”走向“空间语义”。彭思达指出，传统的“自动化”导航只需建图并避障，而具身导航的本质是“空间推理”与“意图理解”的结合。在他看来，导航正演变为一种“具身 VQA（视觉问答）”，机器人需要理解如“帮我找个空的会议室”这类复杂指令并自主漫游决策。郝孝帅则认为，无论是车还是机器人，导航的本质是高层语义指令与物理空间的映射，核心在于如何将模棱两可的人类需求（如“我渴了”）转化为寻找水源的主动探索行为。

▪ 关于范式：端到端决策与“模拟派”的崛起。针对学术界“重感知、轻执行”的论断，彭思达认为，导航不像机械臂抓取那样涉及复杂的物理交互，其“执行”相对成熟，因此高保真仿真环境（如 3DGS 重建）是提升导航智能的一条路径，通过“虚拟宇宙”可以生成海量数据。郝孝帅则从工业落地视角提出辩证看法，他认为“有图与无图结合”才是具身导航的未来。对于长程导航，完全脱离语义地图的自主探索极易陷入死循环，必须借助空间先验来缩小搜索空间。

▪ 关于挑战：解决“视觉幻觉”与记忆负荷。在数据层面，两位专家达成共识：视频数据能提供“通用常识”，但物理规律必须在真实世界里“撞”出来。彭思达提出用“心灵地图（Mental Map）”来解决大模型长上下文的内存压力，通过压缩空间信息提供全局引导。郝孝帅则警示了具身场景下的“视觉幻觉”风险——机器人可能将镜子当成通路，或将地毯影当成深坑，这种对物理质感的误判是具身导航走向深水区的最大障碍。

▪ 关于交互：非语言指令与情感的交织。在人机交互方面，郝孝帅分享了对手势与意图融合的期待，比如通过“一招手”召唤机器人，或通过“一摆手”让其避让，使交互超越文本。彭思达则指出，情感理解是陪伴机器人的核心壁垒，虽然目前大模型在识别语气神态上仍显吃力，但这是实现真正“拟人智能”的长期价值所在。

从学术前沿的“虚拟宇宙”到工业落地的“物理街道”，两位专家不仅拆解了具身导航的底层架构，更对未来 5-10 年具身机器人在工业巡检、酒店服务乃至家庭伴侣场景的爆发给出了极具穿透力的预判。

以下为本次圆桌讨论的实录精编，让我们跟随两位专家的思辨，一起走进具身导航爆发的前夜。

马晓宁：大家好，欢迎来到今天的GAIR Live 直播。如果说大语言模型赋予了 AI 思考的灵魂，那么具身智能就是为 AI 打造行动的身体。在具身智能领域，导航已不再是简单的从 A 点到 B 点的路径规划，而是一个演变为集视觉感知、空间推理等于一体的系统性挑战。

今天我们邀请到了两位重量级嘉宾：浙江大学百人计划研究员彭思达博士，以及具身多模态大模型算法专家郝孝帅博士。郝老师也是全球首个跨域具身智能大模型 MiMo-Embodied 的第一作者；彭老师则长期从事三维视觉、神经渲染与空间智能的研究。我们将共同探讨：具身导航，感知推理到底是‘上帝’，还是执行控制是‘命门’？

01
具身导航的本质进化：从“位姿解算”到“空间推理”

马晓宁：具身导航正经历着一场深刻的范式变革。很多人认为导航就是设计路径、躲避障碍，但在具身智能语境下，导航内涵已发生巨大变化。彭老师，从您的视角看，具身导航更偏向于几何意义上的位姿解算，还是认知层面的空间规划？

彭思达：传统的导航确实偏向几何。如果我们假设地图已知、目标点明确，利用 A* 这种算法规划出路径，这个过程可以称为“自动化”，但很难说是“智能”。

所谓智能，应当像人一样，大脑能理解并推导指令。随着大模型的成熟，导航被赋予了新含义。例如，我给机器人下达指令：“帮我去看看某会议室有没有人，如果有人，找一个空的会议室。”机器人需要先走到目的地，观察环境并回答问题，最后返回告知结果。这时，导航的外延与具身 VQA（视觉问答）结合在了一起。具身 VQA 是指智能体在三维空间中自由漫游并回答问题，这个漫游过程本质上就是带有明确目的性的导航。

马晓宁：郝老师，您有非常丰富的智驾研究经验。导航应当如何与具身本体结合？

郝孝帅：无论是自动驾驶还是具身机器人，本质都是路径规划问题。汽车、人形机器人、四足机械狗或轮式机器人，实际上只是不同的载体（本体）。它们共同的底层任务都是实现视觉感知、空间推理和行为决策。

如果非要说本质区别，我认为有三点：

▪ 反馈频率与场景结构：智驾导航要求极高频的实时反馈，场景相对固定且结构化（如车道线、交通标志），其核心是在地图元素约束下选择最优安全路径。

▪ 场景复杂性：具身导航面临的是非结构化环境，如会议室里的桌椅电脑、茶水间的咖啡机等，这对视觉感知和空间推理的要求更高。

▪ 任务链条与主动探索：具身导航往往涉及长时理解。比如用户说“我渴了”，机器人需要推理出“渴了”意味着“找水”，进而定位到“茶水间”。如果在茶水间没发现饮水机，机器人还需要具备主动行为探索的能力。虽然本体不同，但两者都涉及视觉输入、空间推理到行为决策的高效闭环。

马晓宁：既然本质相似，那么具身导航研究的技术核心问题在哪里？请两位老师分别谈谈。

彭思达：最大的技术挑战在于“缺乏先验地图”。在自动驾驶中，长程规划可以依靠已知的地图解算。但在具身语境下，前提消失了：机器人不知道目的地在哪。

这引入了三个核心挑战：

▪ 环境构建：如何在移动过程中构建对环境的理解？

▪ 记忆存储：在环境转悠一圈后，能否完整记住这些空间信息？

▪ 信息索引：当接收到指令时，能否准确地从记忆中索引出相关内容。

至于局部规划（Local Planning），由于机器人不像汽车那样对高速安全性有极端要求，必要时可以停下来，因此我认为这虽然是小问题，但相对容易解决。

郝孝帅：我补充一个角度。我认为核心问题是“高层语义指令与物理空间的映射”。

当用户下达模棱两可的指令，如“找个空会议室”时，机器人需要强大的空间推理能力和通用常识。

这种常识能告诉机器人：矿泉水大概率出现在桌子上或厨房，而不是卧室。我们需要构建推理模型，将存储的记忆转化为通用知识，使机器人能推理出目标物体可能存在的区域。

02
范式革命：高保真模拟、端到端与具身“去地图化”之路

马晓宁：传统 SLAM 导航本质是坐标系对齐，而彭老师现在做的是实时高保真场景渲染。这种“高保真”带来的感知提升，是否从根本上改变了导航的输入逻辑？

彭思达：我做高保真渲染的初衷是构建“高保真仿真器”。无论是导航还是操作，具身智能在真实环境中测试和采集专家数据的成本极高。

高保真仿真器的意义在于：

▪ 场景复刻与训练：利用三维高斯（3DGS）等技术，我们可以快速从视频观测中构建目标场景的仿真环境，通过大规模强化学习让模型在该场景中实现极致性能，从而直接落地。

▪ 高质量数据合成：目前主流研究使用的是比较“假”的基于 Mesh 的资产，泛化能力有限。如果我们把仿真资产换成高保真三维高斯，生成的专家数据将显著提升模型的实战能力。

马晓宁：未来导航是基于点云坐标，还是空间语义常识？

彭思达：从目前趋势看，输入端依然会以 RGB 或 RGBD（彩色+深度）为主。但我认为 RGB 视频输入更为通用。虽然深度信息（Depth）有助于理解几何结构，但不同厂家的深度传感器差异巨大，直接输入模型反而容易干扰性能。

我不倾向于在模型内部构建复杂的点云或 Spatial Box。因为从原始视频信号转为 3D 信号的过程中必然存在信息损耗，且计算量巨大。更关键的是，3D 数据的规模远不及视频数据。对于目前的具身模型来说，利用视频进行可扩展的训练是更有效的路径。

马晓宁：刚才彭老师提到高保真渲染主要用于训练。那么我想进一步探讨：如果一个模糊的世界模型配合强大的大语言模型进行推理，是否就已经足够完成导航任务了？我们是否真的需要高精度的 3D 重建或高保真的场景渲染作为实时输入？

彭思达：我完全同意这个观点。高保真渲染并非一定要嵌入到导航模型中，它的核心价值是为模型提供高质量的训练数据或仿真环境。

从模型架构的角度看，我认为最理想的状态是“RGB 视频输入，动作指令输出”。这种端到端的模式非常简洁，且具备极强的可扩展性。如果在模型中强行嵌入显示的 3D 结构，一方面从视频转 3D 会产生信号损耗，另一方面也会破坏模型的扩展性。

但我认为世界模型不能“太模糊”。目前大模型在处理超长上下文时，能力会显著下降。虽然文本 Token 比较紧凑，但如果一个机器人在大型别墅中长期运行，积累的视觉数据量是惊人的，很容易超出内存或上下文限制。

因此，一个比较理想的状态是构建“心灵地图（Mental Map）”。当机器人在房子里走过一遍后，它在大脑中形成了一个虽然模糊但关键的“指挥棒”。在实际执行任务时，它主要依赖眼前的实时视觉信号，而心灵地图则提供全局性的引导。如何科学地构造这种既能压缩信息又不失关键特征的“心灵地图”，是目前的一个重要挑战。

马晓宁：自动驾驶已经经历了从高精地图到依赖实时感知决策的“无图方案”的过程。郝老师，具身智能导航是否也会经历类似的“去地图化”过程？

郝孝帅：我认为具身导航是否需要地图，必须具体情况具体分析。目前如 Object Nav 或 VLN 任务等许多研究更倾向于短程导航，即目之所及的任务，这可以通过目标检测和安全导航算法较好地解决。

但在真实的具身场景中，长程导航（Long-Horizon Navigation）才是核心难点。比如在一个包含办公区、茶水间、阳台的大型平层或跨楼层环境中，任务并非“目之所及”。我们去年提出了“A3 导航”概念：理解任何指令、导航到任何位置、找到任何物体。这需要分三步走：首先通过大模型解析模棱两可的指令；其次让机器人导航到目标可能存在的区域；最后在该区域进行主动感知与搜索以精确定位目标。

在第二步中，语义地图（Semantic Map）是不可或缺的。如果完全没有地图，只靠机器人盲目地主动探索，很容易陷入死循环，或者在寻找物体的过程中耗费极长时间。而如果我们事先构建好语义地图，告诉机器人办公室、茶水间的布局，它就能先快速定位到目标区域。

因此，我的观点是：“有图”与“无图”相结合才是具身导航的未来。在开放或复杂的真实场景下，单纯的自主探索算法效率极低。借助于语义地图提供的先验知识，能够显著缩小搜索空间。这种地图不需要高精度，只要能区分功能区域即可。这就像一个人来到陌生的城市，如果知道“购物去三里屯”这样的先验知识，寻找目标的效率会大大提升。

马晓宁：在自动驾驶中，视觉幻觉或博弈失效是常见痛点。在室内具身场景下，这些现象会造成什么后果？

郝孝帅：视觉幻觉在智驾中可能导致“误报”或“漏报”，引发幽灵刹车或危险闯行。在具身导航中，视觉幻觉主要表现为对透明物体（如玻璃、镜子）或高光物体的识别失败。这会造成两种后果：一是在探索过程中与物体发生碰撞；二是因为误判环境（如将地毯阴影视为深坑）而产生过度规避，导致机器人无法到达目标点。

关于“博弈失效”，在具身导航中并不像智驾那样频繁，因为室内环境的人机交互相对简单。除非有人故意站在机器人面前测试其动态避障能力。虽然碰撞的后果通常不严重，但它是验证算法动态避障有效性的重要指标。

对于没有预先建图的陌生家庭环境，机器人需要具备空间推理能力。即便没有地图，常识会告诉机器人：沙发通常在客厅，冰箱通常在厨房。同时，随着机器人在家中的漫游，它可以逐步构建并存储空间布局和物体关系。虽然小件物体会更新，但大件物体的布局是相对固定的，这构成了机器人的先验记忆。

马晓宁：最近阿德莱德大学吴琦教授在AI科技评论向他约稿的一篇文章中提出了一个具有挑战性的论断：导航的本质是“重感知与推理，轻执行”。郝老师，作为实战派，您的第一反应是什么？

郝孝帅：我认为这个观点从学术角度看是有道理的，但需要全面理解。

吴老师的逻辑是：如果你能通过感知准确识别环境，通过推理确定最优路径，并具备像“导航大脑”一样的思考能力，那么执行就类似于“跑腿”，技术实现上相对成熟。

但我认为，感知推理与执行是相辅相成的，类似于人的“大脑”与“小脑”，或者快慢系统。决策做得再好，最终必须落实到执行这一环。执行不仅要保证“走过去”，还要保证过程的稳定性与安全性。这二者没有谁更重要，而是一个闭环系统中不可分割的部分。

彭思达：我理解吴老师的论断。他可能认为在目前的机器人本体技术下，轮式或足式机器人的移动已经做得不错了，不像“灵巧手”操作那样复杂。因此，在导航这个命题下，研究重心应当更专注在大脑如何进行感知推理。如果从技术攻坚的优先级来看，这个观点是没有问题的。

马晓宁：刚才两位老师谈到了感知的逻辑。接下来我想请教一个近期非常热门的话题：具身智能的数据路线之争。我们到底应该走真机实测的数据收集路线，还是走大规模的模拟仿真数据路线？

彭思达：在导航领域，数据的争议可能没有机器人操作（Manipulation）领域那么大。操作数据的质量争议在于，仿真环境与真实物理世界的鸿沟（Gap）实在太大了，它涉及精细的触觉、复杂的物理反馈等。但导航数据相对简单，其核心逻辑是“第一视角观测+行动轨迹”。只要能保证观测信号的真实性以及轨迹的合理性，让机器人走起来是比较容易实现的。

从这个角度看，真实数据并不难收集，无论是人还是机器人，记录一段漫游视频及其对应的轨迹，就是一份专家数据。同时，模拟数据也不是问题。例如利用三维高斯（3DGS）重建环境，渲染出的视频极其真实，产生的轨迹也非常合理。因此，在导航层面，我认为真机数据与仿真数据的差异是可以被抹平的。

马晓宁：既然导航强调空间感知，那是不是意味着只要让机器人看上几百万小时的视频，导航问题就能迎刃而解？

彭思达：我不这么认为。这可以用开车来做比喻：有些人看了几万小时的驾驶视频，但到了实际操作时依然不会开。单纯的视频流无法直接驱动复杂的行为逻辑，我们仍然需要一定比例的专家数据（行为克隆）来训练模型。

郝孝帅：我补充一下。目前行业内普遍采用“视频预训练+真机微调”的策略。第一阶段，利用海量视频进行预训练，主要目的是学习通用常识。比如通过视频，模型可以理解抓取动作的大致逻辑，或者开车遇到红绿灯需要停下。这些是跨场景的通用知识。

但视频数据存在两个核心问题：一是它大多记录的是“成功案例”，缺乏异常或失败情况的覆盖；二是它无法提供真实的物理规律反馈。例如，视频里看到一块地毯，视觉上能走过去，但在具身导航中，你必须通过真实世界的“碰撞”和体验，才能判断它到底是一块平整的地毯，还是一个伪装成地毯的深坑。

这种物理常识和规律必须通过真机在物理世界中“撞”出来。所以，第一阶段用视频提供通用常识，第二阶段必须用真实数据进行后训练，让模型学习真实世界的物理法则，这样才能完成高质量的导航任务。

马晓宁：接下来我们进入“感知与理解”的主题。具身智能常被比作 AI 的“眼睛”。彭老师，您在三维视觉领域深耕多年，如何让智能体不仅“看到”几何结构，还能“理解”细微的语义？神经渲染或 3D 高斯建模在其中扮演什么角色？

彭思达：直白地讲，我认为传统的、高度依赖模块化感知的做法正在遇到瓶颈。以前的模块化导航流程通常是：输入图片、进行三维检测、构建场景图（Scene Graph）或地图，然后由模型判断是否找到目标并进行路径搜索。这种方法的上限很低，且存在严重的误差累积。比如我跑过一些算法，我想找桌上的杯子，杯子就在机器人眼前，但它死活找不到。这是因为在“图像转三维框”的检测环节，杯子被漏掉了。感知层的缺失直接导致了决策层的瘫痪。

相比之下，这两年端到端的方法表现越来越强。它将视频流直接输入大的 Transformer 架构，通过 Attention 机制让模型自动 Focus 在指令相关的画面区域。

这种范式有两个优势：第一，它是可优化的，避免了模块化方法中梯度消失的问题；第二，它实现了指令语义与画面特征的直接关联。过去，我们需要人为定义成千上万个物体的语义接口，极其繁琐。

我认为，感知的形式正在发生变化。它不再是独立存在的检测模块，而是会被统一在“感知推理一体化”的大模型中。未来，显式的三维感知会弱化，取而代之的是我前面提到的“心灵地图”。它可能只保留房间格局等不变的特征，而具体的感知任务则交由端到端模型直接处理。

马晓宁：在构建这种世界模型时，如何处理动态风险或不确定的危机？

彭思达：在具身导航的室内场景中，动态环境比自动驾驶简单得多，毕竟没有高速行驶带来的极端风险。我们可以参考智驾的经验，利用海量的专家数据覆盖各种长尾场景。只要训练数据足够丰富，解决动态避障等问题并非难事。

马晓宁：郝老师，自动驾驶中多传感器融合已非常成熟。在未来具身导航中，视觉之外的毫米波雷达、超声波、激光雷达等异构感知模态融合，会面临什么挑战？

郝孝帅：多传感器融合的核心目的在于提供冗余和互补。在恶劣天气（如下雪、大雨）导致视觉传感器失效时，毫米波雷达或超声波能提供关键的补充信息。RGB 负责语义信息，激光雷达提供精确的几何结构。

我认为未来的挑战主要集中在三个方面：

1. 对齐与融合：如何高效地将不同维度的异构数据在空间和时间尺度上精确对齐。

2. 算法效率：在多传感器数据爆发式增长的情况下，如何设计更融合、更轻量的模型。

3. 传感器失效的稳健性：这是我做过的一项关键测试。很多融合模型在某个传感器（如 RGB）完全失效时，整体性能会直接归零。这意味着模型过于依赖某个模态。我们接下来的课题是：如何设计一种模型，即便在部分传感器损毁或失效的情况下，依然能保持高性能和高鲁棒性的运行。

马晓宁：智驾已经覆盖了城市、乡村等场景。如果具身导航要实现真正的“跨场景”泛化，需要克服哪些障碍？

郝孝帅：具身导航要实现通用化，至少要克服三个维度的障碍：

1. 语义理解的歧义性：同样的指令在不同场景下含义完全不同。用户在家里说“我想休息了”，机器人应该带他去卧室；如果在办公室说这句话，机器人应该导向休息室。

2. 通用物理常识的迁移：模型需要具备跨场景的推理能力。无论在公司还是家里，“渴了”都要去找饮水机。模型需要将这些通用常识存储（无论是通过 Memory 系统还是大模型权重）并实现场景间的平滑迁移。

3. 本体执行的异构性：具身导航涉及轮式、足式等多种本体。虽然视觉感知和推理模型可以通用，但最终执行环节需要针对不同本体的动力学特性进行精细适配。只有打通了“通用大脑”与“差异化小脑”的连接，才能真正跑通跨场景导航。

03
认知推理与深度交互：意图理解及其局限

马晓宁：接下来是一个比较发散性的问题。在与研发陪伴机器人的朋友交流时，他们提到未来的机器人应当能理解人类的情绪、意图以及各种非语言指令。我想请问两位，具身智能如何更好地理解这些非语言信号，并将其融入导航策略中？

郝孝帅：这个话题非常有意思。我们目前更多是在讨论如何让机器人理解模棱两可的语言指令，但理解人类真实的非语言意图同样关键。

举个例子，在居家场景中，如果我向机器人招手，即使不说话，它也应该意识到我是在召唤它过来；或者当机器人在走廊挡住去路时，我摆一摆手，它应当能主动避让。将人类的姿态、手势与文本指令进行融合，会显著提升居家机器人的交互体验。

进一步说，如果机器人能理解人类的心理意图，比如在狭窄通道相遇时，它能通过观察判断出你是想先行还是想礼让，从而避免“抢路”，这种进化到情感层面的感知，会让机器人真正融入人类生活，而不只是一个生硬的工具。

彭思达：我认为情感理解是陪伴机器人的核心差异化竞争力，但这极具挑战。

目前的现状是，即使是最成熟的大语言模型，对人类语气的识别依然不够理想。例如，你用悲伤或开心的语气与模型对话，它往往感知不到差异。既然纯音频的情感识别尚且如此，那么要求陪伴机器人通过神态、动作来实时感知人类的情绪状态并做出导航反馈，比如看到主人垂头丧气回家，主动过来安慰，技术难度极大。这是一个长期且非常有价值的研究方向，只有做到这一点，机器人才能实现真正的“拟人智能”。

马晓宁：接下来我们讨论“决策与行动”。郝老师，在具身规划控制中，从单纯的“避障”到“意图规划”，这种技术演进是如何实现的？

郝孝帅：简单来说，这本质上是从“空间几何判断”向“物理功能升维”的跨越。

在自动驾驶中，意图规划是根据视觉观察和其他车辆的行为，在严格的交通规则下判断是停是行。而在具身操纵领域，情况更为复杂，通常涉及“导航+操纵”的组合任务。

具身智能的一大核心是与物理世界的主动交互。比如指令是“拿一瓶矿泉水”，机器人首先需要规划出路径，如穿过客厅、打开茶水间的门，同时要理解物体的“可利用性”。

意图规划在这里体现为：机器人不仅要走到水瓶前，还要识别出哪一部分是该抓取的区域，哪一部分是该拧开的瓶盖。这种对物体交互区域的理解，取决于对用户指令的深度拆解。只有从理解意图到精准执行形成闭环，才能完成精细的具身任务。

马晓宁：刚才我们也谈到了记忆。具身导航如何构建常识记忆能力？在这个过程中有哪些技术挑战？

郝孝帅：借鉴自动驾驶的经验，所谓的“长时记忆”或“常识”，其实来自于对海量真实场景数据的积累。通过收集无数正常和异常的 Case，系统见识过的场景越多，在遇到突发状况时的处理能力就越强。

目前的挑战在于两点：

1. 高效检索：我们拥有海量的数据库，但当机器人当前处于某个场景时，如何快速、精准地检索出最相似、最有效的记忆片段？这种实时检索效率是目前的一个技术瓶颈。

2. 动态更新：这是具身导航与智驾记忆最大的区别。室内环境是高度动态的，你昨天扫描的会议室有十把椅子，今天可能被搬走了。如果记忆是静态的，它很快就会失效。因此，具身记忆必须是实时、动态更新的。这也是为什么我主张采用“分层导航”：先利用记忆导航到大概区域，再配合实时感知的“自主探索”来定位物体。

彭思达：关于记忆，我可以补充一下目前学术界主流的三种路径及其局限：

1. 传统的场景图：这种层级化的结构（房子-楼层-房间-物体）非常直观，符合人类逻辑。但在检索时，如果仅用传统匹配方法，上限较低。

2. 大模型+文本化：有些研究尝试将场景图转成巨长的文本喂给大模型。但即便经过压缩，文本依然会超出大模型的上下文窗口，导致模型难以从中抽取出关键信息。

3. 基于 RAG（检索增强生成）的方案：例如 Nvidia 之前的研究，通过 RAG 索引关键信息再给 LLM。但问题在于，这种索引经常会发生遗漏，导致决策失败。

目前最新的尝试包括：用大模型先精简长文本，或者将场景图转为 Token 喂给图神经网络。但实话说，这些方法的效果都还不理想。

马晓宁：彭老师，既然场景图听起来这么直观，为什么在实际落地中效果不佳呢？是构建范式的问题吗？

彭思达：我个人认为场景图本身存在局限。首先是处理能力问题，即便假设大模型有无限的上下文，如何让它准确理解复杂的空间拓扑关系依然很难。其次，正如你提到的，场景图往往是静态的，如何将其演进为“4D 场景图”以应对动态变化，目前还缺乏非常有效的手段。即使是处理静态环境，目前的模型在检索精度上也远未达到理想水平。

马晓宁：有一种观点认为，这种分层级的结构化描述方式可能是一个错误的路线，两位怎么看？

郝孝帅：我倒不认为这是一个错误的路线。相反，场景图是非常符合人类直观感受的——先确定楼层，再确定房间，最后定位到房间内的物体。这种分级思维在逻辑上是非常顺畅的。

彭思达：我也认同这不是路线错误，目前的短板主要在于大语言模型处理此类结构化数据的方式不够高效。我们需要探索的是如何让 LLM 与场景图进行更深度的交互。

郝孝帅：彭老师，我想请教一下，您认为大模型目前处理场景图效果不佳，是因为模型本身的能力瓶颈，还是数据格式转换带来的问题？

彭思达：我认为并非大模型本身不行，而是交互方式存在“信息损耗”。我非常推崇 DeepSeek 关于 OCR 的那篇论文提出的核心观点：“一图胜千言”。

直接将原始图像喂给视觉语言模型（VLM），模型能够获取极佳的感性理解。但如果先用极其详细的文字去描述这张图片的所有细节，然后再把这段冗长的文字喂给模型，模型理解的效果反而会变差。这是因为文字在转译过程中会丢失大量空间上下文信息，且过长的文本序列会分散模型的注意力。

具身导航也是同理。如果我们非要把庞大的三维空间压缩成一个超级长的场景图，再转换成文本喂给 VLM，信息在经过多次转手和描述后会发生疯狂的变形和缺失。这种“转译损失”才是导致效果不佳的根本原因。

04
Sim2Real 迁移 & 未来展望

马晓宁：感谢彭老师的深入剖析。顺着这个话题，您提到高保真三维重建的模拟环境可以帮助后续的强化学习。这种高保真环境具体如何赋能导航策略的迭代？在从虚拟环境迁移到真实环境（Sim2Real）时，会面临哪些挑战？

彭思达：首先谈谈虚实迁移的问题。在过去，这确实是一个巨大的门槛。如果你用过传统的 Habitat 模拟器，就会发现它的渲染质量非常简陋，由于视觉信号太“假”，在模拟器里训练出的模型直接部署到真实环境几乎跑不起来。研究者被迫加入大量的专家数据进行开环训练来弥补这一差距。

但现在的技术范式发生了改变。三维高斯（3DGS）等技术的出现，让三维扫描生成的模拟场景在视觉质量上几乎等同于真实环境的视频漫游。在这种高保真的环境下训练模型，从视觉信号层面看，模拟与真实的鸿沟（Gap）已经非常微小，几乎到了肉眼难辨的程度。

至于模拟器对迭代的帮助，其意义在于效率的指数级提升。在真实环境中部署测试是串行过程，你一次只能用一个机器人跑一个场景，且需要漫长的等待。而在仿真环境下，我们可以同时开启 1000 个不同的环境进行并行训练和测试。这种大规模并行的能力，是具身智能走向通用化的必然路径。

马晓宁：具身智能对计算资源的实时性和延时性要求极高。在三维感知和构建模型时，我们如何平衡模型的复杂度与边缘侧计算资源的限制？

彭思达：这里需要声明一个概念：高保真的仿真环境主要是在“训练阶段”使用的，它是事先在高性能服务器上建好的。当导航智能体真正部署到机器人端进行实时工作时，它并不需要在线去构建这些复杂模型，而更多是利用训练好的策略进行推理。因此，高精度渲染并不会直接拖慢实机运行的延迟。

马晓宁：明白。训练在云端或服务器进行，执行在边缘端，这解耦了计算压力。

马晓宁：关于决策与行动，最后一个绕不开的话题是安全性。在面临未知、异常且多变的环境时，我们如何确保具身导航的安全性？

彭思达：在安全性上，我认为具身导航可以完全参考自动驾驶的经验，通过大规模数据覆盖和闭环测试来解决。客观来讲，具身导航的安全性挑战比自动驾驶要简单得多。自动驾驶是在高速运动中博弈，对实时性和容错率要求极高。而机器人导航是在相对慢速的环境下运行，不撞到人是底线。只要避障策略足够鲁棒，安全性是不成问题的，甚至不需要像汽车那样过度考虑乘坐的舒适性。

郝孝帅：我非常赞同。在恶劣天气或极端异常环境下，自动驾驶系统的安全性面临巨大考验。但目前的具身导航在动态避障方面已经做得非常出色了。无论是轮式还是足式机器人，只要设定好 A 点到 B 点，即便路径上突然出现行人，机器人也能迅速做出反应并绕行。更重要的是，机器人的移动速度很慢，每一步大约只有 10 到 15 厘米，这种低速运行状态本身就为系统响应留下了充足的时间缓冲，安全性非常有保障。

马晓宁：今天的讨论非常精彩，两位老师分享了许多硬核且具前瞻性的见解。最后，请两位对未来 5 到 10 年具身智能导航的发展做一个简单展望。

郝孝帅：我认为落地效果最好的首先会是工业机器人，其次是办公场景下的服务机器人。从长远来看，我非常期待具备情感理解和非语言意图识别能力的居家机器人。当我们的机器人能理解主人的手势、情绪和真实想法，并能无缝融入各种生活场景进行服务，那将是具身智能真正造福人类的时刻。

彭思达：我看好两个方向。首先是导航技术将迅速增强现有的机器人品类。比如酒店服务机器人、园区清洁机器人、家用的扫地机器人，以前它们更多是按固定路线“死板”地运行，效率较低。具备空间智能后的导航技术能让这些机器人实现阶段性的智力跃迁。

其次是陪伴型机器人。这类产品不需要追求 100% 的完美智能就能产生商业价值。比如一款能跟着小孩跑、能进行简单互动的机器人小狗，其对导航和感知的要求适中，但能带来很好的用户体验。随着技术演进，最终会向高阶的养老陪伴、全能家政机器人进化。

马晓宁：感谢彭思达老师和郝孝帅老师。从高保真环境的强化学习，到场景图与大模型的纠葛，再到对未来社会场景的描绘，今天的直播让我们对具身导航有了全方位的认识。感谢两位嘉宾，也感谢各位观众的参与，我们下次再见！

彭思达、郝孝帅：谢谢大家，再见。

完整视频观看地址：https://youtu.be/vQxfw3ghuPo

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.