具身导航从模仿到超越！CompassNav：从路径模仿到决策理解的导航|轨迹|序列|智能体

具身导航从模仿到超越！CompassNav：从路径模仿到决策理解的导航

分享至

文章来源：视觉语言导航。

作者：LinFeng Li , Jian Zhao , Yuan Xie , Xin Tan , Xuelong Li
单位：华东师范大学，中国电信人工智能研究所
论文标题：CompassNav: Steering From Path Imitation To Decision Understanding In Navigation
论文链接：https://arxiv.org/pdf/2510.10154
项目主页：https://linengcs.github.io/CompassNav/
代码链接：https://github.com/linengcs/CompassNav

主要贡献

提出新的导航范式 ：从传统的路径模仿转变为决策理解，旨在培养能够真正理解导航决策的智能体，而不仅仅是模仿专家路径。
构建Compass-Data-22k数据集 ：包含22k轨迹，其中的RFT子集通过为每一步的所有可行动作标注A*测地线距离，为决策空间提供了全景视图。
设计差距感知混合奖励函数 ：根据决策确定性动态调整反馈，既能为最优动作提供明确信号，又能鼓励探索，与RFT子集的密集标注紧密结合，培养智能体的决策能力。
实现CompassNav框架 ：采用SFT-then-RFT的训练方案，使7B参数的智能体在目标导航基准测试中达到新的最高水平，超越了更大的专有模型，并在真实物理环境中实现了稳健的目标导航。

研究背景

目标导航的重要性 ：目标导航是智能体在复杂、未见过的环境中自主操作的关键能力之一，要求智能体能够自由探索并进行空间推理以实现目标，而无需明确的、逐步的指导。
现有方法的局限性 ：目前主流的训练视觉语言大模型（LVLM）进行导航的方法依赖于模仿专家轨迹，这种方法将复杂的导航任务简化为单一正确路径的序列复制，限制了智能体的探索能力和泛化能力。

Compass-Data数据集构建

Compass-Data-RFT

创建一个能够提供密集、细粒度监督信号的数据集，以支持智能体学习决策理解，而不仅仅是模仿单一专家路径。

使用 Action Proposer Module（APM） ，在每个时间步生成可行的候选动作，这些动作以极坐标元组（r,θ）表示，并在智能体的视野中以箭头形式渲染。
利用 Oracle A* Planner ，为每个候选动作计算到目标的测地线距离。智能体主要沿着最优路径前进，但在存在多个几乎最优的动作（决策点模糊）时，会探索并记录这些替代路径。
记录每一步中所有候选动作的测地线距离，生成多样化的目标中心轨迹，每一步都标注了全景式的监督信号，捕捉了到达目标的多条有效路径。
数据结构 ：将生成的密集标注数据结构化为RFT（Reinforcement Fine-Tuning）数据。每个RFT数据样本包含标准输入（指令提示和智能体当前视觉观察）以及用于奖励建模的专门目标对象。目标对象包含最优动作的ID以及该步骤所有候选动作的完整A*距离向量，为差距感知混合奖励函数和GRPO（Group-wise Reward Policy Optimization）框架提供了必要的细粒度、分级偏好信号。

Compass-Data-SFT

解决从基础LVLM（Large Vision-Language Model）直接开始RFT（Reinforcement Fine-Tuning）时面临的“冷启动”问题，通过知识蒸馏策略为智能体提供一个基础的“推理-行动”能力。

采用强大的教师模型Qwen-QvQ，在habitat-sim中执行ObjectNav任务，记录其成功剧集中的完整推理过程和动作选择。
仅从教师模型的成功剧集中提取数据，形成SFT（Supervised Fine-Tuning）数据集，以反映有效的探索策略。
数据结构 ：每个SFT训练实例与RFT数据具有相同的输入结构，但目标输出是一个包含教师完整推理过程和决策的单个字符串，格式为 ...reasoning... k ，明确训练模型在采取行动之前外化其推理过程，建立基础的“推理-行动”行为。

CompassNav框架

监督式微调策略初始化

通过模仿学习培养智能体的基础“推理-行动”能力，为后续的RFT阶段提供一个良好的初始策略。

使用Compass-Data-SFT-11k数据集，训练模型在每个时间步生成两部分响应：推理过程和最终动作选择，格式为 ... k 。
采用 掩码多选解码技术 ，通过在解码器的输出logits上应用掩码softmax，限制词汇表仅包含有效候选动作的索引，确保生成的所有输出都是可执行的，这对于后续RFT阶段的稳定性至关重要。
使用标准的交叉熵损失函数对整个教师生成的序列（包括推理标记和最终动作标记）进行训练，以学习模仿教师模型的推理和决策过程。

差距感知混合奖励调整策略对齐

在SFT初始化的策略基础上，利用环境目标对齐策略，通过差距感知混合奖励函数实现真正的决策理解。

使用GRPO（Group-wise Reward Policy Optimization）框架，对给定的输入提示，使用策略πθ生成一组G个不同的输出序列，并为每个生成的序列根据选择的动作质量分配奖励，奖励由差距感知混合奖励函数计算。
差距感知混合奖励函数 ：
- 基础分数 ：通过softmax函数根据到目标的距离对所有可用选项进行连续评估，距离越短的动作得分越高，反映其相对质量。
- 动态奖金 ：通过测量最佳和次佳选项之间的归一化差距来评估当前情况的确定性，差距越大，确定性越高，奖金也越高，但仅对最优行动触发。
- 最终奖励将基础分数与动态奖金相结合，通过调整奖励信号的强度，既能在高确定性情况下提供明确的信号，又能在低确定性情况下鼓励探索。

目标函数 ：GRPO目标函数最大化生成组的预期奖励，在计算优势后，通过最小化损失函数来优化策略，同时使用KL散度项对策略更新进行正则化，以保持策略与SFT阶段的参考策略之间的相似性，从而鼓励策略生成导致高奖励动作的序列。

实验实验设置

数据集和任务 ：
- 在habitat-sim中使用HM3Dv2训练集生成训练数据。
- 在HM3Dv1-val、HM3Dv2-val和MP3D-val三个未见验证集上评估智能体的泛化能力，这些验证集包含完全未见过的场景和目标实例，确保对智能体在新环境中的导航能力进行严格评估。
- 主要任务是Object-Goal（Chaplot et al., 2020）和Instance-Image-Goal Navigation（Krantz et al., 2022）。
评估指标 ：
- 成功率（SR）：衡量成功剧集的比例。
- 路径长度加权成功率（SPL）：根据实际路径与最优路径长度的比值对每次成功进行加权。
实现细节 ：
- CompassNav基于开源的Qwen2.5-VL-7B模型构建。
- 使用两阶段SFT-then-RFT训练方案。
- 具体训练框架、超参数和硬件配置等详细信息见附录E。

主要结果

与模块化导航方法的比较 ：
- 上表展示了CompassNav与多种先进模块化系统（如Habitat-Web、ESC、L3MVN、InstructNav、PSL、VoroNav、Pixel-Nav、VLFM、GAMap、SG-Nav和UniGoal等）的对比结果。
- CompassNav在HM3D和MP3D验证集上的成功率（SR）和成功率加权路径长度（SPL）指标均优于或接近这些模块化方法，尽管CompassNav采用的是更简单的端到端方法，而模块化方法通常依赖于复杂的多阶段流程和显式记忆（如语义地图、历史图像等）。
- 例如，在HM3Dv2-val验证集上，CompassNav的SR为56.6%，SPL为27.6%，而UniGoal的SR为54.5%，SPL为25.1%。
与端到端LVLM的比较 ：
- 上表展示了CompassNav与各种开源和专有模型的对比结果。
- CompassNav显著优于其他大型LVLM，如Qwen2-VL-7B、Qwen2.5-VL-3B、LLama3.2-11B等，甚至超过了以强大通用推理能力著称的GPT-4o和Gemini-2.5-Flash等模型。
- 例如，在ObjectNav任务上，CompassNav的SR为61.6%，SPL为27.8%，而GPT-4o的SR为52.4%，SPL为23.5%。
- 特别地，CompassNav在HM3D-OVON基准测试中超越了Nav-R1，尽管Nav-R1使用了更多的训练数据，并且从3D专用模型开始训练，而CompassNav仅使用了十分之一的训练数据，并从通用LVLM开始训练，这进一步证明了CompassNav框架的有效性。

消融研究

SFT的有效性：
- 上表展示了从基础模型直接开始RFT只能获得有限的性能提升（SR为23.5%，SPL为6.95%），而经过SFT初始化后再进行RFT可以显著提高性能（SR为35.6%，SPL为14.8%），验证了两阶段方法的协同作用。
- 此外，仅在SFT阶段教授模型输出导航任务的动作空间实际上会降低性能（SR为17.9%，SPL为5.78%），这表明CompassNav框架中完整的SFT过程对于培养智能体的推理能力至关重要。
奖励函数的分析：
上图和上表展示了差距感知混合奖励函数的优越性。
与二进制奖励和线性归一化最小-最大奖励等常见基线相比，差距感知混合奖励函数在不同导航场景下表现出更好的性能，能够为智能体提供更有意义的学习信号，促进其泛化能力。
例如，在高确定性情况下，差距感知混合奖励函数能够为最优动作和次优动作之间创建较大的奖励差距（如1.00与0.12），而在低确定性情况下，它能够为接近的动作分配类似的非极端分数，鼓励探索而不是任意惩罚可行的选择。
此外，训练动态曲线表明，尽管二进制和最小-最大奖励模型在训练过程中能够获得较高的分数，但这仅仅是因为它们在模仿单一最佳动作方面表现出色，而差距感知混合奖励函数虽然在绝对分数上较低，但它教会了模型评估所有选项，从而培养了更通用的推理能力。

结论与未来工作

结论：
- CompassNav框架通过从路径模仿转向决策理解，成功地将一个7B参数的LVLM转变为具有新最高水平导航能力的专家智能体。
- 该框架不仅在模拟环境中超越了更大的专有模型，还在真实世界的部署中表现出了稳健的性能，为未来低成本、智能的具身智能体研究铺平了道路。
未来工作 ：
- 进一步优化数据生成管道以提高效率和数据质量；探索更复杂的奖励函数设计，以更好地捕捉导航任务中的各种因素。
- 研究如何将外部记忆模块与框架更有效地集成，以增强智能体的长期规划和记忆能力等。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.