文章来源:视觉语言导航。
作者:Tianyu Xu , Jiawei Chen , Jiazhao Zhang , Wenyao Zhang , Zekun Qi , Minghan Li , Zhizheng Zhang , He Wang
单位: 北京大学, Galbot, 上海交通大学, 清华大学, 北京人工智能研究院
论文标题:MM-Nav: Multi-View VLA Model for Robust Visual Navigation via Multi-Expert Learning
论文链接:https://arxiv.org/pdf/2510.03142v1
项目主页:https://pku-epic.github.io/MM-Nav-Web/
提出基于多视图的视觉-语言-动作模型 MM-Nav ,能够从多个强化学习(RL)专家那里学习不同的导航能力,并通过多专家学习实现鲁棒的视觉导航。
设计了 包含两个阶段的训练过程 :首先利用从RL专家那里收集的大规模离线数据集对VLA模型进行初始微调;然后通过在线教师-学生训练迭代,以能力平衡的方式对VLA模型进行进一步的精细化调整,使其能够学习到多种导航能力并实现性能的提升。
在多种 合成环境和真实世界环境 中进行了广泛的实验,结果表明该方法不仅在不同能力的测试场景中表现出色,还能够实现从仿真到现实的有效迁移,并且最终超越了专门训练的RL专家,证明了学习多种能力的协同效应。
视觉导航因其模仿人类使用自身视觉观察进行导航的方式而备受关注,它能够提供详细的环境信息且成本较低。然而,视觉数据的解释和适当导航动作的规划是一个挑战,需要高度智能的模型和大规模的导航数据。
现有的方法主要通过学习策略来隐式解释视觉输入并预测后续动作,但这些方法受限于有限的观察视角和相对宽敞的环境,难以适用于更具挑战性的场景。
真实世界的导航数据主要来自单相机设置,缺乏极具挑战性或危险性的场景;而合成导航数据虽然可以定制相机配置并生成反映不同导航能力的数据,但存在仿真到现实的差距,因为它们通常不是逼真的。
任务定义 :学习一个速度控制策略 π,使全向机器人能够安全地导航到特定的目标点。在每个时间步 t,给定目标点位置 和多视图 RGB 帧 ,策略 π 输出一个动作 ,表示全向速度。目标是确保策略生成的速度无碰撞且能到达指定目标。
方法概述 :方法包括两个主要步骤:
训练多个 RL 专家并进行初始 VLA 微调 :在仿真环境中训练三个具有不同导航能力(到达、挤压、躲避)的 RL 专家,并收集他们的成功轨迹来初始化 VLA 模型。
教师-学生在线训练迭代 :将初步训练的 VLA 模型部署到仿真环境中,通过在线收集 RL 专家的动作数据并进行能力平衡的数据聚合,迭代地微调 VLA 模型,直到性能收敛。
环境构建 :
到达(Reaching) :包含随机静态障碍物的场景,机器人需要接近并到达特定目标点。
挤压(Squeezing) :包含密集排列的柱子和狭窄通道的场景,机器人需要通过视觉反馈安全地通过这些通道。
躲避(Avoiding) :包含动态障碍物的场景,机器人需要主动躲避这些障碍物。
RL 专家架构 :
使用 PPO 算法进行训练,每个时间步的观察包括四个方向的深度图像、上一动作和目标位置。
每个深度图像通过 ResNet-18 编码成特征向量,与上一动作、目标位置和历史标记拼接后输入到 MLP 中,预测速度动作。
奖励函数 :奖励函数鼓励合理、目标导向且无碰撞的行为,不同能力的专家有不同的奖励系数,以指导和专业化他们的行为。
视觉观察编码 :
使用四个相机视图(前、右、后、左)获取 360° 观察。
使用视觉基础模型(SigLIP)和交叉模态投影器将多视图 RGB 图像编码为视觉标记。
使用滑动窗口选择视觉标记,以保持合理的视觉标记序列长度,确保推理速度。
动作预测 :
将目标点格式化为文本提示并编码为语言标记。
将视觉标记和语言标记输入到大型语言模型(Qwen2)中,预测动作标记。
使用动作头(两层 MLP)将动作标记转换为机器人速度。
损失函数 :使用均方误差损失进行动作预测,并保留开放世界问答数据的交叉熵损失,以减轻仿真到现实的差距。
初始专家数据收集与 VLA 微调 :
收集 RL 专家在仿真中生成的成功轨迹,形成包含 500k 步的数据集。
使用这些数据对 VLA 模型进行初始微调,确保模型在不同场景中具有初步的导航能力。
教师-学生在线训练迭代 :
将初步训练的 VLA 模型部署到仿真环境中,收集对应 RL 专家的动作数据。
使用能力平衡的数据聚合方法,根据 VLA 模型与 RL 专家之间的性能差距动态调整数据比例。
使用聚合的数据微调 VLA 模型,重复迭代直到性能不再提升。
RL 训练策略 :
在 IsaacLab 中使用 NVIDIA RTX 4090 GPU 训练 RL 专家,采用历史感知的演员-评论家架构。
深度值被裁剪以过滤噪声,动作分布初始化时加入噪声以鼓励探索。
VLA 训练策略 :
在 8 个 NVIDIA H100 GPU 上对初始 VLA 模型进行微调,使用预训练的视觉编码器和 LLM。
初始训练包含来自三个 RL 专家的 500k 步数据和 100k 视觉问答数据。
每次教师-学生训练迭代包含 200k 步在线收集的专家数据和 40k 视觉问答数据。
部署策略 :
在 Unitree GO2 机器人上部署方法,使用服务器上的 NVIDIA RTX 5090 GPU 运行 VLA 模型。
使用四个鱼眼相机获取四视图实时图像,经过校正后输入到 VLA 模型中。
VLA 模型输出的速度由低级控制器执行,平均响应频率约为 7Hz。
仿真环境设置 :
在 IsaacLab 仿真环境中评估方法,设计了三个特定能力的固定场景(Reaching、Squeezing、Avoiding)以及一个综合测试场景(Mixed),后者包含静态障碍物、动态障碍物和狭窄通道,用于评估模型的泛化能力。
每个仿真场景的终止条件包括:机器人成功到达目标、与障碍物碰撞或超时(Reaching、Squeezing、Avoiding 场景为 90 秒,Mixed 场景为 120 秒)。

真实世界环境设置 :
构建了四个真实世界场景,包括狭窄之字形走廊(Narrow Zigzag Corridor)、薄障碍物躲避(Thin Obstacle Avoidance)、动态环境(Dynamic Environment)和杂乱静态环境(Cluttered Static Environment),用于评估从仿真到现实的迁移能力和泛化能力。
这些场景设计用于测试特定技能,并验证模型对训练数据中不存在的新物体和材料的鲁棒性。
评估指标与基线 :
使用三个指标评估方法:成功率(Success Rate, SR)、碰撞率(Collision Rate, CR)和加权旅行时间(Weighted Travel Time, WTT,即成功场景的平均时间除以成功率)。
每个方法和场景运行 100 个回合以计算这些指标。
仿真基准测试结果 :
上表总结了仿真环境中的定量结果。与现有方法(如 iPlanner、ViPlanner 和 NavDP)相比,MM-Nav 在几乎所有测试场景中都实现了最高的成功率(SR)、最低的碰撞率(CR)和最短的加权旅行时间(WTT)。
例如,在 Reaching 场景中,MM-Nav 的成功率为 80%,碰撞率为 20%,加权旅行时间为 31.0 秒;而在 Squeezing 场景中,成功率为 71%,碰撞率为 19%,加权旅行时间为 42.2 秒。
这些结果表明 MM-Nav 不仅能够确保无碰撞运动,还能规划出更有效的路径。

真实世界场景中的表现 :
在狭窄之字形走廊和杂乱静态环境中,机器人能够精确调整以通过障碍物,展现出出色的敏捷性。
在薄障碍物躲避场景中,机器人成功避开了薄织物条,这些障碍物对于激光雷达传感器来说很难检测(激光雷达传感器的本地避障系统完全失败)。
在办公室走廊泛化场景中,模型能够绕过未见过的物体,如椅子,并处理部分透明的玻璃墙等具有挑战性的材料,确认了其从仿真到现实的泛化能力。
在线训练迭代的性能提升 :
上图展示了初始 VLA 模型及其变体在前四次训练迭代后的性能。初始行为克隆训练后,VLA 模型在所有三种能力中都存在明显的性能差距,特别是在挤压能力方面。
通过几次在线训练迭代,模型的性能逐渐提高。在第一次迭代中,能力平衡的数据聚合方法重点关注挤压能力,导致了显著的改进。经过四次迭代后,三种任务的性能趋于稳定,且 VLA 模型在所有任务中的表现都超过了 RL 专家。
能力平衡数据聚合方法的优势 :
基于相同的初始 VLA 模型,使用能力平衡的数据和不平衡的数据分别进行训练迭代。结果表明,能力平衡的方法能够及时补充缺乏的能力,实现更快更稳定的训练。
尽管不平衡的方法在 Reaching 场景中取得了更好的性能,但在 Squeezing 和 Avoiding 场景中学习效率低下。能力平衡的方法有助于将不同 RL 专家的数据融合在一起,防止 VLA 模型忽视特定能力。
专家组合策略的效果 :
通过训练三个 VLA 模型,每个模型使用来自单一 RL 专家的数据,以及在混合场景中训练的单一 RL 专家,来研究组合不同能力的 RL 专家对 VLA 学生的影响。
上表显示,使用单一数据源训练的模型在对应场景中表现出色,但在需要未见能力的任务中泛化能力差。相比之下,使用混合数据训练的 VLA 模型在跨能力性能上表现出显著的优势,超过了所有单一数据源训练的模型。
这表明不同能力之间的互补性和相互增强性,单一专家训练的模型在特定领域表现出色,但缺乏其他能力提供的更广泛上下文知识。而混合训练使学生接触到多种技能维度,能够构建跨越多个能力的共享表示。
结论 :
MM-Nav通过从多个专门的RL专家那里学习,成功地获得了一种强大的、通用的视觉导航策略,证明了学习多种能力的协同效应,并为训练新一代通用视觉导航智能体提供了一个可扩展且有效的蓝图。
未来工作 :
探索该训练策略的跨实体潜力,并进一步通过VLA和其他方法推进仅视觉导航的发展。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.