作者:Honglin He, Yukai Ma, Wayne Wu, Bolei Zhou
单位:加利福尼亚大学洛杉矶分校
论文标题:From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning
论文链接:https://arxiv.org/pdf/2507.22028
项目主页:https://metadriverse.github.io/s2e/
代码链接:https://github.com/metadriverse/S2E
提出 Seeing-to-Experiencing (S2E)学习框架,将离线视频预训练和模拟环境中的强化学习相结合,既保持了模型从大规模真实世界视频中获得的泛化能力,又通过强化学习增强了模型的交互性。
引入 锚点引导分布匹配 (Anchor-Guided Distribution Matching,AGDM)策略用于离线预训练,通过基于锚点的监督稳定学习并建模多样化的运动模式。
提出 残差注意力模块 (Residual-Attention Module,RAM)用于强化学习阶段,在模拟环境中获得反应性行为的同时,保留模型的预训练知识。
建立基于真实世界场景的光栅化三维高斯溅射重建的 NavBench-GS 综合端到端评估基准,能够系统评估导航基础模型的泛化性和安全性。
通过 大量实验 表明,S2E框架能够显著提升模型性能,缓解仅使用离线数据扩展时的收益递减问题,并且在真实世界的不同机器人平台上实现了零样本泛化。
导航基础模型在大规模网络规模数据上进行训练,能够使智能体在多样化环境中泛化,但仅基于离线数据训练的模型在现实世界城市导航中面临局限性,如缺乏对行为后果的推理能力和通过反事实理解进行适应的能力,难以应对动态环境中的障碍物和行人等交互性和安全性要求高的任务。
以往的导航基础模型研究主要依赖大规模网络视频和人类演示进行预训练,但这些方法存在一些问题,如缺乏物理和因果关系的明确信息,导致模型在真实世界中的适应性和反应性有限。
S2E(Seeing-to-Experiencing)学习框架旨在通过结合离线视频预训练和模拟环境中的强化学习,训练出既具有泛化能力又具备交互性的导航基础模型。该框架的核心目标是学习一个视觉导航策略π,使机器人能够从起点ps导航到目标点pd。具体来说,S2E框架包含两个关键部分:
离线预训练 :通过锚点引导分布匹配(Anchor-Guided Distribution Matching,AGDM)策略对真实世界视频数据进行预训练,以学习复杂的多模态分布并稳定学习过程。
强化学习后训练 :通过残差注意力模块(Residual-Attention Module,RAM)在模拟环境中进行强化学习,以增强模型的交互性并保留预训练知识。
机器人导航轨迹具有多模态性,即在相同的观察条件下,可能存在多个有效的动作。有效建模这种多模态性对于泛化策略至关重要。然而,常见的表示方法(如离散动作或单模态高斯分布)缺乏表达能力,而扩散模型虽然表达能力强,但过于灵活,难以控制,可能导致不安全的轨迹。

方法介绍 :
提出了一种锚点引导的高斯混合模型(GMM)来表示机器人动作。具体来说,通过在机器人的前进方向上均匀采样生成多个锚点,每个锚点对应GMM中的一个高斯模式。
这些锚点作为可解释的高级意图,模型通过学习这些锚点的分数来反映每个意图点被选为引导模式的概率。通过这种方式,模型能够在保持结构化的同时,生成多样化且目标一致的行为。
模型架构 :
模型接收连续的RGB帧和目标位置作为上下文信息,并使用预定义的与具体体现无关的锚点作为查询进行预测。首先,通过自注意力模块整合上下文嵌入,生成键(K)和值(V)。同时,锚点特征fP作为查询(Q)。
随后,RAM块根据锚点查询Q计算加权特征,并生成细化的锚点特征。最终,通过分类头和回归头解码锚点特征,预测分数和归一化的轨迹以及速度尺度。
训练过程 :
模型采用端到端的训练方式,使用两种训练损失。第一种是负对数似然(NLL)损失,用于监督分类头和轨迹头。
通过选择与真实轨迹方向最一致的模式进行优化。第二种是L2回归损失,用于优化速度尺度。
如果直接对整个模型参数进行强化学习微调,可能会导致模型对模拟数据过度拟合,从而在真实世界数据上表现不佳。特别是对于视觉编码器等对领域变化敏感的组件,这种分布偏移可能会显著降低性能。
![]()
方法介绍 :
RAM模块通过复制预训练的交叉注意力层,并在复制的层上进行微调,同时保持原始模块冻结。
这种设计通过在复制的模块周围添加两个零初始化的线性层,确保在初始化时,添加的适应分支对原始模型输出没有影响,但在微调过程中可以平滑地进行适应。
训练过程 :
使用PPO算法进行训练,定义了综合的奖励函数,包括速度方向奖励、位移惩罚、到达目标奖励和碰撞惩罚。
通过策略梯度调整RAM模块的参数,使用PPO剪辑目标和熵正则化进行微调。
研究问题 :验证强化学习(RL)是否能在离线预训练的基础上进一步提升导航性能。
模型变体 :
S2E-BC :仅使用离线预训练数据的行为克隆模型。
S2E-PPO :从头开始使用PPO进行强化学习训练的模型。
S2E-SFT :在预训练后使用监督微调(SFT)的模型。
S2E-Full :结合预训练和强化学习微调的完整方法。
数据集 :使用不同规模的离线数据进行训练,评估模型在不同数据规模下的性能。
实验结果 :

数据规模与性能 :S2E-BC在数据规模增加到一定程度后,性能提升有限(从100k样本增加到200k样本,成功率仅提高3%)。而S2E-PPO通过强化学习在模拟环境中学习交互性,成功率比预训练模型提高了21%,且未使用更多离线数据。
SFT与RL对比 :在增加训练成本的情况下,RL保持或提高了成功率,而SFT则出现严重的过拟合问题。这表明RL不仅样本效率更高,而且在增加训练成本时更具鲁棒性。
基准测试设计 :
测试场景 :基于光栅化三维高斯溅射重建的真实世界场景,包含26个场景,每个场景包含4种任务:空环境、有随机静态障碍物的环境、有移动行人的环境、有障碍物和行人的环境。
评估指标 :成功率(SR)、路线完成率(RC)和碰撞次数(CT)。
基线方法 :
图像目标方法 :GNM、ViNT、NoMaD。
点目标方法 :CityWalker、MBRA、ViNT*、NoMaD*(*表示使用点作为目标重新训练的模型)。
实验结果 :

S2E-Full性能 :S2E-Full在所有测试场景中均优于基线方法。与S2E-BC相比,S2E-Full在障碍物场景中的成功率提高了21%,在行人场景中提高了3%,在障碍物-行人场景中提高了17%。这表明强化学习在增强策略的交互能力方面发挥了关键作用。
与其他方法对比 :S2E-Full在成功率和碰撞避免方面均优于其他基线方法,证明了S2E框架在复杂环境中的有效性和鲁棒性。
实验设置 :
环境类型 :空环境和有静态障碍物的环境。
机器人平台 :Unitree GO2四足机器人和COCO轮式机器人。
测试路线 :共8条路线,每条路线重复3次。
实验结果 :


S2E-Full在真实世界中展现了优越的碰撞规避能力。在轮式机器人和四足机器人上,S2E-Full在成功率和碰撞避免指标上均取得了最高性能。
具体来说,轮式机器人上S2E-Full的成功率为0.42,碰撞次数为0.70;四足机器人上S2E-Full的成功率为0.50,碰撞次数为0.75。
这表明通过强化学习在模拟环境中获得的交互能力能够有效地迁移到真实世界中,实现零样本泛化。
消融研究 锚点引导分布匹配的有效性实验设置 :
对比方法 :ViNT*(单模态匹配)和S2E-BC(锚点引导分布匹配)。
测试场景 :包含障碍物和行人的复杂环境。
实验结果 :
性能对比 :S2E-BC在成功率上比ViNT*提高了33%,碰撞率降低。这表明锚点引导分布匹配能够显著提升模型在复杂环境中的性能,有效捕捉多模态分布。
实验设置 :
对比方法 :S2E-SFT(监督微调)、S2E-PPO(从头开始的强化学习)、S2E-FullFT(全参数微调)和S2E-Full(使用RAM的强化学习)。
测试场景 :NavBench-GS中的障碍物环境。
实验结果 :

性能对比 :S2E-Full在成功率和碰撞次数上均优于其他方法。具体来说,S2E-Full的成功率为0.76,碰撞次数为0.56,而S2E-SFT的成功率为0.71,碰撞次数为0.77。这表明RAM在有限模块适应的情况下,能够有效地提升模型的交互能力,同时保持预训练知识。
结论 :
S2E框架通过结合离线预训练和强化学习,有效地提升了导航基础模型在多样化真实世界环境中的泛化能力和交互性,能够在不同的机器人平台上实现零样本泛化,为机器人导航领域提供了一种新的、有效的学习方法。
未来工作 :
当前系统缺乏3D感知能力,导致即使S2E-full模型有时也会出现碰撞失败的情况,未来可以考虑整合深度估计或占用预测任务来推断3D结构线索。
此外,还需要解决由于机器人机械结构导致的问题,如模拟与真实机器人平台之间的差异所引起的sim-to-real差距,以及运动控制不准确导致的性能下降问题,可以通过实施更高保真度的模拟建模并结合广泛的数据增强策略来有效缓解这些问题。
在未来,还计划将该框架扩展到其他机器人应用领域,例如移动操作等。
文章来源:视觉语言导航。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.