网易首页 > 网易号 > 正文 申请入驻

具身导航观行并进!S2E:强化学习助力导航基础模型突破

0
分享至

  • 作者:Honglin He, Yukai Ma, Wayne Wu, Bolei Zhou

  • 单位:加利福尼亚大学洛杉矶分校

  • 论文标题:From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning

  • 论文链接:https://arxiv.org/pdf/2507.22028

  • 项目主页:https://metadriverse.github.io/s2e/

  • 代码链接:https://github.com/metadriverse/S2E

主要贡献
  • 提出 Seeing-to-Experiencing (S2E)学习框架,将离线视频预训练和模拟环境中的强化学习相结合,既保持了模型从大规模真实世界视频中获得的泛化能力,又通过强化学习增强了模型的交互性。

  • 引入 锚点引导分布匹配 (Anchor-Guided Distribution Matching,AGDM)策略用于离线预训练,通过基于锚点的监督稳定学习并建模多样化的运动模式。

  • 提出 残差注意力模块 (Residual-Attention Module,RAM)用于强化学习阶段,在模拟环境中获得反应性行为的同时,保留模型的预训练知识。

  • 建立基于真实世界场景的光栅化三维高斯溅射重建的 NavBench-GS 综合端到端评估基准,能够系统评估导航基础模型的泛化性和安全性。

  • 通过 大量实验 表明,S2E框架能够显著提升模型性能,缓解仅使用离线数据扩展时的收益递减问题,并且在真实世界的不同机器人平台上实现了零样本泛化。

研究背景
  • 导航基础模型在大规模网络规模数据上进行训练,能够使智能体在多样化环境中泛化,但仅基于离线数据训练的模型在现实世界城市导航中面临局限性,如缺乏对行为后果的推理能力和通过反事实理解进行适应的能力,难以应对动态环境中的障碍物和行人等交互性和安全性要求高的任务。

  • 以往的导航基础模型研究主要依赖大规模网络视频和人类演示进行预训练,但这些方法存在一些问题,如缺乏物理和因果关系的明确信息,导致模型在真实世界中的适应性和反应性有限。

S2E 学习框架 框架概述

S2E(Seeing-to-Experiencing)学习框架旨在通过结合离线视频预训练和模拟环境中的强化学习,训练出既具有泛化能力又具备交互性的导航基础模型。该框架的核心目标是学习一个视觉导航策略π,使机器人能够从起点ps导航到目标点pd。具体来说,S2E框架包含两个关键部分:

  • 离线预训练 :通过锚点引导分布匹配(Anchor-Guided Distribution Matching,AGDM)策略对真实世界视频数据进行预训练,以学习复杂的多模态分布并稳定学习过程。

  • 强化学习后训练 :通过残差注意力模块(Residual-Attention Module,RAM)在模拟环境中进行强化学习,以增强模型的交互性并保留预训练知识。

锚点引导分布匹配预训练

机器人导航轨迹具有多模态性,即在相同的观察条件下,可能存在多个有效的动作。有效建模这种多模态性对于泛化策略至关重要。然而,常见的表示方法(如离散动作或单模态高斯分布)缺乏表达能力,而扩散模型虽然表达能力强,但过于灵活,难以控制,可能导致不安全的轨迹。



  • 方法介绍

    • 提出了一种锚点引导的高斯混合模型(GMM)来表示机器人动作。具体来说,通过在机器人的前进方向上均匀采样生成多个锚点,每个锚点对应GMM中的一个高斯模式。

    • 这些锚点作为可解释的高级意图,模型通过学习这些锚点的分数来反映每个意图点被选为引导模式的概率。通过这种方式,模型能够在保持结构化的同时,生成多样化且目标一致的行为。

  • 模型架构

    • 模型接收连续的RGB帧和目标位置作为上下文信息,并使用预定义的与具体体现无关的锚点作为查询进行预测。首先,通过自注意力模块整合上下文嵌入,生成键(K)和值(V)。同时,锚点特征fP作为查询(Q)。

    • 随后,RAM块根据锚点查询Q计算加权特征,并生成细化的锚点特征。最终,通过分类头和回归头解码锚点特征,预测分数和归一化的轨迹以及速度尺度。

  • 训练过程

    • 模型采用端到端的训练方式,使用两种训练损失。第一种是负对数似然(NLL)损失,用于监督分类头和轨迹头。

    • 通过选择与真实轨迹方向最一致的模式进行优化。第二种是L2回归损失,用于优化速度尺度。

残差注意力强化学习

如果直接对整个模型参数进行强化学习微调,可能会导致模型对模拟数据过度拟合,从而在真实世界数据上表现不佳。特别是对于视觉编码器等对领域变化敏感的组件,这种分布偏移可能会显著降低性能。



  • 方法介绍

    • RAM模块通过复制预训练的交叉注意力层,并在复制的层上进行微调,同时保持原始模块冻结。

    • 这种设计通过在复制的模块周围添加两个零初始化的线性层,确保在初始化时,添加的适应分支对原始模型输出没有影响,但在微调过程中可以平滑地进行适应。

  • 训练过程

    • 使用PPO算法进行训练,定义了综合的奖励函数,包括速度方向奖励、位移惩罚、到达目标奖励和碰撞惩罚。

    • 通过策略梯度调整RAM模块的参数,使用PPO剪辑目标和熵正则化进行微调。

实验 通过强化学习提升模型性能
  • 研究问题 :验证强化学习(RL)是否能在离线预训练的基础上进一步提升导航性能。

  • 模型变体

    • S2E-BC :仅使用离线预训练数据的行为克隆模型。

    • S2E-PPO :从头开始使用PPO进行强化学习训练的模型。

    • S2E-SFT :在预训练后使用监督微调(SFT)的模型。

    • S2E-Full :结合预训练和强化学习微调的完整方法。

  • 数据集 :使用不同规模的离线数据进行训练,评估模型在不同数据规模下的性能。

  • 实验结果

    • 数据规模与性能 :S2E-BC在数据规模增加到一定程度后,性能提升有限(从100k样本增加到200k样本,成功率仅提高3%)。而S2E-PPO通过强化学习在模拟环境中学习交互性,成功率比预训练模型提高了21%,且未使用更多离线数据。

    • SFT与RL对比 :在增加训练成本的情况下,RL保持或提高了成功率,而SFT则出现严重的过拟合问题。这表明RL不仅样本效率更高,而且在增加训练成本时更具鲁棒性。

NavBench-GS 基准测试
  • 基准测试设计

    • 测试场景 :基于光栅化三维高斯溅射重建的真实世界场景,包含26个场景,每个场景包含4种任务:空环境、有随机静态障碍物的环境、有移动行人的环境、有障碍物和行人的环境。

    • 评估指标 :成功率(SR)、路线完成率(RC)和碰撞次数(CT)。

  • 基线方法

    • 图像目标方法 :GNM、ViNT、NoMaD。

    • 点目标方法 :CityWalker、MBRA、ViNT*、NoMaD*(*表示使用点作为目标重新训练的模型)。

  • 实验结果

    • S2E-Full性能 :S2E-Full在所有测试场景中均优于基线方法。与S2E-BC相比,S2E-Full在障碍物场景中的成功率提高了21%,在行人场景中提高了3%,在障碍物-行人场景中提高了17%。这表明强化学习在增强策略的交互能力方面发挥了关键作用。

    • 与其他方法对比 :S2E-Full在成功率和碰撞避免方面均优于其他基线方法,证明了S2E框架在复杂环境中的有效性和鲁棒性。

真实世界评估
  • 实验设置

    • 环境类型 :空环境和有静态障碍物的环境。

    • 机器人平台 :Unitree GO2四足机器人和COCO轮式机器人。

    • 测试路线 :共8条路线,每条路线重复3次。

  • 实验结果


    • S2E-Full在真实世界中展现了优越的碰撞规避能力。在轮式机器人和四足机器人上,S2E-Full在成功率和碰撞避免指标上均取得了最高性能。

    • 具体来说,轮式机器人上S2E-Full的成功率为0.42,碰撞次数为0.70;四足机器人上S2E-Full的成功率为0.50,碰撞次数为0.75。

    • 这表明通过强化学习在模拟环境中获得的交互能力能够有效地迁移到真实世界中,实现零样本泛化。

消融研究 锚点引导分布匹配的有效性
  • 实验设置

    • 对比方法 :ViNT*(单模态匹配)和S2E-BC(锚点引导分布匹配)。

    • 测试场景 :包含障碍物和行人的复杂环境。

  • 实验结果

    • 性能对比 :S2E-BC在成功率上比ViNT*提高了33%,碰撞率降低。这表明锚点引导分布匹配能够显著提升模型在复杂环境中的性能,有效捕捉多模态分布。

残差注意力模块的有效性
  • 实验设置

    • 对比方法 :S2E-SFT(监督微调)、S2E-PPO(从头开始的强化学习)、S2E-FullFT(全参数微调)和S2E-Full(使用RAM的强化学习)。

    • 测试场景 :NavBench-GS中的障碍物环境。

  • 实验结果

    • 性能对比 :S2E-Full在成功率和碰撞次数上均优于其他方法。具体来说,S2E-Full的成功率为0.76,碰撞次数为0.56,而S2E-SFT的成功率为0.71,碰撞次数为0.77。这表明RAM在有限模块适应的情况下,能够有效地提升模型的交互能力,同时保持预训练知识。

结论与未来工作
  • 结论

    • S2E框架通过结合离线预训练和强化学习,有效地提升了导航基础模型在多样化真实世界环境中的泛化能力和交互性,能够在不同的机器人平台上实现零样本泛化,为机器人导航领域提供了一种新的、有效的学习方法。

  • 未来工作

    • 当前系统缺乏3D感知能力,导致即使S2E-full模型有时也会出现碰撞失败的情况,未来可以考虑整合深度估计或占用预测任务来推断3D结构线索。

    • 此外,还需要解决由于机器人机械结构导致的问题,如模拟与真实机器人平台之间的差异所引起的sim-to-real差距,以及运动控制不准确导致的性能下降问题,可以通过实施更高保真度的模拟建模并结合广泛的数据增强策略来有效缓解这些问题。

    • 在未来,还计划将该框架扩展到其他机器人应用领域,例如移动操作等。

文章来源:视觉语言导航。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
台独急先锋赖清德突然改口:两岸可以统一,国台办一句话让其哑火

台独急先锋赖清德突然改口:两岸可以统一,国台办一句话让其哑火

放开他让wo来
2025-11-09 16:05:08
让中国光刻机“变成废铁”,日本对华下狠手,外媒:比美国人还绝

让中国光刻机“变成废铁”,日本对华下狠手,外媒:比美国人还绝

博览历史
2025-11-06 20:35:03
潘玮柏老婆参加幼儿园活动,5岁女儿好可爱,宣云穿公主装像姐姐

潘玮柏老婆参加幼儿园活动,5岁女儿好可爱,宣云穿公主装像姐姐

心静物娱
2025-11-09 13:54:43
陈赫前妻穿比基尼再晒美照!住2万8一晚的酒店,39岁不生娃不上班

陈赫前妻穿比基尼再晒美照!住2万8一晚的酒店,39岁不生娃不上班

代军哥哥谈娱乐
2025-11-08 17:14:11
斯诺克决赛赛程:19局10胜,吴宜泽迎来考验,终结2连败夺首冠?

斯诺克决赛赛程:19局10胜,吴宜泽迎来考验,终结2连败夺首冠?

刘姚尧的文字城堡
2025-11-09 07:16:41
中国制裁有没有用?看看今天的洛马就知道了,什么叫“慢性死亡”

中国制裁有没有用?看看今天的洛马就知道了,什么叫“慢性死亡”

百态人间
2025-11-08 05:30:03
“90后”王晨,央视新主播

“90后”王晨,央视新主播

新京报政事儿
2025-11-09 17:14:30
别说模仿了,复制都做不到,可口可乐的配方,为何至今无人破解?

别说模仿了,复制都做不到,可口可乐的配方,为何至今无人破解?

法老不说教
2025-11-05 23:07:28
近两日最牵动人心的是神二十航天员,非因任务未圆满,乃因返程突发状况

近两日最牵动人心的是神二十航天员,非因任务未圆满,乃因返程突发状况

粤语音乐喷泉
2025-11-08 11:34:48
国锦赛决赛最新战报:吴宜泽连丢2局!从5-2到5-4,仍领先希金斯

国锦赛决赛最新战报:吴宜泽连丢2局!从5-2到5-4,仍领先希金斯

球场没跑道
2025-11-09 17:16:34
新帅上任三把火,国足阵容将大洗牌,7位主力恐遭清洗 ,武磊在列

新帅上任三把火,国足阵容将大洗牌,7位主力恐遭清洗 ,武磊在列

球场新视角1号
2025-11-09 15:27:21
苗侨伟、戚美珍闹离婚,在大街上激烈争吵推推搡搡,到底为哪般?

苗侨伟、戚美珍闹离婚,在大街上激烈争吵推推搡搡,到底为哪般?

手工制作阿歼
2025-11-09 09:52:33
2-0!巴萨传奇击败皇马:兔子单刀+双响 67岁老人戏耍佩佩

2-0!巴萨传奇击败皇马:兔子单刀+双响 67岁老人戏耍佩佩

叶青足球世界
2025-11-09 17:25:59
淘宝已被调查

淘宝已被调查

政知新媒体
2025-11-08 20:27:47
繁花剧组严正声明:“古二”为泄私愤抹黑造谣,录音存大量失实

繁花剧组严正声明:“古二”为泄私愤抹黑造谣,录音存大量失实

澎湃新闻
2025-11-08 20:00:04
比变老更可怕的是“中国式大妈发型”,自以为洋气,实际油腻老气

比变老更可怕的是“中国式大妈发型”,自以为洋气,实际油腻老气

冒泡泡的鱼儿
2025-11-09 12:12:32
美女眼科医生和院长视频8月份拍下的,为何如今才曝光

美女眼科医生和院长视频8月份拍下的,为何如今才曝光

诗意世界
2025-11-09 12:44:46
“一看卫生纸,就知道我是穷人家孩子!”女孩发宿舍对比照很现实

“一看卫生纸,就知道我是穷人家孩子!”女孩发宿舍对比照很现实

知晓科普
2025-10-31 16:02:55
太阳主帅:为杰伦-格林受伤感到惋惜,他为复出做了很多努力

太阳主帅:为杰伦-格林受伤感到惋惜,他为复出做了很多努力

懂球帝
2025-11-09 18:30:16
晚年楚青坦言:粟裕大将病重时,透露过自己当年不救山东的苦衷!

晚年楚青坦言:粟裕大将病重时,透露过自己当年不救山东的苦衷!

健康快乐丁
2025-07-15 21:02:26
2025-11-09 19:12:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5221文章数 64595关注度
往期回顾 全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

德国拟重新评估对华贸易政策 默茨对华立场180度转变

头条要闻

德国拟重新评估对华贸易政策 默茨对华立场180度转变

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》事件影响:唐嫣工作被取消

财经要闻

10月CPI同比涨0.2% PPI同比下降2.1%

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

教育
家居
艺术
时尚
亲子

教育要闻

四川志愿填报第七讲,历史组考生,这样选科机会大!

家居要闻

现代自由 功能美学居所

艺术要闻

高234米!南非第一高楼,曾问鼎非洲之巅

伊姐周六热推:电视剧《四喜》;电视剧《唐朝诡事录之长安》......

亲子要闻

多方专家共议儿童呼吸道感染防治:科学识别、合理用药是关键

无障碍浏览 进入关怀版