网易首页 > 网易号 > 正文 申请入驻

中科大自适应推理具身导航框架!AdaNav:基于不确定性驱动自适应推理的视觉语言导航

0
分享至

文章来源:视觉语言导航。

  • 作者: Xin Ding , Jianyu Wei , Yifan Yang , Shiqi Jiang , Qianxi Zhang , Hao Wu , Fucheng Jia , Liang Mi , Yuxuan Yan , Weijun Wang , Yunxin Liu , Zhibo Chen , Ting Cao

  • 单位: 中国科学技术大学, 微软研究院, 南京大学, 中南大学, 浙江大学, 清华大学人工智能产业研究院

  • 论文标题:AdaNav: Adaptive Reasoning with Uncertainty for Vision-Language Navigation

  • 论文链接:https://arxiv.org/pdf/2509.24387v1

  • 代码链接:https://github.com/xinding-sys/AdaNav

主要贡献
  • 提出基于不确定性的自适应推理框架了 AdaNav ,通过引入不确定性自适应推理块(UAR Block)和启发式到强化学习(Heuristic-to-RL)的训练机制,使智能体能够在导航过程中根据需要动态地触发推理,解决了固定步长推理导致的性能次优和计算开销问题。

  • 在仅使用 6K训练样本 的情况下,AdaNav在多个基准测试中取得了显著的性能提升,超过了使用百万级数据训练的闭源模型。例如,在R2R val-unseen上成功率提高了20%,在RxR-CE上提高了11.7%,在真实世界场景中提高了11.4%。

  • 该框架使 推理更加困难感知和模式自适应 ,随着训练的进行,推理步骤更加集中在困难的轨迹上,且推理模式的选择也更加合理,同时减少了平均推理步数,提高了效率。

研究背景
  • 视觉语言导航(VLN)要求智能体能够理解自然语言指令,并将其与连续的视觉观察相结合,以执行长期的导航轨迹。现有的基于视觉语言模型(VLM)的方法存在两个主要挑战:一致的时间对齐和稳健的感知-动作映射。

  • 为了应对这些挑战,以往的研究引入了显式推理,但固定步长的推理不仅计算开销大,还会导致过度思考,降低导航质量。理想的VLN智能体应该能够自适应地推理,即根据需要决定何时以及如何推理,但实现这种自适应性并缓解大语言模型(LLM)的过度自信问题通常需要大量的特定任务数据进行监督微调,而这些数据收集成本高昂。

方法 问题定义 视觉语言导航
  • 环境与动作空间 :考虑一个标准的VLN设置,智能体被放置在一个3D环境 中,具有状态空间 和动作空间 ,其中 和 分别表示角度和距离。

  • 任务目标 :给定自然语言指令 和连续的视觉观察 ,智能体需要执行一个轨迹 ,以达到由指令 隐式指定的目标状态 ,目标是最大化任务成功率:

    其中, 是指示函数,表示最终状态是否为目标状态。

自适应推理导航
  • 推理模式与内容 :为了提高VLN在长期和复杂环境中的性能,允许智能体在每一步 进行显式推理,推理模式变量 ,其中 表示不进行推理, 是预定义的推理模式集合(如描述、总结、错误纠正)。推理内容为 。

  • 联合策略 :智能体的策略由两部分组成:

    1. 导航策略 :根据导航相关的历史信息 、指令 和之前的推理内容 决定动作 。

    2. 推理策略 :决定何时进行推理(通过 或 )以及使用哪种推理模式(通过 )。

  • 整体策略 :联合策略为:

    其中, 表示完整的导航和推理历史信息。

  • 优化目标 :通过联合优化导航和推理策略,目标是最大化任务性能,同时保持计算效率:

    其中, 同时考虑导航成功(如进度或成功指标)和推理调用引起的延迟惩罚。

AdaNav的设计与实现 动机
  • 自适应推理需要智能体能够选择性地决定何时推理有益以及调用哪种模式。然而,现有的大语言模型(LLM)对任务难度不敏感,容易过度自信。

  • 在LLM研究中,通过监督微调引入高质量的推理痕迹可以缓解这一问题。但对于具身智能体,收集这样的高质量交互痕迹成本过高。

  • 因此,AdaNav提出了一种替代方法,利用可解释的不确定性信号动态触发推理,无需依赖大规模推理监督。

不确定性自适应推理块
  • 动作熵作为不确定性度量 :受语言推理中高熵token对单步文本生成影响较大的启发,定义动作熵 作为不确定性度量:

    其中, 是生成的token数量, 是词汇表大小, 是时间步 时词汇表中第 个token的概率。

  • 动作熵的有效性验证 :通过诊断研究发现,失败的轨迹具有高且持续的动作熵,而成功的轨迹保持较低的动作熵。单独的即时动作熵不足以预测失败,但结合历史动作熵趋势和当前动作熵状态可以提供更可靠的信号 。

  • UAR Block设计 :UAR Block结合历史动作熵 和当前观察 ,形成推理相关信息 ,并将其转化为紧凑的控制向量:

    直接参数化推理模式的logits。从这个向量中,模式选择策略为:

启发式到强化学习训练
  • 基于不确定性的先验 :在冷启动阶段,由于RL策略尚未学会有意义的模式选择,因此使用基于不确定性的先验初始化训练。直观上,较高的熵表示较高的不确定性,需要更强的推理。计算标量熵分数为过去熵的均值 ,并将其映射到包含“无推理”选项的推理模式上的软先验分布:

    其中, 是模式特定的熵阈值, 控制先验的平滑度。

  • 启发式到RL的过渡 :为了逐渐从启发式先验转移到学习到的RL策略,将先验分布与模型预测融合为:

    其中, 从1逐渐衰减到0,允许RL策略 逐渐接管启发式先验 。因此,模式选择策略可以表示为:

  • 奖励设计 :首先定义推理成本为基于相对推理长度的归一化惩罚:

    其中, 是当前步的推理长度, 是成功样本组中最短的生成长度, 是一个常数惩罚窗口。

  • 导航目标奖励 :采用基于距离减少的常见外在奖励,即时奖励定义为 ,其中 表示从当前状态 到目标位置 的测地线距离。

  • 整体任务奖励 :将外在奖励和推理成本结合起来,整体任务奖励定义为折扣累积回报:

    其中, 是折扣因子,控制未来奖励的权重。这种奖励设计鼓励智能体高效地向目标导航,同时避免不必要的推理开销。

实验 性能提升 实验设置
  • 基础模型 :选择两个开源的VLN模型NAVID和NAVILA作为基础模型,AdaNav被集成到这些模型中。

  • 训练数据 :从R2R和RxR的训练集中随机采样3000个episode进行训练。

  • 硬件配置 :使用4块NVIDIA RTX A100 GPU进行训练。

  • 基准测试 :在R2R和RxR的val-unseen分割上评估导航性能,并在ScanQA验证集上评估空间场景理解能力。

实验结果
  • VLN-CE基准测试 :与使用百万级数据训练的闭源模型相比,AdaNav在仅使用6K训练样本的情况下,成功率显著提升。具体来说,在R2R val-unseen上成功率提高了20%,在RxR-CE val-unseen上提高了14.6%。

  • 跨数据集评估 :在仅使用R2R数据训练的情况下,AdaNav在RxR val-unseen上的零样本评估中表现优异,超过了所有闭源基线模型,展示了强大的泛化能力。

  • 空间场景理解 :在ScanQA验证集上,AdaNav不仅保持了基础模型的通用场景理解能力,还略有提升,表明其在推理训练后增强了鲁棒性和泛化能力。

  • 真实世界评估 :在真实世界环境中,使用25个样本或复杂指令进行实验,AdaNav在会议室、家庭和办公室三种环境中的成功率显著提高,平均成功率提升了约11.4%。

UAR Block分析 实验方法
  • 训练数据规模 :分别使用2K、4K和6K训练数据进行训练,观察UAR Block的行为变化。

  • 推理调用分析 :统计推理调用的频率、分布以及不同推理模式(描述、总结、错误纠正)的使用情况。

  • 任务难度分类 :根据基础模型的成功与否将任务分为“容易”和“困难”两类,分析UAR Block在不同难度任务中的推理触发行为。

实验结果
  • 推理频率 :随着训练数据的增加,模型倾向于减少推理调用的频率,将推理集中在关键时刻,从而平衡效率和效果。

  • 推理模式选择 :在后期步骤中,模型更倾向于使用总结和错误纠正模式,显示出基于任务上下文的自适应模式选择能力。

  • 任务难度响应 :在基础模型失败的任务(即“困难”任务)中,推理调用的频率显著增加,表明UAR Block能够自适应地将推理能力分配给更具挑战性的场景。

消融研究 组件消融 实验方法
  • 去除UAR Block :推理以固定步长(例如每5步)或随机方式触发,不使用自适应控制。

  • 去除启发式先验 :仅依赖强化学习从头开始训练,不使用基于不确定性的启发式先验。

  • 去除强化学习微调 :仅使用启发式信号指导推理触发,不进行进一步的策略优化。

实验结果
  • 去除UAR Block :性能显著下降,表明自适应推理控制对于提升导航性能至关重要。

  • 去除启发式先验 :训练初期性能较差,说明启发式先验为训练提供了有效的初始引导。

  • 去除强化学习微调 :性能不如完整AdaNav,表明强化学习微调能够进一步优化推理策略,提升性能。

超参数敏感性 实验方法
  • 关键超参数 :主要分析模式特定的熵阈值 和平滑因子 。

  • 实验设置 :分别测试不同的 (如80%、85%、90%)和 值,观察对性能的影响。

实验结果
  • 熵阈值 :较低的 值(如80%)在训练初期提供了更宽松的推理触发条件,有助于模型更快地学习推理模式。随着 的增加,模型需要更高的不确定性才会触发推理,从而提高了推理的效率。

  • 阈值增量 :适当的 值能够平衡不同推理模式之间的触发条件,使模型能够根据任务难度灵活选择推理模式。

  • 平滑因子 :较大的 值使先验分布更加平滑,有助于模型在不同推理模式之间平滑过渡,但过大的 可能导致模型对不确定性信号不够敏感。

结论与未来工作
  • 结论

    • AdaNav通过结合可解释的启发式先验和最优的强化学习,提供了一种可扩展的、自适应的推理方法,无需依赖昂贵的标记推理数据,即可在具身任务中实现高效的、困难感知的和模式自适应的推理。

    • 该方法在多个基准测试和真实世界部署中都表现出色,为具身智能体的推理能力提升提供了一个有前景的方向。

  • 未来工作

    • 可以进一步探索如何在更复杂的环境和任务中应用和优化AdaNav,例如在多智能体交互场景中实现自适应推理,或者将该框架扩展到其他需要推理的具身任务中。

    • 此外,还可以研究如何进一步提高推理的效率和准确性,以及如何更好地利用有限的数据来训练更强大的推理模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
辽宁男篮拒绝爆冷!全力淘汰山东队,韩德君爆发,央视直播

辽宁男篮拒绝爆冷!全力淘汰山东队,韩德君爆发,央视直播

体坛瞎白话
2025-11-09 07:56:56
德约官宣退出年终总决赛:连续两年因伤缺席 刚夺生涯第101冠

德约官宣退出年终总决赛:连续两年因伤缺席 刚夺生涯第101冠

醉卧浮生
2025-11-09 09:27:21
《唐朝诡事录3》第一波真实口碑出炉!观众的评价一针见血

《唐朝诡事录3》第一波真实口碑出炉!观众的评价一针见血

娱乐圈笔娱君
2025-11-08 16:26:44
初三学生被霸凌者打断肋骨,母亲不去派出所,隔天校园来六辆商务车

初三学生被霸凌者打断肋骨,母亲不去派出所,隔天校园来六辆商务车

悬案解密档案
2025-10-21 09:24:49
卡地亚活动:郭晶晶惊艳了时光,巩俐那英罕见露面,李现帅气逼人

卡地亚活动:郭晶晶惊艳了时光,巩俐那英罕见露面,李现帅气逼人

白宸侃片
2025-11-09 06:02:50
财政部发布重要报告,2025年养老金已双增长,还有一个好消息

财政部发布重要报告,2025年养老金已双增长,还有一个好消息

财话连篇
2025-11-09 18:15:56
苏炳添张家朗李祎共同点燃主火炬

苏炳添张家朗李祎共同点燃主火炬

中国青年报
2025-11-09 21:55:50
解放台湾,说白了就是要拿到4样东西,其余一概不动留给台湾人

解放台湾,说白了就是要拿到4样东西,其余一概不动留给台湾人

云舟史策
2025-10-28 07:46:55
才打第二场又伤了!格林一瘸一拐被搀扶离场:美媒预测又要歇10场

才打第二场又伤了!格林一瘸一拐被搀扶离场:美媒预测又要歇10场

颜小白的篮球梦
2025-11-09 12:20:16
钱再多有什么用?蒋欣如今的现状,给所有内娱40岁以上女星提了醒

钱再多有什么用?蒋欣如今的现状,给所有内娱40岁以上女星提了醒

振华观史
2025-11-07 11:25:51
婚姻中窦骁更强势,打破何超莲对明星固有印象,因为几乎零绯闻

婚姻中窦骁更强势,打破何超莲对明星固有印象,因为几乎零绯闻

话娱论影
2025-10-21 10:01:44
巴黎世家3.6万的一分裤长这样!衣服已经颠到让人怀疑人生

巴黎世家3.6万的一分裤长这样!衣服已经颠到让人怀疑人生

80后房车生活
2025-09-28 23:27:33
笑晕了!霖霖给安总下命令,有小当家的派头!汪小菲这儿子不简单

笑晕了!霖霖给安总下命令,有小当家的派头!汪小菲这儿子不简单

乐悠悠娱乐
2025-11-09 11:02:06
从同框出差到互相甩锅,曾琦的核心地位照,揭露祖副院长翻脸必然

从同框出差到互相甩锅,曾琦的核心地位照,揭露祖副院长翻脸必然

你食不食油饼
2025-11-09 10:30:14
官方出手!两次入狱仍死性不改的郭美美,终为自己的无知付出代价

官方出手!两次入狱仍死性不改的郭美美,终为自己的无知付出代价

枫尘余往逝
2025-11-08 19:11:50
何超琼面前丢光的面子,被14岁儿子找回来了,李嘉欣才是人生赢家

何超琼面前丢光的面子,被14岁儿子找回来了,李嘉欣才是人生赢家

阿器谈史
2025-11-09 14:52:49
人人喊打、早该淘汰的机械车位,终于要“凉透”了?

人人喊打、早该淘汰的机械车位,终于要“凉透”了?

华庭讲美食
2025-11-09 06:32:24
亲戚可以提出多离谱的要求?网友:这些严格来说不算是人了吧

亲戚可以提出多离谱的要求?网友:这些严格来说不算是人了吧

带你感受人间冷暖
2025-11-08 00:15:06
靠关系的人睡不着了!翻旧账倒查20年,该给市场重新立规矩了!

靠关系的人睡不着了!翻旧账倒查20年,该给市场重新立规矩了!

夜深爱杂谈
2025-11-08 22:34:17
当年引进最成功的十大欧美动漫,全看过的就暴露年龄了

当年引进最成功的十大欧美动漫,全看过的就暴露年龄了

小Q侃电影
2025-11-09 17:41:48
2025-11-09 23:36:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5222文章数 64595关注度
往期回顾 全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

两位欧洲政要将同日访华:一人曾被誉为欧洲"最帅王子"

头条要闻

两位欧洲政要将同日访华:一人曾被誉为欧洲"最帅王子"

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》事件影响:唐嫣工作被取消

财经要闻

10月CPI同比涨0.2% PPI同比下降2.1%

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

房产
家居
数码
时尚
教育

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

家居要闻

现代自由 功能美学居所

数码要闻

荣耀耳夹式耳机外观、功能曝光:明年推出

伊姐周六热推:电视剧《四喜》;电视剧《唐朝诡事录之长安》......

教育要闻

首届 “点燃活力建院” 秋季趣味运动会,燃爆湖北建院!

无障碍浏览 进入关怀版