网易首页 > 网易号 > 正文 申请入驻

中科大自适应推理具身导航框架!AdaNav:基于不确定性驱动自适应推理的视觉语言导航

0
分享至

文章来源:视觉语言导航。

  • 作者: Xin Ding , Jianyu Wei , Yifan Yang , Shiqi Jiang , Qianxi Zhang , Hao Wu , Fucheng Jia , Liang Mi , Yuxuan Yan , Weijun Wang , Yunxin Liu , Zhibo Chen , Ting Cao

  • 单位: 中国科学技术大学, 微软研究院, 南京大学, 中南大学, 浙江大学, 清华大学人工智能产业研究院

  • 论文标题:AdaNav: Adaptive Reasoning with Uncertainty for Vision-Language Navigation

  • 论文链接:https://arxiv.org/pdf/2509.24387v1

  • 代码链接:https://github.com/xinding-sys/AdaNav

主要贡献
  • 提出基于不确定性的自适应推理框架了 AdaNav ,通过引入不确定性自适应推理块(UAR Block)和启发式到强化学习(Heuristic-to-RL)的训练机制,使智能体能够在导航过程中根据需要动态地触发推理,解决了固定步长推理导致的性能次优和计算开销问题。

  • 在仅使用 6K训练样本 的情况下,AdaNav在多个基准测试中取得了显著的性能提升,超过了使用百万级数据训练的闭源模型。例如,在R2R val-unseen上成功率提高了20%,在RxR-CE上提高了11.7%,在真实世界场景中提高了11.4%。

  • 该框架使 推理更加困难感知和模式自适应 ,随着训练的进行,推理步骤更加集中在困难的轨迹上,且推理模式的选择也更加合理,同时减少了平均推理步数,提高了效率。

研究背景
  • 视觉语言导航(VLN)要求智能体能够理解自然语言指令,并将其与连续的视觉观察相结合,以执行长期的导航轨迹。现有的基于视觉语言模型(VLM)的方法存在两个主要挑战:一致的时间对齐和稳健的感知-动作映射。

  • 为了应对这些挑战,以往的研究引入了显式推理,但固定步长的推理不仅计算开销大,还会导致过度思考,降低导航质量。理想的VLN智能体应该能够自适应地推理,即根据需要决定何时以及如何推理,但实现这种自适应性并缓解大语言模型(LLM)的过度自信问题通常需要大量的特定任务数据进行监督微调,而这些数据收集成本高昂。

方法 问题定义 视觉语言导航
  • 环境与动作空间 :考虑一个标准的VLN设置,智能体被放置在一个3D环境 中,具有状态空间 和动作空间 ,其中 和 分别表示角度和距离。

  • 任务目标 :给定自然语言指令 和连续的视觉观察 ,智能体需要执行一个轨迹 ,以达到由指令 隐式指定的目标状态 ,目标是最大化任务成功率:

    其中, 是指示函数,表示最终状态是否为目标状态。

自适应推理导航
  • 推理模式与内容 :为了提高VLN在长期和复杂环境中的性能,允许智能体在每一步 进行显式推理,推理模式变量 ,其中 表示不进行推理, 是预定义的推理模式集合(如描述、总结、错误纠正)。推理内容为 。

  • 联合策略 :智能体的策略由两部分组成:

    1. 导航策略 :根据导航相关的历史信息 、指令 和之前的推理内容 决定动作 。

    2. 推理策略 :决定何时进行推理(通过 或 )以及使用哪种推理模式(通过 )。

  • 整体策略 :联合策略为:

    其中, 表示完整的导航和推理历史信息。

  • 优化目标 :通过联合优化导航和推理策略,目标是最大化任务性能,同时保持计算效率:

    其中, 同时考虑导航成功(如进度或成功指标)和推理调用引起的延迟惩罚。

AdaNav的设计与实现 动机
  • 自适应推理需要智能体能够选择性地决定何时推理有益以及调用哪种模式。然而,现有的大语言模型(LLM)对任务难度不敏感,容易过度自信。

  • 在LLM研究中,通过监督微调引入高质量的推理痕迹可以缓解这一问题。但对于具身智能体,收集这样的高质量交互痕迹成本过高。

  • 因此,AdaNav提出了一种替代方法,利用可解释的不确定性信号动态触发推理,无需依赖大规模推理监督。

不确定性自适应推理块
  • 动作熵作为不确定性度量 :受语言推理中高熵token对单步文本生成影响较大的启发,定义动作熵 作为不确定性度量:

    其中, 是生成的token数量, 是词汇表大小, 是时间步 时词汇表中第 个token的概率。

  • 动作熵的有效性验证 :通过诊断研究发现,失败的轨迹具有高且持续的动作熵,而成功的轨迹保持较低的动作熵。单独的即时动作熵不足以预测失败,但结合历史动作熵趋势和当前动作熵状态可以提供更可靠的信号 。

  • UAR Block设计 :UAR Block结合历史动作熵 和当前观察 ,形成推理相关信息 ,并将其转化为紧凑的控制向量:

    直接参数化推理模式的logits。从这个向量中,模式选择策略为:

启发式到强化学习训练
  • 基于不确定性的先验 :在冷启动阶段,由于RL策略尚未学会有意义的模式选择,因此使用基于不确定性的先验初始化训练。直观上,较高的熵表示较高的不确定性,需要更强的推理。计算标量熵分数为过去熵的均值 ,并将其映射到包含“无推理”选项的推理模式上的软先验分布:

    其中, 是模式特定的熵阈值, 控制先验的平滑度。

  • 启发式到RL的过渡 :为了逐渐从启发式先验转移到学习到的RL策略,将先验分布与模型预测融合为:

    其中, 从1逐渐衰减到0,允许RL策略 逐渐接管启发式先验 。因此,模式选择策略可以表示为:

  • 奖励设计 :首先定义推理成本为基于相对推理长度的归一化惩罚:

    其中, 是当前步的推理长度, 是成功样本组中最短的生成长度, 是一个常数惩罚窗口。

  • 导航目标奖励 :采用基于距离减少的常见外在奖励,即时奖励定义为 ,其中 表示从当前状态 到目标位置 的测地线距离。

  • 整体任务奖励 :将外在奖励和推理成本结合起来,整体任务奖励定义为折扣累积回报:

    其中, 是折扣因子,控制未来奖励的权重。这种奖励设计鼓励智能体高效地向目标导航,同时避免不必要的推理开销。

实验 性能提升 实验设置
  • 基础模型 :选择两个开源的VLN模型NAVID和NAVILA作为基础模型,AdaNav被集成到这些模型中。

  • 训练数据 :从R2R和RxR的训练集中随机采样3000个episode进行训练。

  • 硬件配置 :使用4块NVIDIA RTX A100 GPU进行训练。

  • 基准测试 :在R2R和RxR的val-unseen分割上评估导航性能,并在ScanQA验证集上评估空间场景理解能力。

实验结果
  • VLN-CE基准测试 :与使用百万级数据训练的闭源模型相比,AdaNav在仅使用6K训练样本的情况下,成功率显著提升。具体来说,在R2R val-unseen上成功率提高了20%,在RxR-CE val-unseen上提高了14.6%。

  • 跨数据集评估 :在仅使用R2R数据训练的情况下,AdaNav在RxR val-unseen上的零样本评估中表现优异,超过了所有闭源基线模型,展示了强大的泛化能力。

  • 空间场景理解 :在ScanQA验证集上,AdaNav不仅保持了基础模型的通用场景理解能力,还略有提升,表明其在推理训练后增强了鲁棒性和泛化能力。

  • 真实世界评估 :在真实世界环境中,使用25个样本或复杂指令进行实验,AdaNav在会议室、家庭和办公室三种环境中的成功率显著提高,平均成功率提升了约11.4%。

UAR Block分析 实验方法
  • 训练数据规模 :分别使用2K、4K和6K训练数据进行训练,观察UAR Block的行为变化。

  • 推理调用分析 :统计推理调用的频率、分布以及不同推理模式(描述、总结、错误纠正)的使用情况。

  • 任务难度分类 :根据基础模型的成功与否将任务分为“容易”和“困难”两类,分析UAR Block在不同难度任务中的推理触发行为。

实验结果
  • 推理频率 :随着训练数据的增加,模型倾向于减少推理调用的频率,将推理集中在关键时刻,从而平衡效率和效果。

  • 推理模式选择 :在后期步骤中,模型更倾向于使用总结和错误纠正模式,显示出基于任务上下文的自适应模式选择能力。

  • 任务难度响应 :在基础模型失败的任务(即“困难”任务)中,推理调用的频率显著增加,表明UAR Block能够自适应地将推理能力分配给更具挑战性的场景。

消融研究 组件消融 实验方法
  • 去除UAR Block :推理以固定步长(例如每5步)或随机方式触发,不使用自适应控制。

  • 去除启发式先验 :仅依赖强化学习从头开始训练,不使用基于不确定性的启发式先验。

  • 去除强化学习微调 :仅使用启发式信号指导推理触发,不进行进一步的策略优化。

实验结果
  • 去除UAR Block :性能显著下降,表明自适应推理控制对于提升导航性能至关重要。

  • 去除启发式先验 :训练初期性能较差,说明启发式先验为训练提供了有效的初始引导。

  • 去除强化学习微调 :性能不如完整AdaNav,表明强化学习微调能够进一步优化推理策略,提升性能。

超参数敏感性 实验方法
  • 关键超参数 :主要分析模式特定的熵阈值 和平滑因子 。

  • 实验设置 :分别测试不同的 (如80%、85%、90%)和 值,观察对性能的影响。

实验结果
  • 熵阈值 :较低的 值(如80%)在训练初期提供了更宽松的推理触发条件,有助于模型更快地学习推理模式。随着 的增加,模型需要更高的不确定性才会触发推理,从而提高了推理的效率。

  • 阈值增量 :适当的 值能够平衡不同推理模式之间的触发条件,使模型能够根据任务难度灵活选择推理模式。

  • 平滑因子 :较大的 值使先验分布更加平滑,有助于模型在不同推理模式之间平滑过渡,但过大的 可能导致模型对不确定性信号不够敏感。

结论与未来工作
  • 结论

    • AdaNav通过结合可解释的启发式先验和最优的强化学习,提供了一种可扩展的、自适应的推理方法,无需依赖昂贵的标记推理数据,即可在具身任务中实现高效的、困难感知的和模式自适应的推理。

    • 该方法在多个基准测试和真实世界部署中都表现出色,为具身智能体的推理能力提升提供了一个有前景的方向。

  • 未来工作

    • 可以进一步探索如何在更复杂的环境和任务中应用和优化AdaNav,例如在多智能体交互场景中实现自适应推理,或者将该框架扩展到其他需要推理的具身任务中。

    • 此外,还可以研究如何进一步提高推理的效率和准确性,以及如何更好地利用有限的数据来训练更强大的推理模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伦敦世乒赛:5月8日赛程公布!决出4强名单,国乒男团再战韩国

伦敦世乒赛:5月8日赛程公布!决出4强名单,国乒男团再战韩国

全言作品
2026-05-08 06:27:37
纽约时报:当今中国,早已不把美国总统来访当作顶级国际认可

纽约时报:当今中国,早已不把美国总统来访当作顶级国际认可

荆楚寰宇文枢
2026-05-07 23:15:43
“机车女神”痞幼拿下张雪!评论区沦陷了!

“机车女神”痞幼拿下张雪!评论区沦陷了!

4A广告文案
2026-05-07 09:13:48
中方丝毫不退让,荷兰威胁不买大陆芯片,外媒:欧盟忍耐到极点

中方丝毫不退让,荷兰威胁不买大陆芯片,外媒:欧盟忍耐到极点

疯狂小菠萝
2026-05-08 13:35:05
行业第一疯!张雪直播10万+连线让用户公开骂,“真诚杀”太狠了

行业第一疯!张雪直播10万+连线让用户公开骂,“真诚杀”太狠了

商悟社
2026-05-07 00:07:04
全网愤怒!乐山一剥食橘子的猴子被男子猛推悬崖,涉事男子被曝光

全网愤怒!乐山一剥食橘子的猴子被男子猛推悬崖,涉事男子被曝光

火山詩话
2026-05-07 07:01:22
我是个医学博士,从医十五年,如今自己成了肺癌晚期病人

我是个医学博士,从医十五年,如今自己成了肺癌晚期病人

荷兰豆爱健康
2026-05-07 13:45:53
东航原董事长刘绍勇被提起公诉

东航原董事长刘绍勇被提起公诉

界面新闻
2026-05-08 10:00:52
诈骗14亿!王丽坤全网社死前夫被法拍清单流出 才知他们有多奢靡

诈骗14亿!王丽坤全网社死前夫被法拍清单流出 才知他们有多奢靡

千言娱乐记
2025-11-27 22:16:17
阿马杜无缘战旧主,重庆中场防守断档 申花拒连败 刘诚宇难破大巴

阿马杜无缘战旧主,重庆中场防守断档 申花拒连败 刘诚宇难破大巴

替补席看球
2026-05-08 14:28:23
全体集合,下周的预测出来了!A股突然下跌,我来说两句!

全体集合,下周的预测出来了!A股突然下跌,我来说两句!

一担金
2026-05-08 11:58:31
好日子到头了?许家印背后的"保护伞",终于被重罚了

好日子到头了?许家印背后的"保护伞",终于被重罚了

潋滟晴方DAY
2026-05-07 12:12:51
巴拉圭总统窜台!不到24小时,中方下达最后通牒:与台“断交”

巴拉圭总统窜台!不到24小时,中方下达最后通牒:与台“断交”

井普椿的独白
2026-05-08 15:10:41
价格敲定!巴萨7500万欧元可拿下英超全能前锋,性价比拉满

价格敲定!巴萨7500万欧元可拿下英超全能前锋,性价比拉满

夜白侃球
2026-05-08 09:02:06
我夜里回家时遇到一件怪事,多年过去,每每想起还会觉得不可思议

我夜里回家时遇到一件怪事,多年过去,每每想起还会觉得不可思议

人间百态大全
2026-05-08 06:40:03
杨瀚森要换教练了?斯普利特基本无缘留任 利拉德已推荐新帅人选

杨瀚森要换教练了?斯普利特基本无缘留任 利拉德已推荐新帅人选

罗说NBA
2026-05-08 06:22:16
湖南浏阳烟花厂爆炸事故已致37人死亡1人失联

湖南浏阳烟花厂爆炸事故已致37人死亡1人失联

新京报
2026-05-08 12:24:10
骑士0-2!阿特金森替哈登揽责,米切尔看清现实,莫布里难堪大任

骑士0-2!阿特金森替哈登揽责,米切尔看清现实,莫布里难堪大任

鱼崖大话篮球
2026-05-08 11:25:24
泽连斯基:俄罗斯想要我们的许可安全举行阅兵式,之后继续杀人

泽连斯基:俄罗斯想要我们的许可安全举行阅兵式,之后继续杀人

兰妮搞笑分享
2026-05-08 14:24:36
16岁女孩景区内坠亡,目击者发声,赔偿金额曝光,景区运营仅49天

16岁女孩景区内坠亡,目击者发声,赔偿金额曝光,景区运营仅49天

温柔看世界
2026-05-06 11:48:44
2026-05-08 15:56:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5522文章数 64625关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

向导掐人中救醒高反昏迷女子反遭掌掴 女子否认"装晕"

头条要闻

向导掐人中救醒高反昏迷女子反遭掌掴 女子否认"装晕"

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

一觉醒来,美伊又打起来了

汽车要闻

智能双舱大五座SUV 乐道L80将于5月15日正式上市

态度原创

本地
教育
数码
艺术
军事航空

本地新闻

用苏绣的方式,打开江西婺源

教育要闻

体育是“五育并举”的重要基石。在甘肃省陇南市武都区莲湖小学,新近引入的智慧体育设施让教学工具得到升级...

数码要闻

荣耀MagicOS五月更新上线:新增支持AirPods互联等

艺术要闻

探索施密德的油画,感受无法抵挡的艺术魅力!

军事要闻

伊朗:最高领袖穆杰塔巴全面掌控局势

无障碍浏览 进入关怀版