网易首页 > 网易号 > 正文 申请入驻

机器人能“思考”但不“发呆”,视觉语言导航中的辅助推理策略

0
分享至

本文介绍了一种用于高效视觉语言导航任务的辅助推理策略Aux-Think。Aux-Think仅在训练期间内化思维链 (CoT),从而无需在推理时进行明确的推理即可实现高效的视觉语言导航,并以最少的数据实现强大的性能。

论文题目: Aux-Think: Exploring Reasoning Strategies for Data-Efficient Vision-Language Navigation 论文链接: https://arxiv.org/abs/2505.11886 项目主页: https://horizonrobotics.github.io/robot_lab/aux-think/
一、动机

当机器人在复杂环境中执行任务时,导航能力是必不可少的,但机器人在移动时,是靠直觉走还是先思考再走?这个问题比你想象的更复杂。

近年来,Vision-Language Navigation(视觉-语言导航)任务成为打造智能机器人系统的关键一环:机器人需要理解自然语言指令,并在真实环境中自主移动。尽管大型多模态模型已显著提升了任务表现,但一个令人惊讶的现象是——一旦在执行时引入逐步推理(Chain-of-Thought, CoT),导航效果反而下降。为什么“思考”有时反而“误事”?

现有的大模型推理策略 二、方法

为解决这一问题,FAITA范肇心助理教授和人大王永才教授团队联合地平线机器人联合提出了全新方法Aux-Think,首次系统性地对比了三类导航推理策略:

  • No-Think:直接预测行动;

  • Pre-Think:先思考再行动;

  • Post-Think:行动后再解释。

实验发现,在导航这种动态、长程任务中引入显式推理,反而导致严重的“推理崩塌”(Inference-time Reasoning Collapse):模型在训练时学的是最优轨迹,但实际运行中常常偏离分布,推理质量下降,错误不断累积,最终导航失败。简而言之:机器人“边走边想”,容易越走越偏。

仅在 R2R-CoT-320k 上训练的不同推理策略的导航性能比较。我们提出的 Aux-Think 方法始终优于其他推理策略。

为了进一步探究CoT对导航决策的影响,我们调整了CoT部分的损失权重,使得模型更加专注于学习导航动作部分。我们发现,较为平衡的CoT损失权重对效果略有提升。这表明,虽然推理时间CoT存在问题,但在训练过程中对推理的重视程度是对行动学习影响的一个关键的因素。但是,调整过权重的Pre-Think和Post-Think的效果依然不如No-Think。

调整CoT loss权重后的推理模型导航成功率

具体而言,导航任务本质上是一种多轮交互的长程决策过程。在执行过程中,机器人极易偏离最优路径(Non-oracle),进入未见过的状态分布。然而,在训练阶段,模型仅在理想的最优轨迹上学习如何生成 Chain of Thought(CoT)推理。一旦面对非最优状态,模型往往会生成错误甚至带有严重幻觉的推理内容,进而做出错误决策。这种误差不仅无法被及时纠正,反而会不断放大,使机器人越走越偏,最终导致整个任务失败。

那么,“不思考”才是最优解吗?也不是。

Aux-Think 提出了一个类人训练范式:“训练时学会思考,执行时保持果断。”这就像人类在学车时会反复学习交规,但上路后靠的是肌肉记忆和直觉。我们将推理作为辅助监督信号引入模型训练,让机器人像人一样在学习阶段用“慢系统”建立规则、形成直觉,引导模型学习“如何思考”;但在推理执行时用“快系统”直接做出决策,只输出动作,从而实现更强的导航能力与更高的数据效率。

研究团队首次构建了R2R-CoT-320k数据集,为视觉导航任务提供了32万条高质量的“思维链”注释。这是目前最大、最系统的导航推理语料库,为智能体的因果学习与决策提供了新基础。

三、实验

结果如何?Aux-Think 在多个导航基准测试中以更少的数据达到甚至超越 SOTA 模型,在长程任务中尤其表现稳健(成功率几乎不掉线),有效解决了推理引发的误差累积难题。用简单的话说:它让机器人“训练时学会像人一样思考,执行时像专家一样果断”。

Aux-Think以极少的训练数据取得了具有竞争力的结果,在同等数据量下表现最优,展现出优于现有方法的卓越泛化能力和数据效率。

研究团队同时评估了Aux-Think、Pre-Think和Post-Think的每个推理步骤的成功率 (SR),并将结果按完成任务所需的步骤数分组。在所有步骤范围内,Aux-Think的表现始终优于两个基准模型。一个关键的观察结果是,随着所需步骤的增加,Pre-Think和Post-Think的性能急剧下降,当任务超过70步时,SR接近于零。相比之下Aux-Think 即使在较长时间范围的任务中也能保持强劲的性能,表现出显著更高的鲁棒性和对复杂、多步骤导航场景的泛化能力。这些结果凸显了Aux-Think在处理任务复杂性增加下的扩展推理和决策方面的卓越可扩展性。

推理过程中不同步骤的推理策略的成功率。 四、总结与展望

Aux-Think首次系统性地研究了视觉与语言导航中的推理策略,揭示了一个关键的局限性——推理崩塌(Inference-time Reasoning Collapse),即生成推理中的错误会加剧并降低导航性能。基于这一发现,我们提出了Aux-Think,这是一个推理感知的协同训练框架,它利用思维链作为训练过程中的辅助监督,同时在推理时使用高效的无思考推理(No-Think)。大量实验表明,Aux-Think在使用显著减少的训练数据的情况下,取得了与最先进方法相当的性能,凸显了其稳健性和数据效率。我们还发布了第一个用于VLN的CoT数据集 R2R-CoT-320k,以促进未来推理模型的研究。

未来,Aux-Think研究团队将进一步探索如何通过强化学习与轻量模型结合,使 Aux-Think 的范式更广泛应用于现实世界机器人平台。

llustration From IconScout By Ivasi Studio

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线600+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普称尚未收到伊朗暂停谈判的消息

特朗普称尚未收到伊朗暂停谈判的消息

澎湃新闻
2026-06-02 01:52:02
人民日报这次没惯着!直接撕开那层遮羞布,点名以举报为乐的家长

人民日报这次没惯着!直接撕开那层遮羞布,点名以举报为乐的家长

辉哥说动漫
2026-05-28 04:06:39
歼-15近乎全退役,成全球最短命舰载机,有何短板?

歼-15近乎全退役,成全球最短命舰载机,有何短板?

紧跟时代脉搏
2026-05-20 13:55:55
肝开始变硬,头部会有5个异常,若你一个也没有,说明肝脏很健康

肝开始变硬,头部会有5个异常,若你一个也没有,说明肝脏很健康

芹姐说生活
2026-05-26 16:19:22
湖南出现历史上最荒唐法官!判男方净身出户,然后跟拿到全部资产的女方结婚

湖南出现历史上最荒唐法官!判男方净身出户,然后跟拿到全部资产的女方结婚

爆角追踪
2025-11-23 11:25:00
儿子不上班在家啃老,我和老伴彻底想通了:日子舒心,比啥都强

儿子不上班在家啃老,我和老伴彻底想通了:日子舒心,比啥都强

蝉吟槐蕊
2026-06-02 00:26:57
三星电子市值盘中突破2000万亿韩元 创下历史纪录

三星电子市值盘中突破2000万亿韩元 创下历史纪录

CNMO科技
2026-06-01 13:50:13
退休后每月有这个收入,不用攀比钱财,你已经超越多数普通人

退休后每月有这个收入,不用攀比钱财,你已经超越多数普通人

花小猫的美食日常
2026-06-01 21:40:43
法国拦截了被制裁的俄影子舰队油轮,莫斯科称其为“海盗行为”

法国拦截了被制裁的俄影子舰队油轮,莫斯科称其为“海盗行为”

桂系007
2026-06-01 23:48:49
央视怒批,目不识丁、洋相百出,难怪两会上冯远征建议演员多学习

央视怒批,目不识丁、洋相百出,难怪两会上冯远征建议演员多学习

傲傲讲历史
2026-03-05 16:08:43
特朗普:以色列和黎真主党的所有交火行动将立即停止

特朗普:以色列和黎真主党的所有交火行动将立即停止

澎湃新闻
2026-06-02 02:13:04
拉踩引战惹的祸!苗润东超低分背后,苏超正在被越来越多球迷抵制

拉踩引战惹的祸!苗润东超低分背后,苏超正在被越来越多球迷抵制

中国足球的那些事儿
2026-06-01 14:48:06
苏芒自曝产后复工被排挤,感恩老公帮忙分担家务,评论区一片嘲讽

苏芒自曝产后复工被排挤,感恩老公帮忙分担家务,评论区一片嘲讽

尺素a
2026-05-27 05:17:52
中国老年痴呆人数全球第一:喝茶越多,痴呆的就越多,真的吗?

中国老年痴呆人数全球第一:喝茶越多,痴呆的就越多,真的吗?

复转这些年
2026-05-28 16:41:25
普京首次宣称俄乌战争接近结束!承认乌克兰更容易打击俄本土

普京首次宣称俄乌战争接近结束!承认乌克兰更容易打击俄本土

项鹏飞
2026-05-30 16:12:33
22岁文班亚马成总决赛第二年轻核心,马刺抢七胜雷霆

22岁文班亚马成总决赛第二年轻核心,马刺抢七胜雷霆

快乐加载中21
2026-06-01 00:42:04
1981年黄植诚驾机投诚大陆,被他放走的许秋麟返回台湾后怎么样了

1981年黄植诚驾机投诚大陆,被他放走的许秋麟返回台湾后怎么样了

磊子讲史
2026-05-28 14:27:51
我今年53岁,独居多年,一人一屋,三餐四季,每天都乐在其中

我今年53岁,独居多年,一人一屋,三餐四季,每天都乐在其中

蝉吟槐蕊
2026-05-31 00:23:28
美媒爆料:特朗普越来越质疑万斯的实力,并抱怨他休假太多

美媒爆料:特朗普越来越质疑万斯的实力,并抱怨他休假太多

菁菁子衿
2026-06-01 14:41:50
“留学回来,15次相亲失败”,杭州女孩被拆穿:连繁殖能力都没有

“留学回来,15次相亲失败”,杭州女孩被拆穿:连繁殖能力都没有

离离言几许
2026-04-09 17:04:00
2026-06-02 03:27:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2397文章数 596关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

伊朗计划彻底封锁霍尔木兹海峡 特朗普回应

头条要闻

伊朗计划彻底封锁霍尔木兹海峡 特朗普回应

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

房产
艺术
亲子
数码
军事航空

房产要闻

100亿!1371亩!海口城市更新,再爆超级项目!

艺术要闻

吴镇写竹,清清爽爽

亲子要闻

向太坦言给孙女买衣服从不超100块:真的豪门从不靠名牌养娃

数码要闻

惠普推OmniDesk迷你主机:配英特尔新U支持AI加速

军事要闻

韩国最大军工企业爆炸 已造成5人死亡

无障碍浏览 进入关怀版