网易首页 > 网易号 > 正文 申请入驻

VL-LN Bench:模拟「边走边问找具体目标」的真实导航场景

0
分享至



本工作由上海人工智能实验室、中国科学技术大学、浙江大学、香港大学 的研究者们共同完成。


https://mp.weixin.qq.com/s/Sbac5L2fUbnF2TBBW8O1xg?click_id=48



  • 论文标题:VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs
  • 项目主页:https://0309hws.github.io/VL-LN.github.io/
  • ArXiv 论文:https://arxiv.org/abs/2512.22342
  • Hugging Face 数据集: https://huggingface.co/datasets/InternRobotics/VL-LN-Bench
  • Hugging Face 模型:https://huggingface.co/InternRobotics/VL-LN-Bench-basemodel
  • GitHub 代码库:https://github.com/InternRobotics/VL-LN

交互式实例导航任务

(Interactive Instance Goal Navigation, IIGN)

如果将一台在视觉语言导航(VLN)任务中表现优异的机器人直接搬进家庭场景,往往会遇到不少实际问题。

首先是使用门槛偏高:传统 VLN 需要用户给出又长又精确的路线式指令,例如 “从门口直走三步,看到门右转,再往前……”,这会显著增加沟通成本,降低日常使用体验。

相比之下,人们更期待一种更自然的交互方式,比如只用随口一句 “找到我的背包” 即可。这样的设定更接近目标物体导航(ObjectNav)任务,但它也存在明显不足:机器人只会找到场景内任意一个背包交差,而无法定位用户真正需要的书包,这显然无法满足需求。

正因为真实场景里用户的表达常常简短且含糊,而机器人又必须把目标精确落实到某一个具体实例上,交互式实例导航才显得格外关键。机器人既不能指望用户一开始就把所有信息交代清楚,也不能用 “找到同类就算完成” 的方式草草应付;相反,它应在探索过程中主动提问、逐步澄清歧义,像人一样把 “到底是哪一个” 问明白,再高效准确地完成用户的需求。



交互式实例导航示例:用户要求机器人找到场景中某一张凳子(绿框),但存在大量相似干扰项(红框),因此机器人需在探索中结合观察主动提问,逐步缩小候选范围,直到锁定目标。

构建 VL-LN 基准:

面向 IIGN 任务的自动化数据收集及评测

语言交互是人们日常交互最常见的形式之一,具身智能体要更好地融入人类生活也需要具有进行这种高效的信息交流形式的能力。不同于传统 VLN 仅仅聚焦 “导航动作(Navigation)执行得好不好”,VL-LN 还关注机器人能否在导航过程中与人类进行高效的语言交互(Language+Navigation)来提升任务的成功率与效率。

为此,VL-LN 面向交互式实例导航任务构建了一套自动化数据收集管线,并依托 InternVLA-N1 标准化模型训练评测

自动化数据收集管线



交互式实例导航数据收集流程

数据收集包含三个步骤,作者首先整理了场景元数据,进而生成能用于在线采样的序列(episode)数据,最后在规则驱动的交互机制下批量采集交互导航训练轨迹(trajectory),具体内容包括:

场景元数据处理:基于 MMScan 对 MP3D 场景的标注信息,将按房间分散的物体信息整合成全屋级的元数据,主要包括两个字典:目标实例字典(instance dictionary,存储每个物体的空间关系、属性等基本信息)和区域字典(region dictionary,存储房间的位置、物体等信息)

序列生成:每个有效序列由起始位姿、导航指令、目标实例的可停止视点三个主要信息组成。针对每一个目标实例作者均提供两个版本的导航指令。一种导航指令只有目标实例的类别(Partial instruction,用于交互式实例导航任务,必须靠对话消歧),另一种导航指令是能在场景内唯一锁定目标实例的完整描述(Full instruction,可用于评测训练非交互的任务)。可停止视点(view point)指机器人在导航过程中可以合法停止并判定 “已找到目标” 的一组视点位置。

交互导航轨迹采集:该阶段主要采用一个集成了基于边界点的探索算法(Frontier-Based Exploration)与目标实例分割器的智能体。在数据采集过程中,智能体除探索未知区域外,还会按规则主动提出三类问题:属性(目标实例长什么样?)、路线(如何到达目标?)和目标消歧(是否为眼前的实例?),从而生成相应的交互式导航轨迹。

通过该流程,作者构建了大规模交互式实例导航数据以支撑模型训练。下图给出了数据的总体统计。作为首个大规模交互式实例导航数据集,其主要优势在于:

  • 规模:40k导航序列,相比现有交互导航数据集(约7k)提升一个量级
  • 多样性:覆盖150+物体类别与3类问答(属性 / 位置 / 消歧),自由组合形成丰富训练样本;
  • 难度覆盖:包含长时程轨迹(steps > 300)与多轮对话样本(dialog turns > 5),覆盖复杂困难场景。



第一行分别展示了每条轨迹的路径步数、对话轮数和每轮对话长度的频率直方图;第二行展示了问题类型与目标类型的统计结果,以及对话中高频词的词云图。

NPC 支撑的自动化在线评测基准

为了评测智能体完成交互式实例导航(IIGN)的能力,并与非交互式实例导航(IGN)进行对比,VL-LN 基准提供了可用于测试两类任务的测试集。针对交互式实例导航的自动化评测,VL-LN 还实现了一个由 GPT-4o 驱动的 NPC,它能够回答智能体在导航过程中提出的问题。此外,为了评估智能体提问效率,VL-LN 定义新的指标 MSP(Mean Success Progress),用于衡量主动对话带来的增益。

从结果到原因:

交互式实例导航的能力与挑战

通过使用不同的数据对 Qwen2.5-VL-7B-Instruct 进行微调,作者训练了三个模型。具体训练所使用的数据如下:

  • VLLN-O (object):VLN + ObjectNav 轨迹数据
  • VLLN-I (instance):VLN + ObjectNav + IGN 轨迹数据
  • VLLN-D (dialog):VLN + ObjectNav + IIGN 轨迹数据(论文的核心模型)

评测同时覆盖两类任务:

  • IIGN(交互式实例导航):允许提问(对话轮数限制在 5 轮)
  • IGN(实例导航):不允许对话,但提供足以唯一锁定目标实例的全量指令

实验结果如下表所示



为了进一步确定模型在交互式实例导航任务上的性能和瓶颈,研究团队对实验结果进行系统性复盘,并将实验结论总结如下:



VL-LN Bench 错误类型分布



不同对话轮次上限下的 IIGN 性能

对话消歧在任务存在歧义时显著提升成功率:在 IIGN 与 IGN 上,具备提问能力的 VLLN-D 成功率均高于仅会探索的 VLLN-I,成功率分别提升6.0%2.6%。在对话轮次上限消融中,随着上限由0增至5,VLLN-D 的 SR 由15.4%提升至20.2%

物体 — 图像对齐是核心瓶颈:无论在 IIGN 还是 IGN 任务中,约 70% 的失败都源于目标未被成功检测,说明性能瓶颈主要不在导航策略,而在于目标实例与图像观测之间的对齐能力。

相较于全量信息设置,问答机制带来的信息增益仍然有限:VLLN-D 在 IIGN 上的成功率为 20.2%,低于其在无法提问、但具备全量信息的 IGN 上的 21.8%,说明对当前模型而言,对话带来的增益仍弱于信息补全带来的增益。

与人类仍有显著差距:论文设置人类 IIGN 测试(一人负责提问与探索,另一人负责回答),结果显示人类平均仅需2轮对话即可达到93%成功率,表明当前模型与人类水平仍存在巨大差距。

结语

VL-LN Bench 是一个面向长时程交互式实例导航(IIGN)任务的高质量、高挑战且体系完备的评测基准,可系统评估智能体在 3D 环境中的长程探索、实例级目标识别与对话消歧能力。

与此同时,基准配套自动化数据采集管线与 NPC 评测机制,为交互式导航能力的训练与评估提供了一条可规模化、可复现的标准化路径。评测结果清晰表明:引入主动对话能够显著提升智能体在 IIGN 与 IGN 任务中的整体表现,但同时也揭示了当前方法在实例级感知对齐与高信息增益提问策略等关键环节上仍存在明显短板,为未来面向空间智能体的 “会走” 到 “会边走边问” 的技术演进提供了研究方向与启发。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男人上了年纪,鞋子尽量别穿耐克、李宁,换成这些中产品牌更高级

男人上了年纪,鞋子尽量别穿耐克、李宁,换成这些中产品牌更高级

莉莉和奶奶
2026-02-02 06:48:07
李易峰前炮友爆料!马苏陈伟霆竟是嫖娼中间人,出轨对象直指杨幂

李易峰前炮友爆料!马苏陈伟霆竟是嫖娼中间人,出轨对象直指杨幂

八星人
2026-02-01 23:10:50
早就想打!日媒首次爆料:中国双航母出动时日军战机已做战斗准备

早就想打!日媒首次爆料:中国双航母出动时日军战机已做战斗准备

诗意世界
2025-08-21 13:13:50
1995年朝鲜第六军团叛乱,韩国下令派兵接应,军方为何知情不报?

1995年朝鲜第六军团叛乱,韩国下令派兵接应,军方为何知情不报?

历史八卦社
2024-03-10 23:57:33
国际贵金属价格再跳水 银价3天累计跌幅达40%

国际贵金属价格再跳水 银价3天累计跌幅达40%

极目新闻
2026-02-02 15:33:23
沪银跌停 沪金大跌超10%

沪银跌停 沪金大跌超10%

闪电新闻
2026-02-02 10:23:20
黄金白银继续暴跌,交易所拔网线,沪银欠下跌停债

黄金白银继续暴跌,交易所拔网线,沪银欠下跌停债

东方豪侠
2026-02-02 12:58:58
男子转账800元被认定嫖娼拘留,他起诉警方却两度败诉!

男子转账800元被认定嫖娼拘留,他起诉警方却两度败诉!

没有偏旁的常庆
2026-02-01 20:14:55
知名国酒爆雷,纯酒精兑水,标注年份你说了算,成本10元卖899

知名国酒爆雷,纯酒精兑水,标注年份你说了算,成本10元卖899

毒sir财经
2026-01-30 16:23:01
理性!不要梭哈!

理性!不要梭哈!

一莎观察
2026-02-01 13:37:59
福建南安致2死6伤电力施工爆炸事故调查报告发布

福建南安致2死6伤电力施工爆炸事故调查报告发布

界面新闻
2026-02-02 11:40:10
广东网友称中阳信高速高州段发生20车连撞事故,且有3人现场死亡,警方:情况不实

广东网友称中阳信高速高州段发生20车连撞事故,且有3人现场死亡,警方:情况不实

潇湘晨报
2026-02-02 16:26:24
香港豪门名媛搭高铁只能坐行李箱,获四亿分手费,游山玩水太潇洒

香港豪门名媛搭高铁只能坐行李箱,获四亿分手费,游山玩水太潇洒

裕丰娱间说
2026-02-02 11:44:20
重磅!加州将开征“里程税”,两车家庭每年或缴4200美元

重磅!加州将开征“里程税”,两车家庭每年或缴4200美元

大洛杉矶LA
2026-02-02 06:45:18
中共中央 国务院:建设京津、京雄走廊,梯次布局北京平原新城、北京生态涵养区、通勤圈、功能圈和产业协同圈

中共中央 国务院:建设京津、京雄走廊,梯次布局北京平原新城、北京生态涵养区、通勤圈、功能圈和产业协同圈

证券时报
2026-02-02 17:43:04
畸形儿风波后,阚清子首度表态,早产女婴夭折传闻终于真相大白

畸形儿风波后,阚清子首度表态,早产女婴夭折传闻终于真相大白

漫婷侃娱乐
2026-02-02 13:55:21
他们在吃人!爱泼斯坦文件最新曝光,惊现西方精英食人真相

他们在吃人!爱泼斯坦文件最新曝光,惊现西方精英食人真相

童童聊娱乐啊
2026-02-02 08:47:59
契丹人有多讲究?签订澶渊之盟后,100多年和北宋几乎秋毫无犯

契丹人有多讲究?签订澶渊之盟后,100多年和北宋几乎秋毫无犯

历史摆渡
2026-02-02 20:05:03
35岁陈学冬现状:两年4次手术,11部作品被下架,今生活无法自理

35岁陈学冬现状:两年4次手术,11部作品被下架,今生活无法自理

小徐讲八卦
2026-01-31 18:50:03
真不识货!被易立弃用的2名球员,如今在新东家,都成了球队大腿

真不识货!被易立弃用的2名球员,如今在新东家,都成了球队大腿

金山话体育
2026-02-02 09:42:25
2026-02-03 02:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12238文章数 142562关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

亲子
旅游
健康
公开课
军事航空

亲子要闻

萌娃哄生气的妈妈,人小鬼大逗得妈妈生不起气来了

旅游要闻

解锁勐泐 4 大玩法,读懂真正的傣家风情!

耳石症分类型,症状大不同

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版