网易首页 > 网易号 > 正文 申请入驻

VL-LN Bench:模拟「边走边问找具体目标」的真实导航场景

0
分享至



本工作由上海人工智能实验室、中国科学技术大学、浙江大学、香港大学 的研究者们共同完成。


https://mp.weixin.qq.com/s/Sbac5L2fUbnF2TBBW8O1xg?click_id=48



  • 论文标题:VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs
  • 项目主页:https://0309hws.github.io/VL-LN.github.io/
  • ArXiv 论文:https://arxiv.org/abs/2512.22342
  • Hugging Face 数据集: https://huggingface.co/datasets/InternRobotics/VL-LN-Bench
  • Hugging Face 模型:https://huggingface.co/InternRobotics/VL-LN-Bench-basemodel
  • GitHub 代码库:https://github.com/InternRobotics/VL-LN

交互式实例导航任务

(Interactive Instance Goal Navigation, IIGN)

如果将一台在视觉语言导航(VLN)任务中表现优异的机器人直接搬进家庭场景,往往会遇到不少实际问题。

首先是使用门槛偏高:传统 VLN 需要用户给出又长又精确的路线式指令,例如 “从门口直走三步,看到门右转,再往前……”,这会显著增加沟通成本,降低日常使用体验。

相比之下,人们更期待一种更自然的交互方式,比如只用随口一句 “找到我的背包” 即可。这样的设定更接近目标物体导航(ObjectNav)任务,但它也存在明显不足:机器人只会找到场景内任意一个背包交差,而无法定位用户真正需要的书包,这显然无法满足需求。

正因为真实场景里用户的表达常常简短且含糊,而机器人又必须把目标精确落实到某一个具体实例上,交互式实例导航才显得格外关键。机器人既不能指望用户一开始就把所有信息交代清楚,也不能用 “找到同类就算完成” 的方式草草应付;相反,它应在探索过程中主动提问、逐步澄清歧义,像人一样把 “到底是哪一个” 问明白,再高效准确地完成用户的需求。



交互式实例导航示例:用户要求机器人找到场景中某一张凳子(绿框),但存在大量相似干扰项(红框),因此机器人需在探索中结合观察主动提问,逐步缩小候选范围,直到锁定目标。

构建 VL-LN 基准:

面向 IIGN 任务的自动化数据收集及评测

语言交互是人们日常交互最常见的形式之一,具身智能体要更好地融入人类生活也需要具有进行这种高效的信息交流形式的能力。不同于传统 VLN 仅仅聚焦 “导航动作(Navigation)执行得好不好”,VL-LN 还关注机器人能否在导航过程中与人类进行高效的语言交互(Language+Navigation)来提升任务的成功率与效率。

为此,VL-LN 面向交互式实例导航任务构建了一套自动化数据收集管线,并依托 InternVLA-N1 标准化模型训练评测

自动化数据收集管线



交互式实例导航数据收集流程

数据收集包含三个步骤,作者首先整理了场景元数据,进而生成能用于在线采样的序列(episode)数据,最后在规则驱动的交互机制下批量采集交互导航训练轨迹(trajectory),具体内容包括:

场景元数据处理:基于 MMScan 对 MP3D 场景的标注信息,将按房间分散的物体信息整合成全屋级的元数据,主要包括两个字典:目标实例字典(instance dictionary,存储每个物体的空间关系、属性等基本信息)和区域字典(region dictionary,存储房间的位置、物体等信息)

序列生成:每个有效序列由起始位姿、导航指令、目标实例的可停止视点三个主要信息组成。针对每一个目标实例作者均提供两个版本的导航指令。一种导航指令只有目标实例的类别(Partial instruction,用于交互式实例导航任务,必须靠对话消歧),另一种导航指令是能在场景内唯一锁定目标实例的完整描述(Full instruction,可用于评测训练非交互的任务)。可停止视点(view point)指机器人在导航过程中可以合法停止并判定 “已找到目标” 的一组视点位置。

交互导航轨迹采集:该阶段主要采用一个集成了基于边界点的探索算法(Frontier-Based Exploration)与目标实例分割器的智能体。在数据采集过程中,智能体除探索未知区域外,还会按规则主动提出三类问题:属性(目标实例长什么样?)、路线(如何到达目标?)和目标消歧(是否为眼前的实例?),从而生成相应的交互式导航轨迹。

通过该流程,作者构建了大规模交互式实例导航数据以支撑模型训练。下图给出了数据的总体统计。作为首个大规模交互式实例导航数据集,其主要优势在于:

  • 规模:40k导航序列,相比现有交互导航数据集(约7k)提升一个量级
  • 多样性:覆盖150+物体类别与3类问答(属性 / 位置 / 消歧),自由组合形成丰富训练样本;
  • 难度覆盖:包含长时程轨迹(steps > 300)与多轮对话样本(dialog turns > 5),覆盖复杂困难场景。



第一行分别展示了每条轨迹的路径步数、对话轮数和每轮对话长度的频率直方图;第二行展示了问题类型与目标类型的统计结果,以及对话中高频词的词云图。

NPC 支撑的自动化在线评测基准

为了评测智能体完成交互式实例导航(IIGN)的能力,并与非交互式实例导航(IGN)进行对比,VL-LN 基准提供了可用于测试两类任务的测试集。针对交互式实例导航的自动化评测,VL-LN 还实现了一个由 GPT-4o 驱动的 NPC,它能够回答智能体在导航过程中提出的问题。此外,为了评估智能体提问效率,VL-LN 定义新的指标 MSP(Mean Success Progress),用于衡量主动对话带来的增益。

从结果到原因:

交互式实例导航的能力与挑战

通过使用不同的数据对 Qwen2.5-VL-7B-Instruct 进行微调,作者训练了三个模型。具体训练所使用的数据如下:

  • VLLN-O (object):VLN + ObjectNav 轨迹数据
  • VLLN-I (instance):VLN + ObjectNav + IGN 轨迹数据
  • VLLN-D (dialog):VLN + ObjectNav + IIGN 轨迹数据(论文的核心模型)

评测同时覆盖两类任务:

  • IIGN(交互式实例导航):允许提问(对话轮数限制在 5 轮)
  • IGN(实例导航):不允许对话,但提供足以唯一锁定目标实例的全量指令

实验结果如下表所示



为了进一步确定模型在交互式实例导航任务上的性能和瓶颈,研究团队对实验结果进行系统性复盘,并将实验结论总结如下:



VL-LN Bench 错误类型分布



不同对话轮次上限下的 IIGN 性能

对话消歧在任务存在歧义时显著提升成功率:在 IIGN 与 IGN 上,具备提问能力的 VLLN-D 成功率均高于仅会探索的 VLLN-I,成功率分别提升6.0%2.6%。在对话轮次上限消融中,随着上限由0增至5,VLLN-D 的 SR 由15.4%提升至20.2%

物体 — 图像对齐是核心瓶颈:无论在 IIGN 还是 IGN 任务中,约 70% 的失败都源于目标未被成功检测,说明性能瓶颈主要不在导航策略,而在于目标实例与图像观测之间的对齐能力。

相较于全量信息设置,问答机制带来的信息增益仍然有限:VLLN-D 在 IIGN 上的成功率为 20.2%,低于其在无法提问、但具备全量信息的 IGN 上的 21.8%,说明对当前模型而言,对话带来的增益仍弱于信息补全带来的增益。

与人类仍有显著差距:论文设置人类 IIGN 测试(一人负责提问与探索,另一人负责回答),结果显示人类平均仅需2轮对话即可达到93%成功率,表明当前模型与人类水平仍存在巨大差距。

结语

VL-LN Bench 是一个面向长时程交互式实例导航(IIGN)任务的高质量、高挑战且体系完备的评测基准,可系统评估智能体在 3D 环境中的长程探索、实例级目标识别与对话消歧能力。

与此同时,基准配套自动化数据采集管线与 NPC 评测机制,为交互式导航能力的训练与评估提供了一条可规模化、可复现的标准化路径。评测结果清晰表明:引入主动对话能够显著提升智能体在 IIGN 与 IGN 任务中的整体表现,但同时也揭示了当前方法在实例级感知对齐与高信息增益提问策略等关键环节上仍存在明显短板,为未来面向空间智能体的 “会走” 到 “会边走边问” 的技术演进提供了研究方向与启发。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
东北没有黑帮,只有“刀枪炮”:一场对香港百年社团的降维打击

东北没有黑帮,只有“刀枪炮”:一场对香港百年社团的降维打击

黄丽搞笑小能手
2026-04-15 06:27:15
别人对你说“咱俩加个微信”,千万别说 “您扫我还是我扫您?” 高情商的人这样做

别人对你说“咱俩加个微信”,千万别说 “您扫我还是我扫您?” 高情商的人这样做

德鲁克博雅管理
2026-04-23 17:02:27
软件开发最后的一块儿阵地,被AI攻克了......

软件开发最后的一块儿阵地,被AI攻克了......

码农翻身
2026-04-23 08:59:23
伊朗革命卫队已经事实独立

伊朗革命卫队已经事实独立

难得君
2026-03-04 12:29:04
孙杨张豆豆相处太累,男方要人哄女方不撒娇,网友直言二人不适合

孙杨张豆豆相处太累,男方要人哄女方不撒娇,网友直言二人不适合

萌神木木
2026-04-23 17:20:57
陕西榆林32岁男子深陷境外虚拟货币黑平台4年多,近30万元打水漂,抑郁躺平不上班满头白发

陕西榆林32岁男子深陷境外虚拟货币黑平台4年多,近30万元打水漂,抑郁躺平不上班满头白发

大风新闻
2026-04-23 18:44:07
现在,要不要卖?

现在,要不要卖?

力哥说
2026-04-23 20:00:32
忘恩负义的菲律宾指望中国出手,人民日报通报全国,用新措辞回应

忘恩负义的菲律宾指望中国出手,人民日报通报全国,用新措辞回应

春序娱乐
2026-04-24 00:16:14
王者归来!新款奔驰S级国内首发亮相:超50%部件改款焕新

王者归来!新款奔驰S级国内首发亮相:超50%部件改款焕新

快科技
2026-04-23 15:25:06
事实证明,已经“消失”7年的周立波,早已走上一条不归路

事实证明,已经“消失”7年的周立波,早已走上一条不归路

素衣读史
2026-04-16 19:41:20
湖北省纪委监委最新通报

湖北省纪委监委最新通报

新浪财经
2026-04-23 19:10:11
老外刚造出巴掌帽,义乌当天量产十万单,国内外售价相差整整10倍

老外刚造出巴掌帽,义乌当天量产十万单,国内外售价相差整整10倍

趣味萌宠的日常
2026-04-23 18:31:49
连斩20多名将领!美防长血洗部队,陆军部长掀桌,美国军政大分裂

连斩20多名将领!美防长血洗部队,陆军部长掀桌,美国军政大分裂

云舟史策
2026-04-23 07:17:39
1979年开战前,广州军区副司令被军委免职,许世友:此乃兵家大忌

1979年开战前,广州军区副司令被军委免职,许世友:此乃兵家大忌

墨说古今
2026-03-15 23:43:17
死了这条心!人民日报表态:中国不会救菲律宾,马科斯投机到头了

死了这条心!人民日报表态:中国不会救菲律宾,马科斯投机到头了

王姐懒人家常菜
2026-04-23 18:41:11
有色金属行业今日净流出资金175.06亿元,紫金矿业等43股净流出资金超亿元

有色金属行业今日净流出资金175.06亿元,紫金矿业等43股净流出资金超亿元

证券时报
2026-04-23 17:08:22
黄圣依瑞士游学状态封神,一身鹅黄闭眼浅笑,松弛感直接拉满

黄圣依瑞士游学状态封神,一身鹅黄闭眼浅笑,松弛感直接拉满

阿废冷眼观察所
2026-04-22 08:35:53
87年帮村长家晒粮睡偏房,夜里我竟摸到条粗黑辫子,一道女声响起

87年帮村长家晒粮睡偏房,夜里我竟摸到条粗黑辫子,一道女声响起

卡西莫多的故事
2026-04-20 14:44:05
7499元起售,OPPO这台超大杯是真敢卖啊。。。

7499元起售,OPPO这台超大杯是真敢卖啊。。。

差评XPIN
2026-04-23 00:10:47
文章上海餐馆开业5天,终于迎来了第1个捧场的明星!

文章上海餐馆开业5天,终于迎来了第1个捧场的明星!

无处遁形
2026-04-21 06:14:18
2026-04-24 01:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12839文章数 142635关注度
往期回顾 全部

科技要闻

马斯克喊出"史上最大产品",但量产难预测

头条要闻

媒体:海军宣传片出现的"新兵何剑" 传递了巨大信息量

头条要闻

媒体:海军宣传片出现的"新兵何剑" 传递了巨大信息量

体育要闻

给文班剃头的马刺DJ,成为NBA最佳第六人

娱乐要闻

王大陆因涉黑讨债被判 女友也一同获刑

财经要闻

普华永道赔偿10亿 恒大股东见到"回头钱"

汽车要闻

令人惊艳的奇瑞车 风云A9可不只是样子货

态度原创

教育
亲子
时尚
数码
军事航空

教育要闻

家长让老师给发电子版试卷,却被老师指责派头大,到底谁的问题?

亲子要闻

新华读报|打乒乓球有助提高儿童注意力

李昀锐:林深见木

数码要闻

799元!小米推出米家无线吸尘器4C:170AW大吸力、75分钟长续航

军事要闻

人民海军成立77周年 主力舰艇亮相上海

无障碍浏览 进入关怀版