网易首页 > 网易号 > 正文 申请入驻

VL-LN Bench:模拟「边走边问找具体目标」的真实导航场景

0
分享至

来源:市场资讯

(来源:机器之心)


本工作由上海人工智能实验室、中国科学技术大学、浙江大学、香港大学 的研究者们共同完成。


  • 论文标题:VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs

  • 项目主页:https://0309hws.github.io/VL-LN.github.io/

  • ArXiv 论文:https://arxiv.org/abs/2512.22342

  • Hugging Face 数据集: https://huggingface.co/datasets/InternRobotics/VL-LN-Bench

  • Hugging Face 模型:https://huggingface.co/InternRobotics/VL-LN-Bench-basemodel

  • GitHub 代码库:https://github.com/InternRobotics/VL-LN

交互式实例导航任务

(Interactive Instance Goal Navigation, IIGN)

如果将一台在视觉语言导航(VLN)任务中表现优异的机器人直接搬进家庭场景,往往会遇到不少实际问题。

首先是使用门槛偏高:传统 VLN 需要用户给出又长又精确的路线式指令,例如 “从门口直走三步,看到门右转,再往前……”,这会显著增加沟通成本,降低日常使用体验。

相比之下,人们更期待一种更自然的交互方式,比如只用随口一句 “找到我的背包” 即可。这样的设定更接近目标物体导航(ObjectNav)任务,但它也存在明显不足:机器人只会找到场景内任意一个背包交差,而无法定位用户真正需要的书包,这显然无法满足需求。

正因为真实场景里用户的表达常常简短且含糊,而机器人又必须把目标精确落实到某一个具体实例上,交互式实例导航才显得格外关键。机器人既不能指望用户一开始就把所有信息交代清楚,也不能用 “找到同类就算完成” 的方式草草应付;相反,它应在探索过程中主动提问、逐步澄清歧义,像人一样把 “到底是哪一个” 问明白,再高效准确地完成用户的需求。


交互式实例导航示例:用户要求机器人找到场景中某一张凳子(绿框),但存在大量相似干扰项(红框),因此机器人需在探索中结合观察主动提问,逐步缩小候选范围,直到锁定目标。

构建 VL-LN 基准:

面向 IIGN 任务的自动化数据收集及评测

语言交互是人们日常交互最常见的形式之一,具身智能体要更好地融入人类生活也需要具有进行这种高效的信息交流形式的能力。不同于传统 VLN 仅仅聚焦 “导航动作(Navigation)执行得好不好”,VL-LN 还关注机器人能否在导航过程中与人类进行高效的语言交互(Language+Navigation)来提升任务的成功率与效率。

为此,VL-LN 面向交互式实例导航任务构建了一套自动化数据收集管线,并依托 InternVLA-N1 标准化模型训练与评测。

自动化数据收集管线


交互式实例导航数据收集流程

数据收集包含三个步骤,作者首先整理了场景元数据,进而生成能用于在线采样的序列(episode)数据,最后在规则驱动的交互机制下批量采集交互导航训练轨迹(trajectory),具体内容包括:

场景元数据处理:基于 MMScan 对 MP3D 场景的标注信息,将按房间分散的物体信息整合成全屋级的元数据,主要包括两个字典:目标实例字典(instance dictionary,存储每个物体的空间关系、属性等基本信息)和区域字典(region dictionary,存储房间的位置、物体等信息)

序列生成:每个有效序列由起始位姿、导航指令、目标实例的可停止视点三个主要信息组成。针对每一个目标实例作者均提供两个版本的导航指令。一种导航指令只有目标实例的类别(Partial instruction,用于交互式实例导航任务,必须靠对话消歧),另一种导航指令是能在场景内唯一锁定目标实例的完整描述(Full instruction,可用于评测训练非交互的任务)。可停止视点(view point)指机器人在导航过程中可以合法停止并判定 “已找到目标” 的一组视点位置。

交互导航轨迹采集:该阶段主要采用一个集成了基于边界点的探索算法(Frontier-Based Exploration)与目标实例分割器的智能体。在数据采集过程中,智能体除探索未知区域外,还会按规则主动提出三类问题:属性(目标实例长什么样?)、路线(如何到达目标?)和目标消歧(是否为眼前的实例?),从而生成相应的交互式导航轨迹。

通过该流程,作者构建了大规模交互式实例导航数据以支撑模型训练。下图给出了数据的总体统计。作为首个大规模交互式实例导航数据集,其主要优势在于:

  • 规模:约 40k 导航序列,相比现有交互导航数据集(约 7k)提升一个量级;

  • 多样性:覆盖 150+ 物体类别与 3 类问答(属性 / 位置 / 消歧),自由组合形成丰富训练样本;

  • 难度覆盖:包含长时程轨迹(steps > 300)与多轮对话样本(dialog turns > 5),覆盖复杂困难场景。


第一行分别展示了每条轨迹的路径步数、对话轮数和每轮对话长度的频率直方图;第二行展示了问题类型与目标类型的统计结果,以及对话中高频词的词云图。

NPC 支撑的自动化在线评测基准

为了评测智能体完成交互式实例导航(IIGN)的能力,并与非交互式实例导航(IGN)进行对比,VL-LN 基准提供了可用于测试两类任务的测试集。针对交互式实例导航的自动化评测,VL-LN 还实现了一个由 GPT-4o 驱动的 NPC,它能够回答智能体在导航过程中提出的问题。此外,为了评估智能体提问效率,VL-LN 定义新的指标 MSP(Mean Success Progress),用于衡量主动对话带来的增益。

从结果到原因:

交互式实例导航的能力与挑战

通过使用不同的数据对 Qwen2.5-VL-7B-Instruct 进行微调,作者训练了三个模型。具体训练所使用的数据如下:

  • VLLN-O (object):VLN + ObjectNav 轨迹数据

  • VLLN-I (instance):VLN + ObjectNav + IGN 轨迹数据

  • VLLN-D (dialog):VLN + ObjectNav + IIGN 轨迹数据(论文的核心模型)

评测同时覆盖两类任务:

  • IIGN(交互式实例导航):允许提问(对话轮数限制在 5 轮)

  • IGN(实例导航):不允许对话,但提供足以唯一锁定目标实例的全量指令

实验结果如下表所示


为了进一步确定模型在交互式实例导航任务上的性能和瓶颈,研究团队对实验结果进行系统性复盘,并将实验结论总结如下:


VL-LN Bench 错误类型分布


不同对话轮次上限下的 IIGN 性能

对话消歧在任务存在歧义时显著提升成功率:在 IIGN 与 IGN 上,具备提问能力的 VLLN-D 成功率均高于仅会探索的 VLLN-I,成功率分别提升 6.0% 与 2.6%。在对话轮次上限消融中,随着上限由 0 增至 5,VLLN-D 的 SR 由 15.4% 提升至 20.2%。

物体 — 图像对齐是核心瓶颈:无论在 IIGN 还是 IGN 任务中,约 70% 的失败都源于目标未被成功检测,说明性能瓶颈主要不在导航策略,而在于目标实例与图像观测之间的对齐能力。

相较于全量信息设置,问答机制带来的信息增益仍然有限:VLLN-D 在 IIGN 上的成功率为 20.2%,低于其在无法提问、但具备全量信息的 IGN 上的 21.8%,说明对当前模型而言,对话带来的增益仍弱于信息补全带来的增益。

与人类仍有显著差距:论文设置人类 IIGN 测试(一人负责提问与探索,另一人负责回答),结果显示人类平均仅需 2 轮对话即可达到 93% 成功率,表明当前模型与人类水平仍存在巨大差距。

结语

VL-LN Bench 是一个面向长时程交互式实例导航(IIGN)任务的高质量、高挑战且体系完备的评测基准,可系统评估智能体在 3D 环境中的长程探索、实例级目标识别与对话消歧能力。

与此同时,基准配套自动化数据采集管线与 NPC 评测机制,为交互式导航能力的训练与评估提供了一条可规模化、可复现的标准化路径。评测结果清晰表明:引入主动对话能够显著提升智能体在 IIGN 与 IGN 任务中的整体表现,但同时也揭示了当前方法在实例级感知对齐与高信息增益提问策略等关键环节上仍存在明显短板,为未来面向空间智能体的 “会走” 到 “会边走边问” 的技术演进提供了研究方向与启发。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全年预亏百亿,闻泰科技跌停

全年预亏百亿,闻泰科技跌停

第一财经资讯
2026-02-02 16:14:23
美媒报道:2008年跳楼自杀的顶级模特鲁斯拉娜,的确是萝莉岛女孩

美媒报道:2008年跳楼自杀的顶级模特鲁斯拉娜,的确是萝莉岛女孩

老范谈史
2025-12-24 17:24:57
武汉龙门吊砸中白车1死1伤!黑车车主曝细节,一个举动救了他一命

武汉龙门吊砸中白车1死1伤!黑车车主曝细节,一个举动救了他一命

深析古今
2026-02-02 09:45:02
相亲吃饭后男方失联,女方花8000元独自买单,律师:男子行为或构成不当得利

相亲吃饭后男方失联,女方花8000元独自买单,律师:男子行为或构成不当得利

环球网资讯
2026-02-01 13:52:32
雷军:个别车商为蹭流量说小米二手车崩盘,实际上我们排在第一位

雷军:个别车商为蹭流量说小米二手车崩盘,实际上我们排在第一位

IT之家
2026-02-01 22:42:09
大S忌日前夕,67岁张兰是这样做的,撕碎了S家仅剩的“体面”

大S忌日前夕,67岁张兰是这样做的,撕碎了S家仅剩的“体面”

陈意小可爱
2026-02-02 15:20:07
正义的谎言 —— 失业是因为民企提高了剥削率?

正义的谎言 —— 失业是因为民企提高了剥削率?

生命可以承受之轻
2026-01-31 16:38:49
刘强东小妹近照曝光,一头长发打扮时髦,妈妈干活她在院里溜达!

刘强东小妹近照曝光,一头长发打扮时髦,妈妈干活她在院里溜达!

古希腊掌管松饼的神
2026-01-31 17:00:17
卡塔尔、埃及、约旦、阿联酋、印尼、巴基斯坦、土耳其、沙特,八国发表联合声明

卡塔尔、埃及、约旦、阿联酋、印尼、巴基斯坦、土耳其、沙特,八国发表联合声明

新京报政事儿
2026-02-01 22:37:12
客战步行者,杜兰特缺阵!火箭变阵无悬念,奥科吉伊森或同时首发

客战步行者,杜兰特缺阵!火箭变阵无悬念,奥科吉伊森或同时首发

熊哥爱篮球
2026-02-02 18:46:55
福建南安致2死6伤电力施工爆炸事故调查报告发布

福建南安致2死6伤电力施工爆炸事故调查报告发布

界面新闻
2026-02-02 11:40:10
日本秋叶原咖啡店关门,门口用多国语言表示感谢,但是中文却只写“请勿入内

日本秋叶原咖啡店关门,门口用多国语言表示感谢,但是中文却只写“请勿入内

日本物语
2026-01-31 20:34:19
灰色丝袜:你说你是最爱我的

灰色丝袜:你说你是最爱我的

疾跑的小蜗牛
2026-02-02 10:47:33
输麻了!54分+53分!篮网对小波特要价曝光

输麻了!54分+53分!篮网对小波特要价曝光

篮球实战宝典
2026-02-02 18:03:08
吴京再次失手,新片上映8天票房1200万,投资血本无归

吴京再次失手,新片上映8天票房1200万,投资血本无归

乐悠悠娱乐
2026-01-31 11:04:02
刺青:疼痛赋予的永恒草图

刺青:疼痛赋予的永恒草图

疾跑的小蜗牛
2026-02-01 20:43:39
库明加+4首轮,勇士报价断层领先,但雄鹿想要巴特勒还是格林?

库明加+4首轮,勇士报价断层领先,但雄鹿想要巴特勒还是格林?

奕辰说球
2026-02-02 11:54:03
阿里千问App投入30亿元启动“春节请客计划”,2月6日上线

阿里千问App投入30亿元启动“春节请客计划”,2月6日上线

IT之家
2026-02-02 10:36:20
纽约期金突破4890美元/盎司,日内涨3.07%

纽约期金突破4890美元/盎司,日内涨3.07%

每日经济新闻
2026-02-02 08:30:10
张小斐瘦得胸都没有了,居然还有小肚子,可见减肥真的太难了!

张小斐瘦得胸都没有了,居然还有小肚子,可见减肥真的太难了!

喜欢历史的阿繁
2026-02-02 12:03:34
2026-02-02 20:16:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2072801文章数 5332关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

捧红王菲、那英的袁惟仁走了 曾被陶晶莹公开调侃

头条要闻

捧红王菲、那英的袁惟仁走了 曾被陶晶莹公开调侃

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

亲子
手机
本地
旅游
军事航空

亲子要闻

萌娃和爸爸抢妈妈,逻辑太强了,让爸爸无奈苦笑

手机要闻

苹果出手,隔空投送白嫖FCP失灵了

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

旅游要闻

普陀:林水相依、四季有景,这座环上公园正式开放

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版