网易首页 > 网易号 > 正文 申请入驻

NUS邵林团队发布Goal-VLA:零样本机器人操作新突破!

0
分享至



本文的共同第一作者为新加坡国立大学博士生陈浩楠,新加坡国立大学硕士生郭京翔。合作者为汪邦骏、张添睿、黄叙川、郑博仁、侯懿文、铁宸睿、邓家俊。通讯作者为新加坡国立大学计算机学院助理教授邵林,研究方向为机器人和人工智能。

在具身智能领域,机器人操作的泛化能力一直是一个核心挑战。当前,视觉 - 语言 - 动作(VLA)模型主要分为两大范式:端到端模型与分层模型。端到端 VLA 模型(如 RT-2 [1], OpenVLA [2])严重依赖海量的 “指令 - 视觉 - 动作” 成对数据,获取成本极高,导致其在面对新任务或新场景时零样本泛化能力受限。

另一方面,分层 VLA 模型试图通过引入视觉语言模型(VLM)作为高层规划器来缓解数据依赖,但其生成的中间表示(如语言描述 [3]、关键点 [4] 或价值图 [5])往往缺乏复杂操作所需的精确几何细节,或者需要底层策略进行额外的动作数据训练。

为了突破这一瓶颈,来自新加坡国立大学(NUS)的邵林团队提出了一种全新的解耦式分层框架 ——Goal-VLA。该研究创新性地将图像生成式 VLM 作为 “以物体为中心的世界模型”,在无需任何任务特定微调和成对动作数据的情况下,实现了强大的零样本机器人操作能力。

目前,该论文已被机器人领域顶级会议 IEEE International Conference on Robotics & Automation(ICRA 2026)接收。



  • 论文标题:Goal-VLA: Image-Generative VLMs as Object-Centric World Models Empowering Zero-shot Robot Manipulation
  • 论文链接:https://arxiv.org/abs/2506.23919
  • 项目主页:https://nus-lins-lab.github.io/goalvlaweb/

Goal-VLA:物体目标状态作为连接高低层策略的接口

Goal-VLA 的核心洞察是使用物体目标状态表示来连接高层语义推理与底层动作控制。

与受限于特定机器人运动学的传统智能体中心(Agent-centric)世界模型不同,Goal-VLA 的世界模型聚焦于图像空间中的语义目标,即需要操作的物体的目标位姿。这使得系统可以将高层规划与底层控制彻底解耦:高层 VLM 提供泛化性极强的视觉目标,专门的空间基准模块将其转化为明确的空间指导,最终由免训练的底层策略完成物理执行。整个框架仅需用户的自然语言指令和单视角 RGB-D 图像即可运行,无需预先扫描地图或已知物体网格。



Goal-VLA 的执行流程分为三个关键阶段:

1. 目标状态推理(Goal State Reasoning)



该模块负责将用户抽象的自然语言指令转化为具体且合理的视觉目标。系统首先利用文本 VLM 丰富用户的简短指令,将简短指令转化为包含丰富细节的提示词。 图像生成 VLM(Gemini 2.5 Flash-image)据此生成候选目标图像。为了解决生成图像可能存在的物理或语义不合理性,研究团队提出了一种迭代的 “合成 - 反思”(Reflection-through-Synthesis)机制。为了让验证模型能够清晰地评估该图像的物理可行性,系统使用 Grounded SAM [6] 从候选图像中分割出目标物体,并将其作为 “虚拟目标” 半透明地叠加到初始场景图像上。评估模型(Reflector VLM)对合成图像进行审查。若生成的图像不符合任务语义(例如目标物体的位置不可达或者错误),Reflector 会输出包含纠正反馈的修改提示,指导生成器重新生成,直至目标图像被验证通过 或者达到最大迭代次数。



2. 空间基准计算(Spatial Grounding)



该模块负责将 2D 视觉目标转化为精确的 3D 空间变换。由于生成的目标图像在实例级外观上可能存在偏差,传统的光流估计容易失效。为了解决这个问题,Goal-VLA 提取像素级语义特征,通过计算相似度来建立初始帧与目标帧之间的像素匹配。结合初始真实深度图与目标预测深度图(使用 Depth Anything V2 [7] 估计并经深度对齐校准),系统将 2D 像素提升为 3D 点云 ,并使用 Umeyama 算法 [8] 求解出最优的旋转(Rotation)和平移(Translation)矩阵。

3. 底层策略(Low-level Policy)



底层策略将高层提供的物体目标位姿转化为可执行动作。接触模块在物体点云表面采样,并筛选出无碰撞的最优接触位姿(例如抓取的姿态)。系统假设抓取后夹爪与物体的相对位姿保持不变,将空间基准模块计算出的物体变换矩阵应用于夹爪,推导出最终的目标位姿。最后,运动规划器(Motion Planning Module)生成从当前构型到目标位姿的无碰撞轨迹,完成任务执行。

实验结果与分析

研究团队在 RLBench [9] 仿真环境(8 个任务)和真实的 UFACTORY X-ARM 7 机械臂(4 个任务)上进行了广泛的评估。所有评估均在严格的零样本设定下进行。

仿真环境基准测试 (RLBench)



在 RLBench 的 8 个涵盖抓取、放置、插拔等复杂技能的任务中(每个任务测试 100 次),Goal-VLA 展现了显著的性能提升,实现了59.9% 的平均成功率。相比之下,基于关键点的分层模型 MOKA [4] 仅为 26.0%。而严重依赖带有动作成对数据的端到端模型 OpenVLA [2] 和 Pi0 [10],在未经过微调的零样本测试中几乎完全失败。

真实世界机械臂实验



研究团队使用 7-DOF UFACTORY X-ARM 7 机械臂测试了 4 个具有挑战性的物理任务:番茄入锅(测试包含关系的推理)、桌面清扫(测试工具使用和间接操作)、精确称重(测试高精度放置)以及直立瓶子(测试姿态重定向)。

Goal-VLA 达到了60% 的平均成功率,远超其他基线方法。这一结果证明了 Goal-VLA 生成显式 3D 目标位姿的策略,能够为真实世界中的复杂操作提供精确的空间指导。

仿真环境与真实实验共同证明,Goal VLA 框架能够实现跨物体、跨环境、跨任务和跨本体的零样本执行能力。

消融实验



研究团队对高层推理模块进行了消融分析。单独增加输入提示词增强(Input Enhancement)带来了 27.5% 的成功率提升。而完整的 “合成 - 反思” 循环机制,将模型的基础成功率从 40.0% 跃升至 83.8%,当允许最大 3 次反思迭代时,成功率进一步攀升至 88.8%。这证明了视觉反馈和自我纠正在图像生成过程中的必要性。

总结

Goal-VLA 为解决机器人操作泛化难题提供了一种具有高度启发性的解耦范式。其核心贡献在于:

  • 引入图像生成式 VLM 作为 “以物体为中心的世界模型”,生成目标物体状态并将其作为高层语义推理与底层动作控制之间的桥梁。
  • 通过 “合成 - 反思” 迭代机制,将生成的虚拟目标图像叠加到当前观测场景中进行视觉审查与修正,大幅提升了生成目标的物理可行性。
  • 在完全不需要训练和任务特定微调的情况下,Goal-VLA 在仿真与真实世界中,跨越不同的操作任务、环境、物体类别甚至机器人本体,均展现出了稳定的零样本泛化能力。

参考文献

[1] Zitkovich, Brianna, et al. "Rt-2: Vision-language-action models transfer web knowledge to robotic control." Conference on Robot Learning. PMLR, 2023.

[2] Kim, Moo Jin, et al. "Openvla: An open-source vision-language-action model." arXiv preprint arXiv:2406.09246 (2024).

[3] Ahn, Michael, et al. "Do as i can, not as i say: Grounding language in robotic affordances." arXiv preprint arXiv:2204.01691 (2022).

[4] Liu, Fangchen, et al. "Moka: Open-world robotic manipulation through mark-based visual prompting." arXiv preprint arXiv:2403.03174 (2024).

[5] Huang, Wenlong, et al. "Voxposer: Composable 3d value maps for robotic manipulation with language models." arXiv preprint arXiv:2307.05973 (2023).

[6] Ren, Tianhe, et al. "Grounded sam: Assembling open-world models for diverse visual tasks." arXiv preprint arXiv:2401.14159 (2024).

[7] Yang, Lihe, et al. "Depth anything v2." Advances in Neural Information Processing Systems 37 (2024): 21875-21911.

[8] Umeyama, Shinji. "Least-squares estimation of transformation parameters between two point patterns." IEEE Transactions on pattern analysis and machine intelligence 13.4 (2002): 376-380.

[9] James, Stephen, et al. "Rlbench: The robot learning benchmark & learning environment." IEEE Robotics and Automation Letters 5.2 (2020): 3019-3026.

[10] Black, Kevin, et al. "$\pi_0 $: A Vision-Language-Action Flow Model for General Robot Control." arXiv preprint arXiv:2410.24164 (2024).

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
40天血战成本曝光!伊朗损失1450亿,美国砸310亿:谁更扛不住?

40天血战成本曝光!伊朗损失1450亿,美国砸310亿:谁更扛不住?

云舟史策
2026-04-12 07:56:13
格拉斯纳:再拿11分能刷新队史英超积分纪录,这是我们的目标

格拉斯纳:再拿11分能刷新队史英超积分纪录,这是我们的目标

懂球帝
2026-04-13 00:34:02
曲乐恒现状:出行靠轮椅,父母照顾他的生活,49岁无人敢嫁给他

曲乐恒现状:出行靠轮椅,父母照顾他的生活,49岁无人敢嫁给他

哄动一时啊
2026-04-12 14:29:33
14公斤火药被引爆,炸掉7米高内塔尼亚胡塑像,人群爆发出欢呼声!以方谴责西班牙:展现出骇人的反犹仇恨

14公斤火药被引爆,炸掉7米高内塔尼亚胡塑像,人群爆发出欢呼声!以方谴责西班牙:展现出骇人的反犹仇恨

每日经济新闻
2026-04-12 20:30:04
张柏芝电梯照流出,身材太性感了!

张柏芝电梯照流出,身材太性感了!

动物奇奇怪怪
2026-04-12 17:38:06
知名演员因前夫负债被迫接戏,坦言离婚后“不知道自己有1000万元的债,为还债一天拍42场戏”

知名演员因前夫负债被迫接戏,坦言离婚后“不知道自己有1000万元的债,为还债一天拍42场戏”

扬子晚报
2026-04-11 15:28:12
抗日神剧不可信:一个日本摄影师,1940年拍的鬼子进村

抗日神剧不可信:一个日本摄影师,1940年拍的鬼子进村

兵卒史
2026-04-12 03:18:32
甜甜圈大王王伟恒要被遣返了?在美表忠心多年,反成替罪羊

甜甜圈大王王伟恒要被遣返了?在美表忠心多年,反成替罪羊

橙星文娱
2026-04-12 13:21:55
何猷君深夜悼念何超蕸!赌王17子女仅剩14人,独苗孙子太扎心了

何猷君深夜悼念何超蕸!赌王17子女仅剩14人,独苗孙子太扎心了

小樾说历史
2026-04-13 05:15:54
女子独自带5岁女儿和未满1岁儿子到餐厅用餐,女儿不幸从包间窗户坠亡……法院判了:餐厅赔近74万元,母亲担责三成

女子独自带5岁女儿和未满1岁儿子到餐厅用餐,女儿不幸从包间窗户坠亡……法院判了:餐厅赔近74万元,母亲担责三成

极目新闻
2026-04-12 18:00:56
场均19分,年薪5960万却是联盟第一!属于你的时代也该结束了

场均19分,年薪5960万却是联盟第一!属于你的时代也该结束了

老梁体育漫谈
2026-04-12 22:58:01
广州管道燃气价格和广州地铁票价格或将涨价!

广州管道燃气价格和广州地铁票价格或将涨价!

娱乐圈的笔娱君
2026-04-13 06:34:41
郑丽文刚回到台湾,民进党就发难,民众党摊牌,侯友宜彻底不装了

郑丽文刚回到台湾,民进党就发难,民众党摊牌,侯友宜彻底不装了

小撇说事
2026-04-13 00:15:42
国民党副主席李乾龙,七八十岁老人走完392级台阶,每一步都作数

国民党副主席李乾龙,七八十岁老人走完392级台阶,每一步都作数

阿天爱旅行
2026-04-12 21:47:18
万斯演讲:美国亲手拆了自己建的世界,这是苏联解体后最大变局

万斯演讲:美国亲手拆了自己建的世界,这是苏联解体后最大变局

通文知史
2026-04-12 08:50:08
太原赛5冠全部诞生!国乒拿4金 产生3个意想不到 温瑞博+向鹏上榜

太原赛5冠全部诞生!国乒拿4金 产生3个意想不到 温瑞博+向鹏上榜

侃球熊弟
2026-04-12 19:39:33
伊朗伊斯兰革命卫队海军发出警告

伊朗伊斯兰革命卫队海军发出警告

财联社
2026-04-12 22:23:06
访陆结束,郑丽文行程画上句号,从北京临走之前,终于看到了答案

访陆结束,郑丽文行程画上句号,从北京临走之前,终于看到了答案

让心灵得以栖息
2026-04-12 21:16:13
损伤闺蜜6.8万紫貂大衣女子发声:她工作丢了,要把闺蜜送进去

损伤闺蜜6.8万紫貂大衣女子发声:她工作丢了,要把闺蜜送进去

江山挥笔
2026-04-12 09:32:03
7场仅1球!姆巴佩断崖式下跌:皇马头号难题 2大巨星互斥

7场仅1球!姆巴佩断崖式下跌:皇马头号难题 2大巨星互斥

叶青足球世界
2026-04-13 09:03:49
2026-04-13 10:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12733文章数 142623关注度
往期回顾 全部

科技要闻

李想向黑水军开炮!连发5条朋友圈

头条要闻

伊朗公布美方三大"无理要求":要均分霍尔木兹海峡收益

头条要闻

伊朗公布美方三大"无理要求":要均分霍尔木兹海峡收益

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

封锁,还是收费站?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

时尚
数码
艺术
旅游
公开课

这些才是普通人借鉴的穿搭!上短下长、上窄下宽,显瘦又舒适

数码要闻

联芸将开发PCIe Gen6消费级SSD主控MAP2001,瞄准28GB/s

艺术要闻

毛主席致杨老太太罕见书信曝光,书法之美引发热议!

旅游要闻

提质焕新 文旅融合 | 趵突泉酒业·泉香酒庄获3A级景区授牌

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版