网易首页 > 网易号 > 正文 申请入驻

打破2D视觉枷锁,全新端到端框架GeoVLA重构机器人空间感知

0
分享至





论文名称: GeoVLA: Empowering 3D Representation in Vision-Language-Action Models

在具身智能的浪潮中,VLA 模型被视为通往通用机器人的快车道。然而,随着研究深入到非结构化环境,现有 VLA 模型面临着一个严重的维度缺陷:空间失明。

目前,大多数 VLA 模型(比如 OpenVLA、RT-2、Pi0、Pi05)单纯依赖 2D RGB 图像作为视觉输入,导致模型眼中的世界“纸片化”,严重缺乏深度信息和几何先验;由此带来的后果是:

深度感知缺失:面对需要精确距离判断的任务,比如精准投篮、挂扣环,2D 模型往往“抓瞎”,无法准确预测 Z 轴的动作。

空间适应性差:一旦物体尺寸发生变化(Scale Variance)或相机视角发生偏移(Viewpoint Shift),便无法理解物体在空间中的本质位置,导致任务失败。



图 1:GeoVLA 整体示意图

Dexmal 原力灵机作者团队提出一种全新的 VLA 框架 GeoVLA,它在保留现有视觉-语言模型(VLM)的预训练能力的同时,采用了一种优雅的双流架构(Dual-path Architecture)。

具体而言,GeoVLA 在保留 VLM 强大的语义理解能力的同时,引入专用的点云嵌入网络 PEN 和空间感知动作专家 3DAE,直接利用深度图生成的点云数据,赋予机器人真正的三维几何感知能力。

这一设计不仅在仿真环境中取得 SOTA,更在真实世界的鲁棒性测试中,特别是在视角改变和物体尺度变化的极端条件下,展现出惊人的适应力。

方法框架

常见的做法试图让一个 VLM 既懂语义又懂几何,这往往顾此失彼;GeoVLA 的核心逻辑是选择把任务解耦:让 VLM 负责“看懂是什么”,让点云网络负责“看清在哪里”。



图2:GeoVLA 框架图

GeoVLA 是一个全新的端到端框架,其流程包含三个关键组件的协同工作:

语义理解流:利用预训练的 VLM(如 Prismatic-7B)处理 RGB 图像和语言指令,提取融合后的视觉-语言特征。

几何感知流:利用点云嵌入网络 PEN 处理由深度图转换而来的点云,独立提取高精度的 3D 几何特征。

动作生成流:通过3D 增强动作专家 3DAE 融合上述两种特征,生成精确的动作序列。

点云嵌入网络 PEN



图 3:双路径点云嵌入网络细节图

原始深度图往往包含大量噪声,且数据稀疏,直接作为输入效果不佳。点云嵌入网络 PEN 专为机器人操作设计,采用双路径架构来提取干净且紧凑的几何特征:

几何特征提取:使用大核卷积和局部池化的轻量级 CNN,将非结构化的点云编码为 Patch 级别的几何 Token。

空间位置编码:引入在大语言模型中常见的旋转位置编码 RoPE,它能极好地保留 3D 空间中的相对位置信息,这对于操作任务至关重要。

空间锚点(Spatial Anchor)设计是 PEN 的一大亮点。作者团队并没有简单地对所有点云特征进行平均池化,而是选择对应于末端执行器坐标原点的 Token 作为“锚点”。这种以“手”为中心的视角设计,让模型能够显式地建模“手”与“物体”之间的几何关系,大幅提升操作精度。

3D 增强动作专家 3DAE

特征提取只是第一步,如何有效融合 RGB 的语义信息和点云的几何信息,实现1+1>2的效果,是多模态研究当中的难点。作者团队在动作生成端采用基于扩散 Transformer (DiTs) 的架构,并创新性地引入混合专家 (MoE) 机制。

静态路由策略 (Static Routing):这是一个直觉且有效的策略。在训练过程中,由于 VLM 分支是预训练的,而点云分支是从头开始学,如果使用常规的动态路由,模型会倾向于走捷径,只依赖 VLM 分支,忽略点云信息。

强制解耦:作者团队采用了静态路由,随机丢弃某种模态,逼迫模型必须学会独立利用几何信息来解决问题,从而确保了双流信息的有效融合。

实验结果

GeoVLA 在仿真和真机实验中均展现出对传统 2D VLA 模型的压倒性优势,证明显式 3D 表征在复杂操作中的不可替代性。

仿真环境测试结果



表 1:LIBERO 评测结果

在 LIBERO 基准测试中,GeoVLA 超越所有任务套件。在最具挑战性的 LIBERO-90(长程多任务)中,GeoVLA 达到 97.7% 的成功率,超越之前的 SOTA 方法 OpenVLA-OFT (95.3%) 和 CogACT (93.2%)。



表 2:ManiSkill2 评测结果

在物理仿真更为逼真的 ManiSkill2 中,GeoVLA 优势更加明显,平均成功率达到 77%,大幅领先 Dita (66%) 和 CogACT (69%);特别是在 PickClutterYCB 这种物体堆叠杂乱、遮挡严重的任务中,GeoVLA 凭借点云带来的几何理解,保持了极高的操作精度。

真机环境与鲁棒性测试



图 4:真机实验任务的变体展示

作者团队使用 WidowX-250s 机械臂进行了广泛的真机测试;实验被分为“基础任务”和“3D 感知任务”。在域内任务中,GeoVLA 在基础任务上平均成功率 95.0%,在 3D 感知任务上为 77.5%,总体平均 86.3%,大幅领先 Pi0 (57.5%) 和 CogACT (76.3%)。特别是在 Put Basketball 和 Put Hairclip 等需要精确空间理解的任务中,GeoVLA 表现出更好的鲁棒性。



表 4:真机任务评测结果

更令人印象深刻的是 GeoVLA 在分布外(OOD)场景下的鲁棒性,这也是 GeoVLA 最核心的突破点:



表 5(左):投篮任务变体的评测结果;表 6(右):套娃任务变体的评测结果

投篮任务变体(高度变化):当篮筐高度被调整到训练数据未覆盖的最高位置 (H1) 时,依赖 2D 视觉的 CogACT 和 Pi0 彻底失效,成功率降至 20%;而 GeoVLA 凭借点云信息,依然保持 60% 的成功率。

套娃任务变体(尺寸变化):面对比训练时大一号的套娃,2D 模型往往因为像素特征不匹配而无法识别;GeoVLA 则通过几何形状匹配,保持了 80% 的高成功率。

堆叠积木任务变体(视角变化):堆叠积木时,当相机视角偏移 45°,CogACT 成功率直接归零,说明 2D 模型极度依赖特定视角的像素记忆;而 GeoVLA 依然稳健,保持 70% 的成功率,证明其学到了真正的 3D 空间结构。

胡萝卜任务变体(移除海绵垫):训练时使用的海绵垫在推理阶段被移除,胡萝卜位置被降低,导致大多数方法抓取胡萝卜失败;GeoVLA 则能更稳定且成功抓取,展现出更强的泛化能力。

结论

本文中,Dexmal 原力灵机作者团队提出 GeoVLA,通过引入点云嵌入网络 PEN 和 3D 增强动作专家 3DAE,成功打破 VLA 模型在 3D 物理世界中的“感知壁垒”。

这项工作有力证明在端到端的机器人学习中,显式引入 3D 几何表征是提升模型泛化能力和鲁棒性的关键。GeoVLA 不仅解决了传统 VLA 模型“看得见但摸不准”的难题,更为未来具身智能迈向更复杂、更开放的非结构化环境提供了一种高效且优雅的解决方案。

特别是其双路径并行设计和静态路由策略,为多模态融合提供了一个极具参考价值的范式:既保留了大模型的通用语义知识,又补齐了物理世界的几何常识。对于追求精确操控的具身智能领域而言,GeoVLA 可能是一个重要的里程碑,标志着 VLA 模型从“看图说话”向“空间智能”的实质性跨越。

参考文献

Chengmeng Li, Junjie Wen, Yan Peng, Yaxin Peng, Feifei Feng, and Yichen Zhu. Pointvla: Injecting the 3d world into vision-language-action models. arXiv preprint arXiv:2503.07511, 2025.

Delin Qu, Haoming Song, Qizhi Chen, Yuanqi Yao, Xinyi Ye, Yan Ding, Zhigang Wang, JiaYuan Gu, Bin Zhao,Dong Wang, and Xuelong Li. Spatialvla: Exploring spatial representations for visual-language-action model. In Robotics: Science and Systems (RSS), 2025.

Zhi Hou, Tianyi Zhang, Yuwen Xiong, Haonan Duan, Hengjun Pu, Ronglei Tong, Chengyang Zhao, Xizhou Zhu,Yu Qiao, Jifeng Dai, and Yuntao Chen. Dita: Scaling diffusion transformer for generalist vision-language-action policy. arXiv preprint arXiv:2503.19757, 2025.

{Moo Jin} Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, and Chelsea Finn. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246

Li Qixiu, Liang Yaobo, Wang Zeyu, Luo Lin, Chen Xi, Liao Mozheng, Wei Fangyun, Deng Yu, Xu Sicheng, Zhang Yizhong, and others. CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation. arXiv preprint arXiv:2411.19650.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不打伊朗了?特朗普通告全球,战争费由22国买单,中方亮明态度

不打伊朗了?特朗普通告全球,战争费由22国买单,中方亮明态度

百科密码
2026-04-08 17:03:31
俄罗斯没想到,美国也没料到,如今中国石油早已转型成为全球老大

俄罗斯没想到,美国也没料到,如今中国石油早已转型成为全球老大

兴史兴谈
2026-04-08 11:55:32
砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

娱乐圈的笔娱君
2026-03-26 12:15:32
良苦用心!杜锋正在下一盘大棋

良苦用心!杜锋正在下一盘大棋

体育哲人
2026-04-08 20:45:37
分手29年后,肖战成国乒副总教练,而她嫁给富商,已是大学教授

分手29年后,肖战成国乒副总教练,而她嫁给富商,已是大学教授

做一个合格的吃瓜群众
2026-04-06 10:16:48
时隔6年,那个曾扬言让中国给全世界道歉,被央视开除的阿丘怎样了

时隔6年,那个曾扬言让中国给全世界道歉,被央视开除的阿丘怎样了

阅微札记
2026-04-07 15:01:54
安徽女童遇害后续:凶手老底被扒,与丈夫常年分居,游手好闲

安徽女童遇害后续:凶手老底被扒,与丈夫常年分居,游手好闲

社会日日鲜
2026-04-08 20:45:40
毕业生破1270万!2026下半年开始,大部分家庭将直面“4大难题”

毕业生破1270万!2026下半年开始,大部分家庭将直面“4大难题”

复转这些年
2026-04-05 18:00:42
伊朗重要石化厂和铝厂遭美以空袭

伊朗重要石化厂和铝厂遭美以空袭

新华社
2026-04-08 07:52:05
05年科比场均27+6+6,却只入选三阵,在他之前的是谁,数据如何?

05年科比场均27+6+6,却只入选三阵,在他之前的是谁,数据如何?

麦子的篮球故事
2026-04-08 20:41:18
警惕:上了年纪再过性生活,最怕这2点!保护男性精气,做好4点

警惕:上了年纪再过性生活,最怕这2点!保护男性精气,做好4点

王晓爱体彩
2026-04-08 20:05:55
天气预报|8日夜间起多地有雷雨 重庆未来三天多阵雨

天气预报|8日夜间起多地有雷雨 重庆未来三天多阵雨

上游新闻
2026-04-08 18:56:17
恩里克:去年在主场我们踢得极好却输给利物浦;没有所谓热门

恩里克:去年在主场我们踢得极好却输给利物浦;没有所谓热门

懂球帝
2026-04-08 20:57:07
官宣!樊振东缺席世乒赛 中国乒协:主动征询意见 他自愿放弃参赛

官宣!樊振东缺席世乒赛 中国乒协:主动征询意见 他自愿放弃参赛

念洲
2026-04-08 19:51:06
大家做好准备,医院、银行已出现4大怪象,值得每个人深思

大家做好准备,医院、银行已出现4大怪象,值得每个人深思

细说职场
2026-04-08 08:51:27
斯诺克战报!3场10-9,中国2人晋级,2冠军翻车,女将仅剩白雨露

斯诺克战报!3场10-9,中国2人晋级,2冠军翻车,女将仅剩白雨露

刘姚尧的文字城堡
2026-04-08 07:32:45
中方话音刚落,停火协议连夜生效,美国被迫撤军,老哈梅账户复活

中方话音刚落,停火协议连夜生效,美国被迫撤军,老哈梅账户复活

策前论
2026-04-08 20:09:08
阿司匹林和他汀,什么时间吃最合适?早知道,早受益!

阿司匹林和他汀,什么时间吃最合适?早知道,早受益!

健康之光
2026-04-08 17:32:59
金鑫已任中联部副部长兼办公厅主任

金鑫已任中联部副部长兼办公厅主任

界面新闻
2026-04-08 14:48:04
哈佛大学50年研究揭示:拉开人生差距的,不是智商,而是3个习惯

哈佛大学50年研究揭示:拉开人生差距的,不是智商,而是3个习惯

千秋文化
2026-04-07 19:44:05
2026-04-08 21:36:49
脑极体 incentive-icons
脑极体
从智能密钥到已知尽头
3642文章数 167408关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

外媒称中国在冲突引发能源危机中受影响较小 中方回应

头条要闻

外媒称中国在冲突引发能源危机中受影响较小 中方回应

体育要闻

40岁,但实力倒退12年

娱乐要闻

杨颖邓超低调现身观众席 支持陈赫话剧

财经要闻

天津海河乳业回应直播间涉黄

汽车要闻

5门5座/新复古造型 缤果Pro将于4月14日开启预售

态度原创

家居
游戏
旅游
手机
公开课

家居要闻

自在恣意 侘寂风别墅

地平线6日本赛道全公开!垂直赛道刷新系列上限

旅游要闻

陇原春日“花经济” 释放乡村旅游新活力

手机要闻

三年不换壳!iPhone18 Pro机模泄露,这次缩灵动岛+保留拍照键

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版