网易首页 > 网易号 > 正文 申请入驻

打破2D视觉枷锁,全新端到端框架GeoVLA重构机器人空间感知

0
分享至





论文名称: GeoVLA: Empowering 3D Representation in Vision-Language-Action Models

在具身智能的浪潮中,VLA 模型被视为通往通用机器人的快车道。然而,随着研究深入到非结构化环境,现有 VLA 模型面临着一个严重的维度缺陷:空间失明。

目前,大多数 VLA 模型(比如 OpenVLA、RT-2、Pi0、Pi05)单纯依赖 2D RGB 图像作为视觉输入,导致模型眼中的世界“纸片化”,严重缺乏深度信息和几何先验;由此带来的后果是:

深度感知缺失:面对需要精确距离判断的任务,比如精准投篮、挂扣环,2D 模型往往“抓瞎”,无法准确预测 Z 轴的动作。

空间适应性差:一旦物体尺寸发生变化(Scale Variance)或相机视角发生偏移(Viewpoint Shift),便无法理解物体在空间中的本质位置,导致任务失败。



图 1:GeoVLA 整体示意图

Dexmal 原力灵机作者团队提出一种全新的 VLA 框架 GeoVLA,它在保留现有视觉-语言模型(VLM)的预训练能力的同时,采用了一种优雅的双流架构(Dual-path Architecture)。

具体而言,GeoVLA 在保留 VLM 强大的语义理解能力的同时,引入专用的点云嵌入网络 PEN 和空间感知动作专家 3DAE,直接利用深度图生成的点云数据,赋予机器人真正的三维几何感知能力。

这一设计不仅在仿真环境中取得 SOTA,更在真实世界的鲁棒性测试中,特别是在视角改变和物体尺度变化的极端条件下,展现出惊人的适应力。

方法框架

常见的做法试图让一个 VLM 既懂语义又懂几何,这往往顾此失彼;GeoVLA 的核心逻辑是选择把任务解耦:让 VLM 负责“看懂是什么”,让点云网络负责“看清在哪里”。



图2:GeoVLA 框架图

GeoVLA 是一个全新的端到端框架,其流程包含三个关键组件的协同工作:

语义理解流:利用预训练的 VLM(如 Prismatic-7B)处理 RGB 图像和语言指令,提取融合后的视觉-语言特征。

几何感知流:利用点云嵌入网络 PEN 处理由深度图转换而来的点云,独立提取高精度的 3D 几何特征。

动作生成流:通过3D 增强动作专家 3DAE 融合上述两种特征,生成精确的动作序列。

点云嵌入网络 PEN



图 3:双路径点云嵌入网络细节图

原始深度图往往包含大量噪声,且数据稀疏,直接作为输入效果不佳。点云嵌入网络 PEN 专为机器人操作设计,采用双路径架构来提取干净且紧凑的几何特征:

几何特征提取:使用大核卷积和局部池化的轻量级 CNN,将非结构化的点云编码为 Patch 级别的几何 Token。

空间位置编码:引入在大语言模型中常见的旋转位置编码 RoPE,它能极好地保留 3D 空间中的相对位置信息,这对于操作任务至关重要。

空间锚点(Spatial Anchor)设计是 PEN 的一大亮点。作者团队并没有简单地对所有点云特征进行平均池化,而是选择对应于末端执行器坐标原点的 Token 作为“锚点”。这种以“手”为中心的视角设计,让模型能够显式地建模“手”与“物体”之间的几何关系,大幅提升操作精度。

3D 增强动作专家 3DAE

特征提取只是第一步,如何有效融合 RGB 的语义信息和点云的几何信息,实现1+1>2的效果,是多模态研究当中的难点。作者团队在动作生成端采用基于扩散 Transformer (DiTs) 的架构,并创新性地引入混合专家 (MoE) 机制。

静态路由策略 (Static Routing):这是一个直觉且有效的策略。在训练过程中,由于 VLM 分支是预训练的,而点云分支是从头开始学,如果使用常规的动态路由,模型会倾向于走捷径,只依赖 VLM 分支,忽略点云信息。

强制解耦:作者团队采用了静态路由,随机丢弃某种模态,逼迫模型必须学会独立利用几何信息来解决问题,从而确保了双流信息的有效融合。

实验结果

GeoVLA 在仿真和真机实验中均展现出对传统 2D VLA 模型的压倒性优势,证明显式 3D 表征在复杂操作中的不可替代性。

仿真环境测试结果



表 1:LIBERO 评测结果

在 LIBERO 基准测试中,GeoVLA 超越所有任务套件。在最具挑战性的 LIBERO-90(长程多任务)中,GeoVLA 达到 97.7% 的成功率,超越之前的 SOTA 方法 OpenVLA-OFT (95.3%) 和 CogACT (93.2%)。



表 2:ManiSkill2 评测结果

在物理仿真更为逼真的 ManiSkill2 中,GeoVLA 优势更加明显,平均成功率达到 77%,大幅领先 Dita (66%) 和 CogACT (69%);特别是在 PickClutterYCB 这种物体堆叠杂乱、遮挡严重的任务中,GeoVLA 凭借点云带来的几何理解,保持了极高的操作精度。

真机环境与鲁棒性测试



图 4:真机实验任务的变体展示

作者团队使用 WidowX-250s 机械臂进行了广泛的真机测试;实验被分为“基础任务”和“3D 感知任务”。在域内任务中,GeoVLA 在基础任务上平均成功率 95.0%,在 3D 感知任务上为 77.5%,总体平均 86.3%,大幅领先 Pi0 (57.5%) 和 CogACT (76.3%)。特别是在 Put Basketball 和 Put Hairclip 等需要精确空间理解的任务中,GeoVLA 表现出更好的鲁棒性。



表 4:真机任务评测结果

更令人印象深刻的是 GeoVLA 在分布外(OOD)场景下的鲁棒性,这也是 GeoVLA 最核心的突破点:



表 5(左):投篮任务变体的评测结果;表 6(右):套娃任务变体的评测结果

投篮任务变体(高度变化):当篮筐高度被调整到训练数据未覆盖的最高位置 (H1) 时,依赖 2D 视觉的 CogACT 和 Pi0 彻底失效,成功率降至 20%;而 GeoVLA 凭借点云信息,依然保持 60% 的成功率。

套娃任务变体(尺寸变化):面对比训练时大一号的套娃,2D 模型往往因为像素特征不匹配而无法识别;GeoVLA 则通过几何形状匹配,保持了 80% 的高成功率。

堆叠积木任务变体(视角变化):堆叠积木时,当相机视角偏移 45°,CogACT 成功率直接归零,说明 2D 模型极度依赖特定视角的像素记忆;而 GeoVLA 依然稳健,保持 70% 的成功率,证明其学到了真正的 3D 空间结构。

胡萝卜任务变体(移除海绵垫):训练时使用的海绵垫在推理阶段被移除,胡萝卜位置被降低,导致大多数方法抓取胡萝卜失败;GeoVLA 则能更稳定且成功抓取,展现出更强的泛化能力。

结论

本文中,Dexmal 原力灵机作者团队提出 GeoVLA,通过引入点云嵌入网络 PEN 和 3D 增强动作专家 3DAE,成功打破 VLA 模型在 3D 物理世界中的“感知壁垒”。

这项工作有力证明在端到端的机器人学习中,显式引入 3D 几何表征是提升模型泛化能力和鲁棒性的关键。GeoVLA 不仅解决了传统 VLA 模型“看得见但摸不准”的难题,更为未来具身智能迈向更复杂、更开放的非结构化环境提供了一种高效且优雅的解决方案。

特别是其双路径并行设计和静态路由策略,为多模态融合提供了一个极具参考价值的范式:既保留了大模型的通用语义知识,又补齐了物理世界的几何常识。对于追求精确操控的具身智能领域而言,GeoVLA 可能是一个重要的里程碑,标志着 VLA 模型从“看图说话”向“空间智能”的实质性跨越。

参考文献

Chengmeng Li, Junjie Wen, Yan Peng, Yaxin Peng, Feifei Feng, and Yichen Zhu. Pointvla: Injecting the 3d world into vision-language-action models. arXiv preprint arXiv:2503.07511, 2025.

Delin Qu, Haoming Song, Qizhi Chen, Yuanqi Yao, Xinyi Ye, Yan Ding, Zhigang Wang, JiaYuan Gu, Bin Zhao,Dong Wang, and Xuelong Li. Spatialvla: Exploring spatial representations for visual-language-action model. In Robotics: Science and Systems (RSS), 2025.

Zhi Hou, Tianyi Zhang, Yuwen Xiong, Haonan Duan, Hengjun Pu, Ronglei Tong, Chengyang Zhao, Xizhou Zhu,Yu Qiao, Jifeng Dai, and Yuntao Chen. Dita: Scaling diffusion transformer for generalist vision-language-action policy. arXiv preprint arXiv:2503.19757, 2025.

{Moo Jin} Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, and Chelsea Finn. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246

Li Qixiu, Liang Yaobo, Wang Zeyu, Luo Lin, Chen Xi, Liao Mozheng, Wei Fangyun, Deng Yu, Xu Sicheng, Zhang Yizhong, and others. CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation. arXiv preprint arXiv:2411.19650.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美女老板初心并不坏!曾送永州队10万救命钱 现花10万救自己脸面

美女老板初心并不坏!曾送永州队10万救命钱 现花10万救自己脸面

风过乡
2026-01-05 10:14:29
2026刚开年,人民日报再次点名张艺谋,释放2大信号,巩俐没说错

2026刚开年,人民日报再次点名张艺谋,释放2大信号,巩俐没说错

做一个合格的吃瓜群众
2026-01-05 05:56:55
高盛预计中国央行今年一季度有一次“双降”

高盛预计中国央行今年一季度有一次“双降”

财联社
2026-01-05 11:04:07
本赛季球员在场最高持球率:布伦森43%、东契奇42%、哈登40%

本赛季球员在场最高持球率:布伦森43%、东契奇42%、哈登40%

大眼瞄世界
2026-01-05 00:32:37
1955年,上海公安局长扬帆突然被抓,许世友拍桌大怒:先别抓!交代给他的事,还没给我办成

1955年,上海公安局长扬帆突然被抓,许世友拍桌大怒:先别抓!交代给他的事,还没给我办成

源溯历史
2026-01-03 20:53:07
委内瑞拉代总统只扛了一天,决定对美投降?这将是全国人民的耻辱

委内瑞拉代总统只扛了一天,决定对美投降?这将是全国人民的耻辱

瑛派儿老黄
2026-01-05 15:12:00
出大事了,美媒:中蒙边境,中国部署了100多枚东风-31洲际导弹?

出大事了,美媒:中蒙边境,中国部署了100多枚东风-31洲际导弹?

花花娱界
2026-01-01 16:27:26
TVB颁奖礼红毯老龄化严重!50岁佘诗曼压轴,黄宗泽老到认不出

TVB颁奖礼红毯老龄化严重!50岁佘诗曼压轴,黄宗泽老到认不出

萌神木木
2026-01-04 20:00:42
26岁的周恩来担任黄埔军校政治部主任,老蒋:此人之才,胜我十倍

26岁的周恩来担任黄埔军校政治部主任,老蒋:此人之才,胜我十倍

鹤羽说个事
2025-12-29 15:47:42
河北各市小学寒假时间表来喽!

河北各市小学寒假时间表来喽!

东天文化
2026-01-05 11:21:39
中方再次回应也门南方局势:呼吁各方保持冷静克制,通过政治对话化解分歧争端

中方再次回应也门南方局势:呼吁各方保持冷静克制,通过政治对话化解分歧争端

北青网-北京青年报
2026-01-05 16:46:10
医生建议:过了70的老人,宁可牙齿缺失,也别在这几种状态去镶牙

医生建议:过了70的老人,宁可牙齿缺失,也别在这几种状态去镶牙

岐黄传人孙大夫
2026-01-04 09:54:44
温铁军:中国被美国扒掉了两层皮,竟还有人妄想让中国做美的助手

温铁军:中国被美国扒掉了两层皮,竟还有人妄想让中国做美的助手

长星寄明月
2026-01-01 06:06:56
再见阿莫林!赛后再次甩锅!拒绝负责,自称经理,不如请穆帅回归

再见阿莫林!赛后再次甩锅!拒绝负责,自称经理,不如请穆帅回归

阿泰希特
2026-01-05 11:24:12
20岁女孩柬埔寨流浪后续:长得很漂亮,父亲也被骗,前后转了8万

20岁女孩柬埔寨流浪后续:长得很漂亮,父亲也被骗,前后转了8万

好贤观史记
2026-01-04 17:25:08
CBA10轮后分四档:4队一档,辽宁携5队三档,青岛宁波同一档

CBA10轮后分四档:4队一档,辽宁携5队三档,青岛宁波同一档

男足的小球童
2026-01-05 16:11:13
2026年汽车国补,两类人天塌了,油车受益,16万级别车将成屠宰场

2026年汽车国补,两类人天塌了,油车受益,16万级别车将成屠宰场

王新喜
2026-01-05 10:08:46
留给大清的时间,真的不多了

留给大清的时间,真的不多了

我是历史其实挺有趣
2026-01-03 08:50:37
江苏重走案发现场

江苏重走案发现场

北青网-北京青年报
2026-01-05 08:02:02
坚持内需主导,建设强大国内市场(稳中求进、提质增效 实现“十五五”良好开局)

坚持内需主导,建设强大国内市场(稳中求进、提质增效 实现“十五五”良好开局)

金台资讯
2026-01-05 06:30:20
2026-01-05 17:36:49
脑极体 incentive-icons
脑极体
从智能密钥到已知尽头
3561文章数 167258关注度
往期回顾 全部

科技要闻

雷军新年首播:确认汽车业务降速

头条要闻

主持马杜罗庭审的法官披露 今年92岁

头条要闻

主持马杜罗庭审的法官披露 今年92岁

体育要闻

41岁詹皇26+10+6又迎里程碑 湖媒赞GOAT

娱乐要闻

黄宗泽夺双料视帝,泪洒颁奖台忆往昔

财经要闻

李迅雷:扩内需要把重心从"投"转向"消"

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

健康
房产
教育
时尚
军事航空

这些新疗法,让化疗不再那么痛苦

房产要闻

再次登顶海南楼市!超越阿那亚的,只有阿那亚!

教育要闻

选专业不踩雷!4组“孪生专业”揭秘,找准高中生专属职业赛道

这些才是真正接地气的穿搭!裤子基础、外套保暖,简单又自然

军事要闻

马杜罗预计5日在纽约"首次出庭"

无障碍浏览 进入关怀版