网易首页 > 网易号 > 正文 申请入驻

机器人感知大升级!轻量化注入几何先验,成功率提升31%

0
分享至

Evo-0团队 投稿
量子位 | 公众号 QbitAI

在机器人学习领域,如何让AI真正“看懂”三维世界一直是个难题。

VLA模型通常建立在预训练视觉语言模型(VLM)之上,仅基于2D图像-文本数据训练,缺乏真实世界操作所需的3D空间理解能力。

当前基于显式深度输入的增强方案虽有效,但依赖额外传感器或深度估计网络,存在部署难度、精度噪声等问题。



为此,上海交通大学和剑桥大学提出一种增强视觉语言动作(VLA)模型空间理解能力的轻量化方法Evo-0,通过隐式注入3D几何先验,无需显式深度输入或额外传感器。

该方法利用视觉几何基础模型VGGT,从多视角RGB图像中提取3D结构信息,并融合到原有视觉语言模型中,实现空间感知能力的显著提升。

在rlbench仿真实验中,Evo-0在5个需要精细操作的任务上,平均成功率超过基线pi0 15%,超过openvla-oft 31%。



Evo-0:实现2D–3D表征的融合

Evo-0提出将VGGT作为空间编码器,引入VGGT训练过程中针对3D结构任务提取的t3^D token。这些token包含深度上下文、跨视图空间对应关系等几何信息。

模型引入一个cross-attention融合模块,将ViT提取的2D视觉token作为query,VGGT输出的3D token作为key/value,实现2D–3D表征的融合,从而提升对空间结构、物体布局的理解能力。



融合后的token与语言指令共同输入冻结主干的VLM,预测动作由flow-matching策略生成。训练中,仅微调融合模块、LoRA适配层与动作专家,降低计算成本。

研究团队通过在5个rlbench模拟任务5个真实世界操作任务上的全面实验,以及在5种不同干扰条件下的鲁棒性评估,证明了空间信息融合方法的有效性。在所有设置中,Evo-0都一致地增强了空间理解,并且优于最先进的VLA模型。

除了上述展示的效果外,在超参数实验中,为了分析超参数如何影响模型性能,团队在5个RLBench任务上进行了额外的实验。他们重点关注两个方面:训练步数和执行步数,并评估它们对任务成功率的影响。

值得注意的是,仅用15k步训练的Evo-0已经超过了用20k步训练的π0,这表明Evo-0具有更高的训练效率。



在真机实验部分,实验设计五个空间感知要求高的真实机器人任务,包括目标居中放置、插孔、密集抓取、置物架放置及透明物体操作等。所有任务均对空间精度容忍度极低。



Evo-0在全部任务中均超越基线模型pi0,平均成功率提升28.88%。尤其在插孔与透明物抓取任务中,表现出对复杂空间关系的理解与精准操控能力。



在鲁棒性实验中,论文设计了5类干扰条件:(1)引入一个未见过的干扰物体,(2)背景颜色的变化,(3)目标位置的位移,(4)目标高度的变化,(5)相机角度的变化。Evo-0均有相对鲁棒的结果,并且强于基准pi0。



综上所述,Evo-0的关键在于通过VGGT提取丰富的空间语义,绕过深度估计误差与传感器需求,以插件形式增强VLA模型的空间建模能力,训练高效、部署灵活,为通用机器人策略提供新的可行路径。

论文链接:https://arxiv.org/abs/2507.00416

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不死就不罢休?伊朗自断退路:你们知道我这47年是怎么过的吗?

不死就不罢休?伊朗自断退路:你们知道我这47年是怎么过的吗?

音乐时光的娱乐
2026-03-26 14:01:59
养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

财经保探长
2026-03-19 19:39:45
伊朗伊斯兰革命卫队、伊朗武装部队同时发声!

伊朗伊斯兰革命卫队、伊朗武装部队同时发声!

看看新闻Knews
2026-03-23 17:17:11
杜锋发布会发飙,反问记者,球迷为陈家政担心:你可以离开球队了

杜锋发布会发飙,反问记者,球迷为陈家政担心:你可以离开球队了

南海浪花
2026-03-26 00:26:05
轰23+21+19创八纪录!约基奇背仅差32助达成场均三双 1点中锋第一

轰23+21+19创八纪录!约基奇背仅差32助达成场均三双 1点中锋第一

颜小白的篮球梦
2026-03-26 12:45:33
肯豆不穿内搭不尴尬吗?

肯豆不穿内搭不尴尬吗?

乡野小珥
2026-03-26 08:38:37
48岁赵薇“女儿”因长得太好看,被全网“禁止整容”,如今17岁变化大到不敢认!

48岁赵薇“女儿”因长得太好看,被全网“禁止整容”,如今17岁变化大到不敢认!

背包旅行
2026-03-24 17:09:33
NBA正式扩军!狂砸100亿啊,再见,森林狼or灰熊,东部见

NBA正式扩军!狂砸100亿啊,再见,森林狼or灰熊,东部见

球童无忌
2026-03-26 11:34:27
古代战争成千上万人尸体去哪了?1995年挖开一个坑,让人后背发凉

古代战争成千上万人尸体去哪了?1995年挖开一个坑,让人后背发凉

小莜读史
2026-03-24 19:24:44
【完整版】雷迪克赛后:谈詹姆斯角色 谈布朗尼进步 谈轮换策略

【完整版】雷迪克赛后:谈詹姆斯角色 谈布朗尼进步 谈轮换策略

兰亭墨未干
2026-03-26 14:49:13
盘点现役出道十年以上的岛国启蒙老师,陪你度过多少夜晚?

盘点现役出道十年以上的岛国启蒙老师,陪你度过多少夜晚?

吃瓜党二号头目
2026-03-26 14:55:08
广东3消息!杜锋彻底破防,胡明轩被批不配顶薪,焦泊乔最新伤情

广东3消息!杜锋彻底破防,胡明轩被批不配顶薪,焦泊乔最新伤情

多特体育说
2026-03-25 23:43:21
这就是钱学森后人真实的样貌,女儿定居美国,儿子长孙精忠报国!

这就是钱学森后人真实的样貌,女儿定居美国,儿子长孙精忠报国!

旧史新谭
2026-03-25 13:15:22
亲美派密谋推翻郑丽文,朱立伦要另立党中央,国民党出现五个太阳

亲美派密谋推翻郑丽文,朱立伦要另立党中央,国民党出现五个太阳

流史岁月
2026-03-25 13:55:07
李梓萌,私生活传闻太荒唐

李梓萌,私生活传闻太荒唐

做一个合格的吃瓜群众
2026-03-21 19:20:55
女人爱听这些两性关系中的“下流话”,尤其是过了中年的女人

女人爱听这些两性关系中的“下流话”,尤其是过了中年的女人

i书与房
2026-03-25 16:30:22
女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

情感艺术家
2026-02-26 10:48:00
炸穿阿瓦士!美以联手端掉伊朗革命卫队总部,现场夷成白地

炸穿阿瓦士!美以联手端掉伊朗革命卫队总部,现场夷成白地

老马拉车莫少装
2026-03-23 13:00:44
李霄鹏:会关注王钰栋,他有可能成为未来中国足球的领军人物

李霄鹏:会关注王钰栋,他有可能成为未来中国足球的领军人物

懂球帝
2026-03-26 08:56:59
乌克兰摧毁波罗的海最大的俄方港口!圣彼得堡机场被迫关闭

乌克兰摧毁波罗的海最大的俄方港口!圣彼得堡机场被迫关闭

项鹏飞
2026-03-23 20:18:18
2026-03-26 15:55:00
量子位 incentive-icons
量子位
追踪人工智能动态
12347文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
手机
时尚
游戏
公开课

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被查

手机要闻

苹果回应iPhone自动打电话 升级系统可解决

皮衣+裙,高级到炸

DOTA2 7.41版本大更新!再见了命石,选择困难症有福了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版