网易首页 > 网易号 > 正文 申请入驻

SpatialActor通过解耦语义与几何,为具身智能注入强鲁棒空间基因

0
分享至



机器人操作模型虽然在语义理解上取得巨大成功,但往往被困在 2D 图像的「错觉」中。现有的机器人操作模型主要依赖 2D 图像作为输入,这意味着它们容易丢失关键的深度信息和 3D 几何结构。

具体而言,基于点云的方法受限于稀疏采样,导致细粒度语义信息的丢失;基于图像的方法通常将 RGB 和深度信息输入到在 3D 辅助任务上训练的 2D 骨干网络中,但它们纠缠在一起的语义和几何特征对现实世界中固有的深度噪声非常敏感,从而干扰了语义理解。



图 1:不同方法的对比

针对这一痛点,Dexmal 原力灵机作者团队提出 SpatialActor,该工作核心在于 「解耦」(Disentanglement):它不再将视觉信息混为一谈,而是明确地将语义信息(这是什么?)与空间几何信息(它在哪里?形状如何?)分离开来,从而实现语义流与空间流的双流解耦与后期融合。

作者通过引入显式的 3D 空间编码器,并将其与强大的视觉语言模型结合,使机器人不仅能「读懂」指令,更能「感知」三维空间。作者在包含 50 多个任务的多个仿真和真实世界场景中评估了 SpatialActor。它在 RLBench 上取得了 87.4% 的成绩,达到 SOTA 水平;在不同噪声条件下,性能提升了 13.9% 至 19.4%,展现出强大的鲁棒性。目前该论文已被收录为 AAAI 2026 Oral,并将于近期开源。



  • 论文名称:SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation
  • 论文链接:https://arxiv.org/abs/2511.09555
  • 项目主页:https://shihao1895.github.io/SpatialActor/

方法与架构

作者认为,机器人操作本质上需要两种能力的协同:一是对任务目标的语义理解(由 VLM 提供),二是对环境几何的精确把控(由 3D 表征提供)。SpatialActor 并没有试图训练一个全能的端到端网络,而是采用了一种「双流解耦 - 融合」的架构设计。

整体架构



图 2:SpatialActor 架构概览

该架构采用了独立的视觉与深度编码器。语义引导几何模块(SGM)通过门控融合机制,将来自预训练深度专家的鲁棒但缺乏细粒度信息的几何先验与含噪但有逐像素细节的深度特征自适应地结合,从而生成高层几何表征。

在空间 Transformer(SPT)中,低层空间线索被编码为位置嵌入,用以驱动空间交互。最后,视图级交互优化了视图内的特征,而场景级交互则整合了跨视图的跨模态信息,为后续的动作头提供支持。

语义引导几何模块(SGM)

由于传感器的局限性和环境干扰,现实世界的深度测量往往含有噪声,而 RGB 图像则能提供高信噪比的语义线索。大规模预训练深度估计模型学习到了平滑的 “语义到几何” 映射,能够提供鲁棒且通用的几何先验。相比之下,原始深度特征虽然保留了细粒度的像素级细节,但对噪声高度敏感。

为此,SGM 模块通过一个冻结的大规模预训练深度估计专家模型从 RGB 输入中提取鲁棒但粗粒度的几何先验,同时利用深度编码器从原始深度中提取细粒度但含噪的几何特征。如图 3 (a) 所示,SGM 模块通过一个多尺度门控机制自适应地融合这些特征,从而生成优化后的几何表征;该表征在保留细微细节的同时降低了噪声,并与语义线索保持对齐。



图 3:语义引导几何模块和空间 Transformer

空间 Transformer(SPT)

如图 3 (b) 所示,SPT 模块旨在建立精确的 2D 至 3D 映射并融合多模态特征,是生成精准动作的关键。首先,模块将视觉得到的空间特征与机器人本体感知信息(如关节状态)融合。利用相机内外参矩阵和深度信息,模型将图像像素坐标转换为机器人基座坐标系下的三维坐标,并采用旋转位置编码技术将这些三维几何信息嵌入特征中,赋予其低层的空间感知。

在特征交互层面,SPT 依次执行视图级和场景级注意力机制:前者优化单视图内部表征,后者聚合所有视图与语言指令特征,实现跨模态的全局上下文融合。最终,解码器通过预测热力图确定动作的三维平移位置,并基于该位置的局部特征回归计算旋转角度和夹爪开闭状态,完成端到端的动作生成。

实验结果

为了全面评估 SpatialActor 的有效性,作者在仿真和真实世界环境中均开展了实验,既比较其与当前最先进方法的表现,也考察其在噪声干扰下的鲁棒性,并进一步验证其在真实机器人上的实际表现。

仿真基准测试结果



表 1:RLBench 仿真测试结果

作者给出了 SpatialActor 在 18 个 RLBench 任务及其 249 种变体上的成功率。SpatialActor 取得了最佳的整体性能,超越了此前的 SOTA 模型 RVT-2 6.0%。值得注意的是,在诸如 Insert Peg(插销钉)和 Sort Shape(形状分类)等需要高空间精度的任务中,SpatialActor 的表现分别优于 RVT-2 53.3% 和 38.3%。

不同程度噪声下的表现



表 2:不同程度噪声下的表现

在噪声实验中,作者通过加入不同强度的高斯扰动模拟噪声。结果表明,无论是轻度、中度还是重度噪声,SpatialActor 的表现都始终明显优于 RVT-2,平均成功率分别提升 13.9%、16.9% 和 19.4%。在诸如 Insert Peg(插销钉)这类需要高精度对位的任务中,这一差距更为突出,在三档噪声下分别高出 88.0%、78.6% 和 61.3%,展现出对噪声干扰的强鲁棒性。

真机实验结果



图 4:真机任务

在真机实验中,作者使用一台配备 Intel RealSense D435i RGB-D 相机的 WidowX 单臂机器人;并采用 8 个不同的任务,共计 15 种变体。



表 6:真机结果

真机实验结果如表 6 所示,SpatialActor 的表现持续优于 RVT-2,各任务平均提升约 20%,证明其在真实场景中的有效性。为了评估针对分布变化的鲁棒性,作者在被操作物体、接收物体、光照和背景发生变化的情况下对 SpatialActor 进行了测试。在这些多样且极具挑战性的条件下,SpatialActor 始终保持了高水平表现,有力证明了其在复杂真实世界场景中的强大鲁棒性与泛化能力。

结论

在本文中,作者提出了 SpatialActor,这是一个用于机器人操作的鲁棒空间表征框架,旨在解决精确空间理解、传感器噪声以及有效交互带来的挑战。SpatialActor 将语义信息与几何信息进行了解耦,并将几何分支划分为高层和低层两个组件:SGM 将语义引导的几何先验与原始深度特征自适应融合,以构建鲁棒的高层几何;而 SPT 则通过位置感知交互捕捉低层空间线索。

在 50 多个仿真和真实世界任务上进行的广泛实验表明,SpatialActor 在多样化的条件下均取得了更高的成功率和强大的鲁棒性。这些结果凸显了解耦的空间表征对于开发更加鲁棒且具备泛化能力的机器人系统的重要性。

附论

机器人操作可以分解为两个维度:空间感知与时序理解。前者关注如何将视觉与语言映射为精确的 6-DoF 位姿,实现对当前场景的物理 Grounding;后者则需要基于当前与过往的历史状态,连续做出多个决策以完成长期目标。



但是,真实世界的操作并非静态的空间问题,而是贯穿时间的连续过程。机器人不仅要抓得准,还必须记得住之前的关键状态,才能在长程任务中真正抓得对。这使得记忆机制成为连接空间操作与长程决策的关键能力。

受人类大脑「工作记忆」与「海马体」记忆机制的启发,作者团队还提出了 MemoryVLA,创新性地引入「感知 - 认知记忆」到 VLA,在决策时智能地从记忆库中「回忆」相关历史信息,实现时序感知的决策。更多信息可以参考:

  • 论文:https://arxiv.org/abs/2508.19236
  • 项目主页:https://shihao1895.github.io/MemoryVLA
  • GitHub:https://github.com/shihao1895/MemoryVLA

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3月30日执行!不用再买墓地,国家将正式放开殡葬新抉择

3月30日执行!不用再买墓地,国家将正式放开殡葬新抉择

青梅侃史啊
2026-03-26 20:21:55
伊朗已正式回应美国提出的停火协议15点内容

伊朗已正式回应美国提出的停火协议15点内容

新京报
2026-03-26 22:00:22
江西安源路桥集团有限公司党支部书记、董事长王东被查

江西安源路桥集团有限公司党支部书记、董事长王东被查

潇湘晨报
2026-03-25 16:16:44
14.99万!“史上最便宜”特斯拉来了

14.99万!“史上最便宜”特斯拉来了

首席品牌观察
2026-03-24 16:18:39
因妈妈姓氏太特殊,全家一致通过“随母姓”,网友:是我也随母姓

因妈妈姓氏太特殊,全家一致通过“随母姓”,网友:是我也随母姓

谭老师地理大课堂
2026-03-24 07:37:08
何超琼没想到,倒贴14亿嫁东北小伙的何超盈,如今竟给她狠狠长脸

何超琼没想到,倒贴14亿嫁东北小伙的何超盈,如今竟给她狠狠长脸

往史过眼云烟
2026-03-26 20:33:55
是时候说出真相!打越南时损失或超乎想象,从牺牲的名将后代便知

是时候说出真相!打越南时损失或超乎想象,从牺牲的名将后代便知

舆图看世界
2026-03-26 09:15:03
伊朗最高领袖死里逃生细节曝光: 最可怕的“内鬼”亮相了!

伊朗最高领袖死里逃生细节曝光: 最可怕的“内鬼”亮相了!

仕道
2026-03-23 10:34:55
追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

喜欢历史的阿繁
2026-03-26 14:40:54
日本公布中国游客免税店2月份消费数据,真的是打脸了!

日本公布中国游客免税店2月份消费数据,真的是打脸了!

消失的电波
2026-03-26 15:20:44
干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

泡泡网
2026-03-26 11:21:11
马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

爱意随风起呀
2026-03-26 16:51:41
伊朗对以色列发起导弹打击 以多地响起防空警报

伊朗对以色列发起导弹打击 以多地响起防空警报

财联社
2026-03-26 14:50:24
初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

娱乐圈笔娱君
2026-03-24 16:08:36
拼了!第80波打击,拒绝停战伊朗越打越狠,美军航母基地集体被揍

拼了!第80波打击,拒绝停战伊朗越打越狠,美军航母基地集体被揍

卷史
2026-03-26 09:34:56
巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

懂球帝
2026-03-26 06:43:02
旧手机回收价狂涨五六倍!回收商:开不了机的照样高价收

旧手机回收价狂涨五六倍!回收商:开不了机的照样高价收

快科技
2026-03-25 14:53:24
黄金,注意!无敌扫荡又要开始了!

黄金,注意!无敌扫荡又要开始了!

杨子黄金
2026-03-26 09:06:53
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
跌跌跌!继续!2026年3月23日 - 飞天茅台和生肖酒每日行情价格

跌跌跌!继续!2026年3月23日 - 飞天茅台和生肖酒每日行情价格

王二哥老搞笑
2026-03-23 20:00:01
2026-03-26 23:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
本地
时尚
教育
房产

旅游要闻

探访资中文旅新地标 邂逅千年古城的诗与远方

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

这些才是适合春季的穿搭!不沉闷、不单调,大方靓丽又减龄

教育要闻

骂人没有杀伤力?那不是白忙活吗?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

无障碍浏览 进入关怀版