网易首页 > 网易号 > 正文 申请入驻

SpatialActor通过解耦语义与几何,为具身智能注入强鲁棒空间基因

0
分享至



机器人操作模型虽然在语义理解上取得巨大成功,但往往被困在 2D 图像的「错觉」中。现有的机器人操作模型主要依赖 2D 图像作为输入,这意味着它们容易丢失关键的深度信息和 3D 几何结构。

具体而言,基于点云的方法受限于稀疏采样,导致细粒度语义信息的丢失;基于图像的方法通常将 RGB 和深度信息输入到在 3D 辅助任务上训练的 2D 骨干网络中,但它们纠缠在一起的语义和几何特征对现实世界中固有的深度噪声非常敏感,从而干扰了语义理解。



图 1:不同方法的对比

针对这一痛点,Dexmal 原力灵机作者团队提出 SpatialActor,该工作核心在于 「解耦」(Disentanglement):它不再将视觉信息混为一谈,而是明确地将语义信息(这是什么?)与空间几何信息(它在哪里?形状如何?)分离开来,从而实现语义流与空间流的双流解耦与后期融合。

作者通过引入显式的 3D 空间编码器,并将其与强大的视觉语言模型结合,使机器人不仅能「读懂」指令,更能「感知」三维空间。作者在包含 50 多个任务的多个仿真和真实世界场景中评估了 SpatialActor。它在 RLBench 上取得了 87.4% 的成绩,达到 SOTA 水平;在不同噪声条件下,性能提升了 13.9% 至 19.4%,展现出强大的鲁棒性。目前该论文已被收录为 AAAI 2026 Oral,并将于近期开源。



  • 论文名称:SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation
  • 论文链接:https://arxiv.org/abs/2511.09555
  • 项目主页:https://shihao1895.github.io/SpatialActor/

方法与架构

作者认为,机器人操作本质上需要两种能力的协同:一是对任务目标的语义理解(由 VLM 提供),二是对环境几何的精确把控(由 3D 表征提供)。SpatialActor 并没有试图训练一个全能的端到端网络,而是采用了一种「双流解耦 - 融合」的架构设计。

整体架构



图 2:SpatialActor 架构概览

该架构采用了独立的视觉与深度编码器。语义引导几何模块(SGM)通过门控融合机制,将来自预训练深度专家的鲁棒但缺乏细粒度信息的几何先验与含噪但有逐像素细节的深度特征自适应地结合,从而生成高层几何表征。

在空间 Transformer(SPT)中,低层空间线索被编码为位置嵌入,用以驱动空间交互。最后,视图级交互优化了视图内的特征,而场景级交互则整合了跨视图的跨模态信息,为后续的动作头提供支持。

语义引导几何模块(SGM)

由于传感器的局限性和环境干扰,现实世界的深度测量往往含有噪声,而 RGB 图像则能提供高信噪比的语义线索。大规模预训练深度估计模型学习到了平滑的 “语义到几何” 映射,能够提供鲁棒且通用的几何先验。相比之下,原始深度特征虽然保留了细粒度的像素级细节,但对噪声高度敏感。

为此,SGM 模块通过一个冻结的大规模预训练深度估计专家模型从 RGB 输入中提取鲁棒但粗粒度的几何先验,同时利用深度编码器从原始深度中提取细粒度但含噪的几何特征。如图 3 (a) 所示,SGM 模块通过一个多尺度门控机制自适应地融合这些特征,从而生成优化后的几何表征;该表征在保留细微细节的同时降低了噪声,并与语义线索保持对齐。



图 3:语义引导几何模块和空间 Transformer

空间 Transformer(SPT)

如图 3 (b) 所示,SPT 模块旨在建立精确的 2D 至 3D 映射并融合多模态特征,是生成精准动作的关键。首先,模块将视觉得到的空间特征与机器人本体感知信息(如关节状态)融合。利用相机内外参矩阵和深度信息,模型将图像像素坐标转换为机器人基座坐标系下的三维坐标,并采用旋转位置编码技术将这些三维几何信息嵌入特征中,赋予其低层的空间感知。

在特征交互层面,SPT 依次执行视图级和场景级注意力机制:前者优化单视图内部表征,后者聚合所有视图与语言指令特征,实现跨模态的全局上下文融合。最终,解码器通过预测热力图确定动作的三维平移位置,并基于该位置的局部特征回归计算旋转角度和夹爪开闭状态,完成端到端的动作生成。

实验结果

为了全面评估 SpatialActor 的有效性,作者在仿真和真实世界环境中均开展了实验,既比较其与当前最先进方法的表现,也考察其在噪声干扰下的鲁棒性,并进一步验证其在真实机器人上的实际表现。

仿真基准测试结果



表 1:RLBench 仿真测试结果

作者给出了 SpatialActor 在 18 个 RLBench 任务及其 249 种变体上的成功率。SpatialActor 取得了最佳的整体性能,超越了此前的 SOTA 模型 RVT-2 6.0%。值得注意的是,在诸如 Insert Peg(插销钉)和 Sort Shape(形状分类)等需要高空间精度的任务中,SpatialActor 的表现分别优于 RVT-2 53.3% 和 38.3%。

不同程度噪声下的表现



表 2:不同程度噪声下的表现

在噪声实验中,作者通过加入不同强度的高斯扰动模拟噪声。结果表明,无论是轻度、中度还是重度噪声,SpatialActor 的表现都始终明显优于 RVT-2,平均成功率分别提升 13.9%、16.9% 和 19.4%。在诸如 Insert Peg(插销钉)这类需要高精度对位的任务中,这一差距更为突出,在三档噪声下分别高出 88.0%、78.6% 和 61.3%,展现出对噪声干扰的强鲁棒性。

真机实验结果



图 4:真机任务

在真机实验中,作者使用一台配备 Intel RealSense D435i RGB-D 相机的 WidowX 单臂机器人;并采用 8 个不同的任务,共计 15 种变体。



表 6:真机结果

真机实验结果如表 6 所示,SpatialActor 的表现持续优于 RVT-2,各任务平均提升约 20%,证明其在真实场景中的有效性。为了评估针对分布变化的鲁棒性,作者在被操作物体、接收物体、光照和背景发生变化的情况下对 SpatialActor 进行了测试。在这些多样且极具挑战性的条件下,SpatialActor 始终保持了高水平表现,有力证明了其在复杂真实世界场景中的强大鲁棒性与泛化能力。

结论

在本文中,作者提出了 SpatialActor,这是一个用于机器人操作的鲁棒空间表征框架,旨在解决精确空间理解、传感器噪声以及有效交互带来的挑战。SpatialActor 将语义信息与几何信息进行了解耦,并将几何分支划分为高层和低层两个组件:SGM 将语义引导的几何先验与原始深度特征自适应融合,以构建鲁棒的高层几何;而 SPT 则通过位置感知交互捕捉低层空间线索。

在 50 多个仿真和真实世界任务上进行的广泛实验表明,SpatialActor 在多样化的条件下均取得了更高的成功率和强大的鲁棒性。这些结果凸显了解耦的空间表征对于开发更加鲁棒且具备泛化能力的机器人系统的重要性。

附论

机器人操作可以分解为两个维度:空间感知与时序理解。前者关注如何将视觉与语言映射为精确的 6-DoF 位姿,实现对当前场景的物理 Grounding;后者则需要基于当前与过往的历史状态,连续做出多个决策以完成长期目标。



但是,真实世界的操作并非静态的空间问题,而是贯穿时间的连续过程。机器人不仅要抓得准,还必须记得住之前的关键状态,才能在长程任务中真正抓得对。这使得记忆机制成为连接空间操作与长程决策的关键能力。

受人类大脑「工作记忆」与「海马体」记忆机制的启发,作者团队还提出了 MemoryVLA,创新性地引入「感知 - 认知记忆」到 VLA,在决策时智能地从记忆库中「回忆」相关历史信息,实现时序感知的决策。更多信息可以参考:

  • 论文:https://arxiv.org/abs/2508.19236
  • 项目主页:https://shihao1895.github.io/MemoryVLA
  • GitHub:https://github.com/shihao1895/MemoryVLA

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
孟子义和李昀锐全程零互动、综艺不同队、行程全错开,昀牵孟绕真的be了吗?

孟子义和李昀锐全程零互动、综艺不同队、行程全错开,昀牵孟绕真的be了吗?

情感大头说说
2026-05-15 14:16:58
阿里巴巴,全年收入首次超1万亿元!平头哥自研GPU芯片已实现规模化量产!云和AI成新增长引擎

阿里巴巴,全年收入首次超1万亿元!平头哥自研GPU芯片已实现规模化量产!云和AI成新增长引擎

前沿科技学习分享圈
2026-05-14 23:31:28
中美谈判桌炸出4颗深水炸弹:特朗普千亿订单被中国反手撕碎?

中美谈判桌炸出4颗深水炸弹:特朗普千亿订单被中国反手撕碎?

小莜读史
2026-05-14 13:43:45
亚洲杯战报:神秘之师丢球险胜,日本再零封,中国进两球惜败

亚洲杯战报:神秘之师丢球险胜,日本再零封,中国进两球惜败

余憁搞笑段子
2026-05-15 16:20:06
中美会晤结束,特朗普松开了中方的手,李在明笑了高市却要哭了

中美会晤结束,特朗普松开了中方的手,李在明笑了高市却要哭了

素颜为谁倾城人
2026-05-15 21:05:40
卖大麻不交税!加州政府拿华人开刀,华人店主被控66项重罪,面临超50年刑期

卖大麻不交税!加州政府拿华人开刀,华人店主被控66项重罪,面临超50年刑期

大洛杉矶LA
2026-05-16 01:08:40
京东外卖急刹车:500亿买来的,不只是止损

京东外卖急刹车:500亿买来的,不只是止损

快消经纬
2026-05-13 19:47:54
G1输上海发布会!许利民直指遗憾,回应双塔组合与manman伤势!

G1输上海发布会!许利民直指遗憾,回应双塔组合与manman伤势!

篮球资讯达人
2026-05-15 22:19:54
中美会晤结束,中方一锤定音,特朗普喊话全球,美媒:美国变了

中美会晤结束,中方一锤定音,特朗普喊话全球,美媒:美国变了

杰丝聊古今
2026-05-16 00:45:31
麦迪:猛龙不该退役伦纳德的球衣,他甚至都没打满一个赛季

麦迪:猛龙不该退役伦纳德的球衣,他甚至都没打满一个赛季

懂球帝
2026-05-15 17:29:17
谈判桌上摊牌!美方死咬2500万吨大豆订单,想把中国当接盘侠?

谈判桌上摊牌!美方死咬2500万吨大豆订单,想把中国当接盘侠?

故事终将光明磊落
2026-05-15 10:58:31
无极县一火锅店突发重大刑案,惊悚说法大量传播,信息公开很重要

无极县一火锅店突发重大刑案,惊悚说法大量传播,信息公开很重要

胡侃社会百态
2026-05-14 13:26:32
中药又立功!蒲公英能在48小时内杀死98%的癌细胞?医生说出实情

中药又立功!蒲公英能在48小时内杀死98%的癌细胞?医生说出实情

垚垚分享健康
2026-05-15 08:52:25
黄仁勋,全世界最贵的吃播

黄仁勋,全世界最贵的吃播

餐观局
2026-05-15 21:01:06
张馨予太丰满,穿白衬衫都兜不住好身材,我感慨军人老公眼光真好

张馨予太丰满,穿白衬衫都兜不住好身材,我感慨军人老公眼光真好

蓓小西
2026-04-11 09:28:58
这个工具让AI编程成本直降67%,代码越多省越多

这个工具让AI编程成本直降67%,代码越多省越多

硅屿手记
2026-05-16 00:14:28
金砖成员国吵起来了,中方不在场,俄印镇不住,10国盼着中国出手

金砖成员国吵起来了,中方不在场,俄印镇不住,10国盼着中国出手

娱乐圈的笔娱君
2026-05-16 00:24:23
姆巴佩已确定出局!金球奖基本从这5人中产生!你更看好谁?

姆巴佩已确定出局!金球奖基本从这5人中产生!你更看好谁?

生活新鲜市
2026-05-15 18:24:57
当特朗普的面,中方交底涉台问题,11字震耳欲聋,对岸阴谋论开始

当特朗普的面,中方交底涉台问题,11字震耳欲聋,对岸阴谋论开始

傲傲讲历史
2026-05-16 00:55:15
《主角》好评如潮,12岁的她功不可没,戏内又土又脏,戏外很清秀

《主角》好评如潮,12岁的她功不可没,戏内又土又脏,戏外很清秀

娱君坠星河
2026-05-15 17:13:31
2026-05-16 03:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13006文章数 142649关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

健康
房产
艺术
游戏
军事航空

专家揭秘干细胞回输的安全风险

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

艺术要闻

1008米!沙特“世界第一高楼”项目,为何极有可能建成?

《街霸6》春丽新品来了!招牌肉腿完美还原

军事要闻

乌克兰首都基辅遭空袭 死亡人数增至12人

无障碍浏览 进入关怀版