网易首页 > 网易号 > 正文 申请入驻

让机器人学会手往哪儿伸、怎么操作,东大团队给了新解法

0
分享至



本文的第一作者为东南大学硕士生庄启源,合作者为徐赫洋、汪宜俊、赵欣阳、李洋洋。通讯作者为东南大学青年首席教授魏秀参,研究方向为计算机视觉、机器学习与机器人。

在具身智能领域,可供性(affordance)预测 —— 即让机器人从视觉观测中理解 "在哪里操作"(接触点)与 "如何操作"(动作方向)—— 是实现精细化机器人操作的基础之一。精细操作要求机器人不仅能定位到物体的可交互区域,更要掌握接触后的准确运动方向,例如判断抽屉把手的精确拉动方向完成开合。

当前主流方法主要分为两大范式:基于检索的方法无需大量机器人数据,却受限于单一匹配的脆弱性与未见类别的覆盖盲区;基于训练的大规模模型虽能学习可迁移视觉模式,却频繁出现接触点定位不准、动作方向预测错误的问题,难以支撑精细操作所需的空间精度。

为突破这一瓶颈,东南大学魏秀参团队提出了 RAAP(检索增强型可供性预测)。RAAP 将 affordance 分解为静态接触点与动态动作方向两个分量并针对二者设计互补推理机制:接触点通过与 Top-1 检索参考的稠密特征匹配可靠迁移;动作方向则由全新的检索增强对齐模型负责,通过聚合多个参考样本与双权重注意力机制为精细操作提供可靠运动指引。整个框架每任务仅需数十个训练样本,即可实现跨类别的零样本精细机器人操作。

目前,该论文已被机器人领域顶级会议 IEEE International Conference on Robotics & Automation (ICRA 2026) 接收。



  • 论文标题: RAAP: Retrieval-Augmented Affordance Prediction with Cross-Image Action Alignment
  • 论文链接:https://arxiv.org/abs/2603.29419
  • 项目主页:https://github.com/SEU-VIPGroup/RAAP

RAAP:解耦静态与动态可供性的统一框架

RAAP 的核心设计思路是:静态接触点与动态动作方向虽同属 affordance,但在预测难度和所需信息上有本质区别,已有工作将二者作为可联合迁移的属性统一处理,往往顾此失彼。RAAP 明确将两者解耦,分别采用最适合各自特性的推理机制。



检索与静态 Affordance 迁移

RAAP 从 DROID 和 HOI4D 数据集构建视觉 affordance 记忆库,存储分割后的物体图像、CLIP 特征、任务标签以及标注的 2D 接触点与归一化动作方向向量,供推理时检索调用。给定查询场景,RAAP 首先通过 CLIP 文本与图像编码器从记忆库中检索 Top-K 个语义和视觉上最相关的参考样本。对于接触点定位,系统取 Top-1 参考,基于 Stable Diffusion 稠密特征进行像素级匹配,将参考接触点迁移至查询图像的对应位置。这一策略在前人工作中已得到充分验证。

动态 Affordance 预测:检索增强跨图像动作对齐

动作方向的预测是 RAAP 的核心创新所在。不同于接触点的几何对应性,动作方向高度依赖任务语义与操作意图,单一检索样本极易因匹配偏差引发全局性方向错误。为此,RAAP 引入了一个检索增强的跨图像动作对齐模块,通过聚合 Top-K 个参考样本的方向先验来降低预测歧义。

具体而言,查询图像与各参考图像共享 SigLIP-2 骨干网络提取 patch 级特征。对于每个参考样本,其标注的动作向量经 FiLM 调制作用于视觉特征,使外观与操作意图联合编码;随后多个参考特征拼接为统一的 Key-Value 矩阵,以查询特征为 Query 经跨注意力机制融合多参考方向线索,再通过 Transformer 编码器回归出预测动作方向。

为应对检索样本质量参差不齐的问题,RAAP 进一步设计了双权重注意力机制:以检索阶段的 CLIP 余弦相似度作为外观先验权重,以轻量门控网络输出的语义相关性作为补充权重,二者归一化融合后对参考样本加权 —— 外观权重拉近视觉相似者,语义门控权重抑制语义错位的噪声参考,共同保障多参考聚合的质量。



2D 到 3D 的 Affordance 提升与执行

预测得到的 2D affordance 经由相机内参与深度点云提升至 3D 空间。抓取后,2D 动作方向结合局部表面法向变换为 3D 位移向量,真实环境中采用笛卡尔阻抗控制执行接触后动作,保证柔顺安全的交互,最终支撑从接触定位到运动执行的全流程精细操作。

实验结果与分析

研究团队在 DROID 和 HOI4D 数据集以及真实 Franka 机械臂平台上进行了全面评估,与 RAM(单参考检索迁移框架)和 A0(大规模可供性预测模型)展开系统对比。



动态可供性预测

以均值角误差(MAE,越低越好)评估动作方向预测精度。RAAP(K=3)以 32.55° 的整体平均误差取得最优,相比其他方法降低超过 50%。优势在开 / 关类任务上尤为显著 ——RAM 的单样本迁移和 A0 在方向预测上均频繁出现全局性偏差,而 RAAP 通过多参考聚合有效消解了方向歧义。值得注意的是,DROID 子集平均每任务仅约 18 个训练样本,充分体现了 RAAP 在极低数据代价下的竞争力。



消融实验证实了双权重机制的必要性:去掉门控权重或相似度权重均导致明显性能下降,退化为均匀加权同样不及完整模型,说明两种权重信号功能互补、缺一不可。检索数量 K 的实验表明 K=3 为最优选择:过少时模型易受单次检索错误影响,过多时噪声参考开始拖累精度。



真实世界机械臂实验

研究团队在 Franka Research 3 机械臂上测试了未见物体泛化(任务相同,物体实例不同)与跨类别泛化(训练于开 / 关微波炉,测试于开 / 关柜子等新类别)两类场景,每任务随机位置下进行 20 次试验。所有模型仅在 DROID 和 HOI4D 子集上训练,不使用任何真实世界演示数据。

RAAP 在未见物体场景下于开 / 关抽屉任务上超过 RAM 达 15 至 25 个百分点,在所有拾取任务中同样取得最高成功率。跨类别场景中,RAAP 在关柜子任务上达到 100% 成功率,在其余任务上持续领先。



总结

RAAP 为精细机器人操作中的可供性泛化提供了一种将检索与对齐学习统一的解耦框架。其核心贡献在于:

  • 提出 RAAP,统一检索与训练范式,在数据稀缺下实现泛化,每任务仅需少量训练样本即可达到强性能,为精细操作场景下的低成本部署提供了可行路径。
  • 设计检索增强对齐模型,通过双权重注意力聚合多个参考,同时对静态与动态 affordance 采用互补机制。
  • 在 DROID、HOI4D 及真实平台上的全面评估,证明 RAAP 在未见物体和跨类别泛化场景下均优于基线,并在仿真与真实环境中验证了零样本精细机器人操作能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳老板破产6年,女儿从国外来电:你忘了伦敦金融街的房子吗?

深圳老板破产6年,女儿从国外来电:你忘了伦敦金融街的房子吗?

农村情感故事
2026-04-06 08:25:36
佛系超巨!约基奇8次出手便拿下三双,掘金豪取生涯首次10连胜!

佛系超巨!约基奇8次出手便拿下三双,掘金豪取生涯首次10连胜!

田先生篮球
2026-04-09 13:27:44
在银行工作是最好的避孕方式

在银行工作是最好的避孕方式

微微热评
2025-11-22 16:04:34
俄媒这句话直接封神,“只有把中国惹急了,世界才会安静。”

俄媒这句话直接封神,“只有把中国惹急了,世界才会安静。”

趣文说娱
2026-04-08 20:09:51
被做局了?李国庆曝董宇辉翻车真相:团队有内鬼!

被做局了?李国庆曝董宇辉翻车真相:团队有内鬼!

雷科技
2026-04-09 13:12:19
反美是工作,赴美是生活?——有多少伊朗高官的亲属生活在美国

反美是工作,赴美是生活?——有多少伊朗高官的亲属生活在美国

黑噪音
2026-04-07 11:09:01
安徽女童遇害,爷爷崩溃,凶手婚后状况曝光,难怪心狠手辣

安徽女童遇害,爷爷崩溃,凶手婚后状况曝光,难怪心狠手辣

梁蜱爱玩车
2026-04-09 13:46:54
40-39!开拓者或换帅!杨瀚森,天亮了!

40-39!开拓者或换帅!杨瀚森,天亮了!

篮球实战宝典
2026-04-08 16:54:05
樊振东自愿放弃!国乒公布世乒赛名单仅1小时 温瑞博落选原因曝光

樊振东自愿放弃!国乒公布世乒赛名单仅1小时 温瑞博落选原因曝光

侃球熊弟
2026-04-08 20:41:29
哈佛女孩刘亦婷跌落神坛,27年骗局真相终被揭露

哈佛女孩刘亦婷跌落神坛,27年骗局真相终被揭露

生命之泉的奥秘
2026-04-06 13:57:50
于东来现身洛阳王城公园看牡丹 游客:戴着墨镜和口罩被认出来了

于东来现身洛阳王城公园看牡丹 游客:戴着墨镜和口罩被认出来了

快科技
2026-04-06 12:26:10
恒大集团许家印坑的最惨的9位大佬

恒大集团许家印坑的最惨的9位大佬

地产微资讯
2026-03-29 19:08:15
71岁辽足功勋离世!妻子是女篮名帅,女儿六冠王,一门三杰太传奇

71岁辽足功勋离世!妻子是女篮名帅,女儿六冠王,一门三杰太传奇

洲洲影视娱评
2026-04-08 20:14:24
原来他是连战的大孙子,18岁身高超1米8品德兼优,是全家的骄傲

原来他是连战的大孙子,18岁身高超1米8品德兼优,是全家的骄傲

白面书誏
2026-04-04 16:36:11
巴拿马外长称中国增查扣押船只呼吁尊重主权

巴拿马外长称中国增查扣押船只呼吁尊重主权

俄罗斯卫星通讯社
2026-04-09 15:22:59
全球又要大乱?俄中将阵亡,美油管被炸,四国集体失声!

全球又要大乱?俄中将阵亡,美油管被炸,四国集体失声!

讯崽侃天下
2026-04-09 05:36:27
突发:中国往返澳新航班大范围取消!这些航线都受影响!

突发:中国往返澳新航班大范围取消!这些航线都受影响!

发现新西兰
2026-04-09 13:50:50
2020年,长沙女子癌症晚期,争夺女儿40万学费,直言:我只想活着

2020年,长沙女子癌症晚期,争夺女儿40万学费,直言:我只想活着

大鱼简科
2026-04-06 11:33:07
第二个恶魔医生被抓,郑大一附院王福建为94名患者植入不需要器械

第二个恶魔医生被抓,郑大一附院王福建为94名患者植入不需要器械

大鱼简科
2026-02-18 22:03:00
以军违约空袭伊朗后,革命卫队发射导弹回击,内塔尼亚胡秒停战

以军违约空袭伊朗后,革命卫队发射导弹回击,内塔尼亚胡秒停战

Ck的蜜糖
2026-04-09 15:29:55
2026-04-09 16:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12719文章数 142621关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

白宫发言人:特朗普直接把伊朗停战条款扔进了垃圾桶

头条要闻

白宫发言人:特朗普直接把伊朗停战条款扔进了垃圾桶

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

谈判基础已被破坏!霍尔木兹海峡关闭

汽车要闻

合资3.0革命性重构,文飞与神行者背水一战

态度原创

时尚
教育
游戏
旅游
军事航空

ED网红病,正在掏空年轻女性

教育要闻

一大早,南京一班主任连发三条信息:因天气原因体育中考延期

《真人快打1》销量突破800万份 官方感谢玩家反遭批评

旅游要闻

新华视点|文旅融合消费升级 春日经济活力涌动

军事要闻

黎真主党发射火箭弹 回应以违反停火协议

无障碍浏览 进入关怀版