网易首页 > 网易号 > 正文 申请入驻

T-PAMI|中国科大、合工大等提出CAPER++:让关节物体位姿感知真正迈向「又快又稳」

0
分享至

来源:市场资讯

在具身智能快速发展的今天,机器人已经不再满足于「看见」刚体物体,而是开始真正走向复杂环境中的交互与操作。从机械臂开柜门,到服务机器人整理抽屉,再到工业场景中的工具操作,大量真实世界目标都属于关节物体(Articulated Objects)。

对于具身智能系统而言,如何准确理解这些物体的空间姿态与运动状态,一直是迈向真实场景交互的关键难题。

然而,相比传统刚体,关节物体的位姿感知一直是一个更加困难的问题。这是因为,关节物体不仅存在多部件结构,还伴随着复杂的运动约束关系。不同部件之间并不是彼此独立,而是受到旋转关节、滑动关节等运动学结构的强约束。一旦遮挡、快速运动或观测残缺出现,传统方法就容易产生不符合物理规律的预测结果。

近年来,类级别关节物体位姿估计逐渐成为热点方向,却存在一个长期未被真正解决的问题:

如何同时兼顾「鲁棒性」与「实时性」?

一类方法依赖复杂后处理与优化过程,虽然精度较高,但速度难以满足实时需求;另一类方法强调端到端效率,却往往忽略运动学约束,在复杂场景下容易出现姿态抖动、结构不一致甚至长期跟踪漂移,即不稳定预测。

针对这一问题,来自中国科学技术大学、合肥工业大学等机构的研究团队提出了 CAPER++:一个兼具高鲁棒性、高效率与实时追踪能力的统一关节物体位姿感知框架。该工作已被《IEEE Transactions on Pattern Analysis and Machine Intelligence》(TPAMI)接收。

CAPER++ 是一个端到端的一体化关节物感知方案:可自由切换到关节物体的静态位姿估计和动态位姿追踪。目前代码已开源,欢迎学术界和工业界试用。


  • 论文标题: Probing Effective and Efficient Category-Level Articulated Object Pose Perception

  • 论文链接:https://ieeexplore.ieee.org/abstract/document/11480457

  • 项目主页:https://sites.google.com/view/caperplusplus

  • 仓库链接:https://github.com/zanly20/CAPERPlusPlus

引言

过去几年,机器人领域正在经历一个明显变化:研究重点开始从「识别物体」逐渐转向「理解物体如何运动」。对于真实世界中的机器人而言,仅仅知道一个物体「是什么」已经远远不够。机器人还需要理解它「如何被打开」「如何被推动」「哪些部分可以运动」,以及不同部件之间存在怎样的运动约束关系。

与传统刚体不同,关节物体往往由多个部件构成,并通过旋转关节或滑动关节连接。例如柜门会绕铰链旋转,抽屉会沿轨道滑动,机械臂不同连杆之间也存在复杂耦合关系。这意味着,机器人不仅需要感知物体整体姿态,还必须同时推理不同部件之间的相对运动状态。

然而,这一任务远比想象中困难。一方面,真实场景中普遍存在遮挡、快速运动以及残缺观测问题;另一方面,关节结构天然具有严格的运动学约束,而现有方法大多采用独立的 part-wise 建模策略,将各个部件分别预测后再进行组合。这种方式虽然直观,却容易忽略部件之间的关联关系,导致预测结果不稳定,甚至出现不符合物理规律的姿态结构。

更关键的是,许多高精度方法仍然依赖复杂优化或后处理过程。这类方法虽然能够提升估计精度,但推理效率往往难以满足真实机器人系统对于实时性的要求。

在 CAPER++ 这篇论文中,与传统「零件独立预测」的思路不同,CAPER++ 首次从「关节驱动」的视角重新建模关节物体。论文提出了一种 Joint-Centric(关节中心)层次化建模策略,将物体划分为 Root Part 与 Constrained Part,并显式引入运动学约束,使网络能够学习更加符合物理规律的位姿结构。

更进一步,CAPER++ 将位姿学习过程从传统欧式空间拓展至 SE (3) 流形切空间,通过 Lie Algebra 建模旋转与位姿增量,有效缓解了传统旋转回归中的奇异性、不稳定优化以及几何约束破坏等问题。在保证高精度的同时,实现了无需后处理的端到端推理。

而在动态追踪场景中,CAPER++ 进一步提出 Proxy Canonicalization 与动态关键帧机制,将连续视频中的位姿追踪转化为相邻帧之间的增量学习问题,大幅降低长期漂移与时序抖动,使系统在复杂动态环境中依然保持稳定预测。实验结果显示,CAPER++ 不仅在多个合成、半真实与真实世界数据集上取得了当前最优性能,还实现了 50 FPS 实时推理速度,真正兼顾了「精度」「鲁棒性」与「实时性」三项长期难以统一的目标。

不再「零件各管各的」:

CAPER++ 如何重新理解关节物体?

现有大量关节物体位姿估计方法,本质上都遵循一种典型思路:先将物体拆分成多个部件(Part),再分别预测每个部件的位姿,最后进行组合恢复。

这种 Part-wise 建模方式虽然直观,却存在一个长期被忽略的问题:

现实世界中的关节物体,本来就不是「彼此独立」的。

例如柜门的运动一定围绕铰链展开,抽屉只能沿滑轨方向移动,机械臂不同连杆之间也始终受到运动链约束。换句话说,部件之间天然存在强耦合关系。但传统方法往往将这些部件视作相互独立的刚体进行预测,导致模型虽然「看到了局部」,却无法真正理解整体运动结构。

这也是为什么,在遮挡、残缺观测或者复杂运动场景下,传统方法容易出现结构不一致、姿态漂移甚至违反物理规律的预测结果。

针对这一问题,CAPER++ 提出了 Joint-Centric(关节中心)层次化建模策略,从「关节」而非「部件」视角重新定义关节物体位姿感知。

论文将整个关节物体划分为 Root Part 与 Constrained Part 两类结构。其中,Root Part 作为运动参考主体,负责建立整体空间坐标;而其余可运动部件,则不再被独立回归完整 6D 位姿,而是通过关节参数与运动状态进行约束恢复。


这一设计带来了一个关键变化:

模型不再直接学习「每个部件在哪里」,而是开始学习「部件为什么会这样运动」。

在具体实现上,CAPER++ 首先预测 Root Part 的位姿,并将输入点云变换到规范化关节空间(Canonicalized Articulation Space)。随后,网络进一步估计关节轴、旋转中心以及关节状态等运动学参数,并结合运动约束恢复其余部件姿态。

相比传统独立预测方式,这种关节中心建模不仅显著提升了结构一致性,还使模型在遮挡、快速运动以及复杂关节配置下保持更强鲁棒性。

为什么传统旋转回归总「不稳定」?

CAPER++ 把位姿学习搬进了 SE (3) 流形

在关节物体位姿估计中,真正困难的部分,往往不是「看见物体」,而是「如何正确描述运动」。尤其是旋转。

长期以来,大量位姿估计方法都默认在欧式空间(Euclidean Space)中直接回归旋转参数,例如 Euler Angle、Quaternion 或 Rotation Matrix。这样的方式虽然简单,但始终存在一个核心问题:

旋转本身,其实并不属于普通欧式空间。

例如欧拉角存在万向节锁(Gimbal Lock)问题;四元数虽然连续,却需要额外归一化约束;而旋转矩阵则天然受到正交约束限制。这意味着,网络虽然是在「学习旋转」,但优化过程却始终运行在一个并不匹配的空间中。

这种几何不一致,会直接导致训练不稳定、优化困难以及姿态抖动等问题。尤其在关节物体场景下,由于多个部件之间存在复杂运动耦合,误差还会进一步累积放大。

CAPER++ 则尝试从更底层的几何结构重新思考这一问题。


论文首次将关节物体位姿学习过程从传统欧式空间拓展至 SE (3) 流形切空间(Tangent Space),并基于 Lie Algebra 对位姿增量进行建模。

这一设计的核心思想在于:

既然刚体运动天然属于 SE (3) 群,那么位姿学习过程本身,也应该在符合其几何结构的空间中完成。

具体而言,CAPER++ 不再直接回归最终旋转结果,而是学习位姿在 Lie Algebra 空间中的增量表达,再通过指数映射恢复真实 SE (3) 位姿。相比传统直接回归方式,这种方法能够更自然地保持旋转连续性与几何一致性。

更重要的是,这种建模方式对于关节物体尤为关键。

因为不同部件之间的相对运动,本质上就是定义在 SE (3) 空间中的局部变换关系。通过在流形空间中进行统一优化,CAPER++ 能够更加稳定地建模复杂关节运动链,并有效降低长期预测漂移。

实验结果表明,该设计不仅显著提升了位姿估计稳定性,同时也增强了模型在复杂动态场景下的鲁棒性。

为什么位姿追踪总会「越跟越飘」?

CAPER++ 把长期追踪变成了局部增量学习

在真实机器人场景中,位姿估计往往并不是「一次性任务」。机器人需要持续观察目标物体,并在连续视频流中不断更新其位姿状态。无论是机械臂操作柜门,还是服务机器人拉开抽屉,系统都必须在动态过程中稳定追踪关节物体的运动变化。

然而,长期位姿追踪一直存在一个非常棘手的问题:

误差会不断累积。

传统追踪方法通常直接以前一帧预测结果作为下一帧输入,并持续递推更新。短时间内这种方式或许有效,但随着时间推移,微小误差会逐渐放大,最终导致明显漂移、姿态抖动甚至跟踪失败。对于关节物体而言,这一问题会更加严重。

因为关节物体不仅包含整体运动,还伴随着多个部件之间的局部运动变化。当遮挡、快速运动或观测残缺出现时,系统很容易逐渐偏离真实运动轨迹。

CAPER++ 则从另一个角度重新思考了位姿追踪问题。

论文提出,与其让模型直接学习「长期运动」,不如将连续追踪拆解为大量「短距离局部增量」。

基于这一思想,CAPER++ 设计了 Proxy Canonicalization 与动态关键帧(Dynamic Keyframe)机制,将长时序位姿追踪转化为相邻帧之间的局部增量学习问题。


具体而言,系统会动态选择关键帧作为参考坐标,并将当前观测规范化到局部代理空间(Proxy Canonical Space)中。在这一空间下,模型无需处理复杂的大范围运动变化,而只需要学习相邻帧之间更加稳定的小幅位姿增量。

这一设计带来了一个重要优势:

复杂的全局运动,被转化成了更加容易学习的局部连续运动。

与此同时,动态关键帧机制还能周期性重置参考状态,有效抑制长期误差传播,从根源上降低漂移问题。实验结果表明,即使在快速运动、严重遮挡以及长时序动态场景下,CAPER++ 依然能够保持稳定、连续且高精度的位姿追踪能力。

实验结果

对于关节物体位姿感知而言,「高精度」并不意味着真正可用。在真实机器人场景中,一个方法不仅需要预测准确,还必须能够在遮挡、快速运动以及残缺观测下保持稳定,并满足实时推理需求。这也是为什么,许多实验室中的高精度方法,最终难以真正部署到真实系统中的核心原因。

CAPER++ 的实验部分,恰恰重点验证了这一点。论文分别在合成数据集、半真实场景以及真实世界数据集上进行了大规模评估,覆盖多类别、多关节结构以及复杂动态场景。实验结果表明,CAPER++ 在位姿估计与位姿追踪任务中均取得了当前最优性能。


尤其值得关注的是,在复杂遮挡与运动干扰场景下,CAPER++ 依然能够保持稳定预测。相比传统 Part-wise 方法,其预测结果不仅精度更高,而且关节结构更加符合真实物理运动规律,显著降低了部件漂移与结构错位问题。

除了定量结果,论文中的可视化结果同样非常直观。


在多个动态序列中,CAPER++ 能够持续稳定地跟踪关节物体运动状态,即使面对快速旋转、局部遮挡以及残缺点云输入,依然能够保持连续且平滑的位姿预测。而部分传统方法则会逐渐出现关节偏移、结构断裂甚至整体跟踪失败。

更重要的是,CAPER++ 并没有为了精度牺牲实时性。得益于 Joint-Centric 层次化建模与增量式追踪机制,CAPER++ 在无需复杂后处理与优化求解的情况下,实现了约 50 FPS 的实时推理速度。这意味着,该方法不仅能够「看得准」,还能真正满足机器人在线交互与动态操作需求。

某种意义上,CAPER++ 真正解决的,并不仅仅是「位姿估计」本身,而是让关节物体位姿感知第一次同时具备了「精度」「鲁棒性」与「实时性」三项长期难以兼顾的能力。

结语

长期以来,关节物体位姿感知始终面临一个核心矛盾:高精度方法往往依赖复杂优化,难以满足实时需求;而强调效率的方法,又容易在复杂动态场景下出现结构不稳定与长期漂移问题。

这也是为什么,尽管近年来相关研究不断发展,但真正能够部署到真实机器人系统中的方法仍然有限。

CAPER++ 的意义,恰恰在于尝试进一步缩小「实验室方法」与「真实场景需求」之间的距离。

论文不仅在多个数据集上实现了稳定、准确且实时的关节物体位姿感知能力,也进一步说明:对于复杂运动结构的理解,仅依赖局部几何信息往往是不够的,运动约束、结构一致性以及时序连续性,同样是机器人感知系统中不可忽视的重要部分。

随着具身智能、机器人操作以及动态场景交互持续发展,这类兼顾鲁棒性、实时性与物理一致性的感知框架,未来有望在家庭机器人、工业自动化以及复杂人机交互等场景中发挥更实际的价值。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨瀚森回国余嘉豪养伤!男篮内线名单呼之欲出,徐昕的去留要看一个人

杨瀚森回国余嘉豪养伤!男篮内线名单呼之欲出,徐昕的去留要看一个人

夕落秋山
2026-06-05 00:38:41
60岁李连杰削苹果惊艳全网:没有一招一式,却让千万网友破防了

60岁李连杰削苹果惊艳全网:没有一招一式,却让千万网友破防了

小椰的奶奶
2026-06-04 01:42:35
刘品言夫妇一家三口现身街头,半岁女儿首曝光,白白胖胖太萌了

刘品言夫妇一家三口现身街头,半岁女儿首曝光,白白胖胖太萌了

小椰的奶奶
2026-06-04 12:22:05
日媒突然发现一个扎心事实:中国人的生活里,日本货快找不着了

日媒突然发现一个扎心事实:中国人的生活里,日本货快找不着了

互联鱼
2026-06-02 19:32:57
北京时间6月4日上午,国乒公布王楚钦、孙颖莎、周启豪的重要消息

北京时间6月4日上午,国乒公布王楚钦、孙颖莎、周启豪的重要消息

兰亭墨未干
2026-06-04 13:43:04
从36跌到3.5,跌了整整8年,好不容易等到一个涨停,结果炸板了!

从36跌到3.5,跌了整整8年,好不容易等到一个涨停,结果炸板了!

丁丁鲤史纪
2026-05-30 17:08:34
传香港4.3万亿大基金,盯上标普500了,金管局正低调选机构

传香港4.3万亿大基金,盯上标普500了,金管局正低调选机构

财通社
2026-06-04 18:27:29
C罗带一家度假,八块腹肌,41岁夺冠,再战世界杯,乔治娜太性感

C罗带一家度假,八块腹肌,41岁夺冠,再战世界杯,乔治娜太性感

大西体育
2026-06-04 21:59:40
央视:我海军正在为辽宁号和山东号航母配备新型歼-35隐形战斗机

央视:我海军正在为辽宁号和山东号航母配备新型歼-35隐形战斗机

止戈军是我
2026-06-03 23:32:26
大模型产业“爆发”或是资本闹剧

大模型产业“爆发”或是资本闹剧

烽火瞭望者
2026-06-04 06:37:02
不陪特朗普玩了!伊朗发起斩首行动,美军司令部被炸?英法德失声

不陪特朗普玩了!伊朗发起斩首行动,美军司令部被炸?英法德失声

回家阿哥
2026-06-04 21:14:55
米体:弗拉霍维奇自由身离队,尤文未在年薪800万欧+签字费让步

米体:弗拉霍维奇自由身离队,尤文未在年薪800万欧+签字费让步

懂球帝
2026-06-04 23:05:25
李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

娱乐团长
2026-06-02 15:09:12
35页PPT疯传:洛阳女子1女谈3男,每天卡时间,都已谈婚论嫁

35页PPT疯传:洛阳女子1女谈3男,每天卡时间,都已谈婚论嫁

烈史
2026-05-30 13:23:41
广州最该整治的,不是电鸡,是网约车!

广州最该整治的,不是电鸡,是网约车!

广州PLUS
2026-06-04 18:54:44
101万亿债务压顶!全民化债浪潮袭来,收入受影响普通人该咋办?

101万亿债务压顶!全民化债浪潮袭来,收入受影响普通人该咋办?

今朝牛马
2026-06-02 21:24:29
A股,尾盘传来“一个利好”信号,明天,或将迎来大变盘!

A股,尾盘传来“一个利好”信号,明天,或将迎来大变盘!

夜深爱杂谈
2026-06-04 22:07:23
国民党多人要参加海峡论坛后,台陆委会妄称:蓝营这人不准参加

国民党多人要参加海峡论坛后,台陆委会妄称:蓝营这人不准参加

爱看剧的阿峰
2026-06-04 18:48:53
一段录音炸穿白宫!美国第一夫人梅拉尼娅,被曝曾是爱泼斯坦伴游

一段录音炸穿白宫!美国第一夫人梅拉尼娅,被曝曾是爱泼斯坦伴游

共工之锚
2026-06-05 00:08:22
物流业稳步回暖 经济活力持续释放

物流业稳步回暖 经济活力持续释放

人民网
2026-06-04 14:34:33
2026-06-05 01:40:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3481430文章数 7822关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

美财长:我说过要“揍他一顿”

头条要闻

美财长:我说过要“揍他一顿”

体育要闻

欧冠决赛躺赢?他也曾是大巴黎的英雄

娱乐要闻

难怪奚梦瑶能嫁入豪门

财经要闻

AI公司的顶部在哪?

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

艺术
本地
旅游
游戏
军事航空

艺术要闻

“海洋漩涡”:用太平洋上的垃圾,造市政建筑!

本地新闻

用杨柳青年画的方式,打开天津

旅游要闻

酒香、菜香,还有书香!藏在新街口的老巷子(第二弹)

《艾尔登法环》新DLC来了!全新装备、全新身份

军事要闻

美众议院要求特朗普停止对伊动武并撤军

无障碍浏览 进入关怀版