网易首页 > 网易号 > 正文 申请入驻

IJCV 2022 | 通院机器人实验室提出:构建机器人场景感知与任务规划的桥梁

0
分享至

该项研究工作提出在机器人重建场景时,以一种包含运动学关系的场景图作为连接机器人场景理解和任务规划执行的桥梁。场景图系统性地描述了环境中各物体间的运动学关系,可被直接用于机器人任务和运动规划中,并帮助机器人“预测”其动作对环境的影响,最终使得机器人完成长时、复杂的作业任务,这是机器人进入千家万户的一个必要条件。同时,该研究重建出的场景可以导入仿真平台中,为具身智能体(embodied agents)提供了一个与现实场景功能相近的可交互的虚拟场景,有利于促进其技能学习与演化。

论文链接: https://link.springer.com/article/10.1007/s11263-022-01670-0 代码链接: https://github.com/hmz-15/Interactive-Scene-Reconstruction

一、动作信息助力机器人从三维重建到场景理解

感知三维环境并理解其中包含的信息是人类智能的重要体现,也是人与环境随心交互的前提。在环境的几何特征与物体的语义信息(比如这个物体是桌子还是椅子)之外,我们还能“感知”到人与环境的潜在交互方式,我们将其称之为环境中的动作信息(actionable information)。例如,当看到下图时,我们的脑海里会自然地浮现出“这只手将要转动门把手并拉开门”的潜在动作;

图1 (a) 人的手将要转动门把手(图源网络,版权归原作者所有)

而在下图的场景里,我们能够轻松地观察到堆叠的茶杯和碗碟相互支撑的约束关系,以及不同的动作对它们的状态产生的影响(比如单手直接抽取下面的碗碟会打翻上面的碗碟和茶杯,而从上往下逐一移走碗碟和茶杯后则可以安全地拿取下面的碗碟)。

图1(b) 堆叠的茶杯和碗碟 (图源网络,版权归原作者所有)

理解潜在动作对场景的影响,构成了人在场景中执行任务并与之交互的基础。相应地,智能机器人也需要类似的感知能力,才能使其在环境中自主地完成复杂的长时程 (long-horizon) 规划。

随着三维场景重建 (3D scene reconstruction) 和语义建图 (semantic mapping) 技术渐趋成熟,机器人已经能够有效地建立包含几何与语义信息的三维地图,例如包括物体与房间结构的语义全景地图 (panoptic map),如图2(b)。然而这些传统场景重建的场景表征(scene representation) 与实现机器人自主规划之间,仍然有难以逾越的鸿沟。

那么问题来了,我们如何能构造一种通用于机器人感知和规划的场景表征,以提高机器人的自主规划能力呢?机器人如何利用自身传感器输入(例如RGB-D相机)在真实场景中建立这样的场景表征呢?

在这篇论文[1]中,研究人员提出了一个全新的研究问题:重建与现实场景功能相同的 (functionally-equivalent)、可交互的 (interactive) 虚拟场景,以保留原场景的潜在动作信息。重建后的虚拟场景可以被用于机器人自主规划的仿真训练与测试。

为实现这一重建任务,研究人员提出了一种基于物理支撑 (supporting relation) 与紧邻 (proximal relation)关系的场景图表征,如图2(a);它的每个节点代表场景中的一个物体或者一种房间结构(墙/地面/房顶)。这一场景图表征将重建后的场景以及其中包含的物理约束有机组织起来,以保证得到的虚拟场景是符合物理常识的。同时,它可以直接被转换成环境的树状运动链(kinematic tree) ,完整地描述了环境的运动学关系状态,并支持前向预测机器人动作对环境的影响,可被直接用于机器人规划任务中。这篇论文也提出了一个完整的机器视觉系统来实现这一重建任务,并为重建后的场景设计了输出接口,使其能够被无缝接入机器人仿真器(例如Gazebo)和VR环境中。这一论文的部分前期工作[2]曾发表在ICRA 2021上。

图2 (a) 基于支撑与紧邻关系的场景图,(b) 体积式语义全景建图,© 与现实场景功能相同的、可交互的虚拟场景,可用于机器人自主规划的仿真测试

二、场景图重建助力机器人规划仿真

在虚拟环境中重建真实场景以支持机器人仿真并非一个简单的问题,主要的难点有三:

  • 一是如何在杂乱的真实场景中准确重建并分割出每个物体与结构的几何信息,并估计物体间的物理约束(比如支撑关系等);

  • 二是如何将重建出的不完整的几何形状替换成完整的、可交互的物体(例如CAD模型);

  • 三是如何将所有这些信息有机融入某种通用的场景表达,同时帮助场景重建和机器人自主规划。

该项研究工作提出利用一种特殊的场景图作为连接场景重建与机器人交互的桥梁,在帮助重建出符合物理常识的虚拟场景的同时,为机器人自主规划提供必要的信息。

一方面,这一场景图将场景中感知到的物体、房间结构以及它们之间的关系组织起来,如图3(a) 所示。它的每个节点代表识别并重建出的真实场景中的物体或者房间结构,包括了它的几何(例如重建出的三维网格 (mesh)、三维最小包围框、提取出的平面特征等)与语义信息(如实例与语义标签);而每条边则表示节点之间的支撑关系(见图3 (a) 中的有向边)或者紧邻关系(图3 (a)中的无向边),代表着某些物理约束信息。比如对支撑关系来说,父节点需要包含水平的支撑面来实现对子节点的稳定支撑;再如对紧邻关系来说,相互接近的两个节点的三维几何不应该有相互的重叠,等等。

图3 (a) 直接重建出的场景图

另一方面,根据语义与几何的形似性并综合考虑节点间的约束,图3 (a) 中的节点被替换成几何完整的、可交互的CAD模型(包括多关节 (articulated) 的CAD模型),进而得以生成可用于机器人仿真交互的虚拟场景,如图3 (b)。这样的虚拟场景在感知能力允许的范围内尽可能保留了真实场景的功能 (functionality),也就是潜在动作信息,可以有效实现对现实场景中与物体交互结果的仿真。而相应地,得到的场景图表征也包含了对环境运动学以及约束状态的完整描述,可用来预测机器人动作对运动学状态的短期定量影响并帮助机器人运动规划,以及估计机器人动作对约束关系造成的长期定性影响并支持机器人任务规划。

图3(b) 替换CAD模型后的可交互场景图

为实现上述重建任务,研究员设计并实现了一个多模块的机器视觉系统:一个体积式语义全景建图模块(图4 (A) )和一个基于物理常识与几何的CAD模型替换推理模块(图4 (B) )。前者被用于鲁棒地在复杂真实环境中借助RGB-D相机识别、分割并重建出物体与房间结构的稠密几何,并估计它们之间的约束关系,以得到如图3 (a) 中的场景图;而后者聚焦于如何根据重建物体的几何特征与识别出的约束关系从CAD模型库中选择最合适的CAD模型,并估计其位姿与尺度,以达到与原物体尽可能准确的对齐,进而生成图3 (b) 所示的可交互的场景图。

图4 用于重建任务的机器视觉系统流程图

图5展示了研究员借助Kinect2相机对真实办公室场景的重建结果,包括体积式全景重建(图5 (a) )、可交互虚拟场景重建(图5 (b) )以及将虚拟场景导入机器人仿真器后机器人交互的样例(图5 © )。可以看到,即使在复杂、多遮挡的真实场景中,论文提出的重建系统也能较好地建立可交互的虚拟场景。

图5(a-c)在真实环境中用Kinect2相机的重建结果

图5 (d-f) 展示了这一实验中的一些有趣的例子。在图5 (d) 中,由于椅子对桌子的遮挡,同一个桌子被重建成两个相对短小的桌子;图5 (e) 展示的工位得到了比较高质量的重建,所有的物体都被替换成了外表相近的CAD模型;图5 (f) 中的椅子未能被识别出来,其对后面桌子的遮挡造成了与图5 (d) 相似的情况,而场景中的冰箱与微波炉被重建出来并替换成了多关节、可承载复杂交互的CAD模型。

图5(d-f)在真实环境中用Kinect2相机的重建结果

图6 在重建的虚拟场景中的机器人任务与动作规划

在重建得到的可交互虚拟场景里,借助场景图反映的运动链以及约束信息,机器人可以进行任务与动作规划[3,4],其仿真效果如图6所示。在最近的相关工作[5]中,基于上文所述的场景图表征,机器人可以直接根据图编辑距离 (graph editing distance) 进行复杂的任务规划,并高效地生成动作。

三、总结

这项工作提出了一个全新的场景重建问题和场景图表征,为机器人自主规划提供了必要的信息,并为其仿真测试提供了与现实场景功能相近的可交互的虚拟场景。同时,这一工作也开发了一个完整的机器视觉系统,以实现所提出的场景重建问题。实验证明了本研究提出的场景重建方法的有效性,以及场景图表征在机器人自主规划方面的潜力。

未来,我们期待这项工作取得进一步拓展:更鲁棒、更精准地实现刚体与多关节CAD模型与重建几何的匹配、在场景图中融合更复杂的潜在动作信息、以及更好地利用场景提进行机器人规划,更智能的机器人就在不远的将来。


参考文献

[1] Han, Muzhi, et al. “Scene Reconstruction with Functional Objects for Robot Autonomy.” 2022 International Journal of Computer Vision (IJCV), link.springer.com, 2022.
[2] Han, Muzhi, et al. “Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model Alignments.” 2021 IEEE International Conference on Robotics and Automation (ICRA), ieeexplore.ieee.org, 2021, pp. 12199–206.
[3] Jiao, Ziyuan, et al. “Consolidating Kinematic Models to Promote Coordinated Mobile Manipulations.” 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), IEEE, 2021, doi:10.1109/iros51168.2021.9636351.
[4] Jiao, Ziyuan, et al. “Efficient Task Planning for Mobile Manipulation: A Virtual Kinematic Chain Perspective.” 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), ieeexplore.ieee.org, 2021, pp. 8288–94.
[5] Jiao, Ziyuan, et al. “Sequential Manipulation Planning on Scene Graph.” 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), ieeexplore.ieee.org, 2022.

公众号:【通院BIGAI】 作者:PKU-IAI

Illustration by IconScout Store from IconScout

-The End-

扫码观看!

本周上新!

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
颖儿在云南昆明租房,住富人区房租每月上万,买的快递堆满过道

颖儿在云南昆明租房,住富人区房租每月上万,买的快递堆满过道

八怪娱
2026-05-25 20:33:57
破案!上海为何两个外援也能击败广厦?刘炜说出原因,球迷:有理

破案!上海为何两个外援也能击败广厦?刘炜说出原因,球迷:有理

南海浪花
2026-05-27 06:31:10
德国5名议员窜台之际,德媒发现不妙,大陆态度决绝,恐有大动作

德国5名议员窜台之际,德媒发现不妙,大陆态度决绝,恐有大动作

青烟小先生
2026-05-27 09:52:34
比阿尔瓦雷斯强太多!阿森纳抢 1 亿英超巨星!阿尔特塔亲自拍板

比阿尔瓦雷斯强太多!阿森纳抢 1 亿英超巨星!阿尔特塔亲自拍板

澜归序
2026-05-27 06:27:30
5名德国议员窜访台湾,德媒发现不妙,大陆划下红线,恐有大动作

5名德国议员窜访台湾,德媒发现不妙,大陆划下红线,恐有大动作

华史谈
2026-05-27 08:46:57
俄绝密计划曝光,若和北约开战,先打中国两个邻国,亚洲成战场?

俄绝密计划曝光,若和北约开战,先打中国两个邻国,亚洲成战场?

不同时代的魅力
2026-05-26 17:16:11
最佳睡眠时长又更新了!Nature和Cell:6.4-7.8小时最抗衰,少于6小时死亡风险激增50%;每晚9-11点入睡能年轻3岁,肝脏40岁就率先加速衰老

最佳睡眠时长又更新了!Nature和Cell:6.4-7.8小时最抗衰,少于6小时死亡风险激增50%;每晚9-11点入睡能年轻3岁,肝脏40岁就率先加速衰老

梅斯医学
2026-05-26 07:52:52
国外女主播用脚底当屏幕映射直播《黑魂3》被封禁

国外女主播用脚底当屏幕映射直播《黑魂3》被封禁

3DM游戏
2026-05-26 14:08:05
《亢奋》女主全裸出镜,与巨星之子上演大尺度戏码

《亢奋》女主全裸出镜,与巨星之子上演大尺度戏码

赴一场山海啊
2026-05-26 00:33:31
一月八万不够花,李双江“赖”学校不退休,儿子改名出国后再作妖

一月八万不够花,李双江“赖”学校不退休,儿子改名出国后再作妖

一盅情怀
2026-05-16 20:12:47
“中国首胖”王浩楠!为爱切胃暴瘦480斤,成名出轨抛妻 结局唏嘘

“中国首胖”王浩楠!为爱切胃暴瘦480斤,成名出轨抛妻 结局唏嘘

揽星河的笔记
2026-05-25 17:08:18
太尴尬!35+大龄剩女相亲成冷门,现场男士绕着走,没人上前搭讪

太尴尬!35+大龄剩女相亲成冷门,现场男士绕着走,没人上前搭讪

丫头舫
2026-05-25 12:54:05
李小孩的“小绿瓶”,看起来很平凡,为啥禁止出境展览?

李小孩的“小绿瓶”,看起来很平凡,为啥禁止出境展览?

收藏大视界
2026-05-24 17:41:29
去了趟印度,鲁比奥彻底服了,单就凭一点,印度永远无法成为中国

去了趟印度,鲁比奥彻底服了,单就凭一点,印度永远无法成为中国

临云史策
2026-05-26 11:55:15
尴尬了!女选手泳装移位露胸照片被直播推送,10000人围观超1小时

尴尬了!女选手泳装移位露胸照片被直播推送,10000人围观超1小时

火山詩话
2026-05-26 08:13:11
去了趟印度后,鲁比奥彻底服了,就凭一点,印度永远无法成为中国

去了趟印度后,鲁比奥彻底服了,就凭一点,印度永远无法成为中国

羽逸地之光
2026-05-27 00:14:52
白玉兰上演“不舒服学”,赵丽颖热巴全掉提,《生命树》成大赢家

白玉兰上演“不舒服学”,赵丽颖热巴全掉提,《生命树》成大赢家

水中烧烤的娱
2026-05-26 19:24:31
在美日资企业工厂爆炸致多人死伤

在美日资企业工厂爆炸致多人死伤

澎湃新闻
2026-05-27 09:07:51
浙江男子商场砸店后续:本人发声,怀疑被做局,投入400万打水漂

浙江男子商场砸店后续:本人发声,怀疑被做局,投入400万打水漂

小鋭有话说
2026-05-27 08:45:15
美国教授演讲:千年中国从未入侵日本,日本却十二次侵扰中国

美国教授演讲:千年中国从未入侵日本,日本却十二次侵扰中国

唠叨说历史
2026-05-26 16:51:24
2026-05-27 10:56:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2391文章数 596关注度
往期回顾 全部

科技要闻

美光股价大涨超19% 市值破万亿美元

头条要闻

媒体:鲁比奥访印 美印之间"蜜里藏刀"三大痛点很微妙

头条要闻

媒体:鲁比奥访印 美印之间"蜜里藏刀"三大痛点很微妙

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

小S晒归宁宴旧照,大S穿吊带裙扎丸子头

财经要闻

ST岩石退市背后:A股“炒壳”时代终结

汽车要闻

试驾新红旗HQ9 2.0T混动+双电机四驱

态度原创

房产
数码
手机
公开课
军事航空

房产要闻

招商地产接盘碧桂园!海口这个烂尾豪宅,要彻底改命?

数码要闻

服役20年正式落幕!NVIDIA官宣控制面板全面停更

手机要闻

小米自研大模型MiMo-V2.5系列API永久降价:最高降99% 不再区分上下文长度

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

多国接到撤离警告 俄升级对乌报复性打击

无障碍浏览 进入关怀版