网易首页 > 网易号 > 正文 申请入驻

IROS 2021 | 没有图纸,机器人也会搭积木桥

0
分享至

作者 | 李云飞

编辑 | 陈大鑫

用积木拼搭各种建筑应该是很多小朋友童年的一大乐趣。现在,聪明的机器人也能自己玩积木了,而且不用人告诉它成品长什么样,机器人可以自己设计、建造一并完成。

AI 科技评论今天介绍一篇来自清华大学和字节跳动的研究者发表在 IROS 2021 的论文:“Learning to Design and Construct Bridge without Blueprint”

论文链接:https://arxiv.org/abs/2108.02439

1

介绍

这篇论文提出了机器人设计与搭积木桥任务。如图1最左所示,场景中有两个“悬崖”和若干积木,机器人的任务是利用尽量少的积木把悬崖连接起来。悬崖之间的距离是随机的,物料的数量也是变化的。

图1:机器人搭桥任务示意

需要强调的是,机器人搭桥任务中需要关注的问题和之前许多机器人操作(manipulation )任务不太一样。之前的工作比如装配 (assembly)、物体布置 (rearrangement)、堆积木 (stacking) 等,它们的最终目标状态都事先知道,不需要机器人自己规划每个物体的目标状态。这就相当于机器人拿着“设计师”给好的“图纸”,只需要负责规划怎样“施工”才能实现图纸上的状态。而在搭桥任务中,机器人手中并没有图纸,它看到的只是两个悬崖和能用来搭桥的积木。至于应该用多少块积木、每块积木摆在哪里才能把悬崖连起来、应该先放哪块再放哪块积木、具体应该怎么把积木放过去,所有的问题我们的机器人都要考虑,现在它得既当设计师又当工程师了。

由于搭桥的任务非常复杂,如果机械臂考虑的每一步动作仅仅是旋转自己关节的角度的话,那需要规划的步数是非常庞大的,直接解这样的问题几乎不可能。所以,该工作借鉴了 Task and Motion Planning (TAMP,任务与动作规划) 的做法,把搭桥抽象成两层问题来做。

在高一层,机器人只关心积木块的移动,每一步动作是“瞬移”一个积木,而省略掉机械臂操作积木的细节。在低一层,机械臂负责解算如何控制自己的关节才能把积木移动过去。换句话说,解决高层问题的智能体主要负责设计桥的形态,所以也叫它 blueprint policy(蓝图设计策略)。

而底层问题其实就是机械臂的 pick and place(抓取与放置)任务,可以交给传统的 motion planning(动作规划)方法解决。整体的框架如图1右侧所示。

2

搭桥的任务设定

在桌面上放置两个间距随机的物块当作悬崖,再给机器人提供数量不定的积木当物料,希望机器人能利用这些物料搭出某种结构,把两个悬崖连起来。

搭桥任务主要的难点就是在 blueprint policy 负责的桥梁设计环节。这个问题可以建模为一个 Markov 决策过程 ( MDP: Markov decision process,一种序列决策过程) ,由状态 (state),动作 (action),转移关系 (transition) 和奖励信号 (reward) 定义。Blueprint policy 在每一步会先获取环境的状态,然后决定采取什么样的动作,接着环境会转移到下一个状态,同时将奖励信号反馈给 blueprint policy。就这样,blueprint policy 通过不断地与环境交互,使用强化学习来调整自己的决策,提升自己的表现。MDP 中每个要素的具体定义是这样的:

状态环境中所有物体的6自由度位姿(包括三维位置和三维旋转)、速度、尺寸;

动作:物体编号和目标位姿,它表示 blueprint policy 决定把该物体的位姿从当前状态变到目标状态;

转移关系:在物理引擎中先根据 blueprint policy 的动作,把选中的物体瞬移成动作中的目标状态,接着在重力作用下跑物理仿真,直到所有物体都稳定下来,物理引擎再把此时的状态作为转移到的新状态返回给 blueprint policy 。作者之所以让物理引擎继续模拟而不是直接返回瞬移结果,是因为 blueprint policy 指定的目标状态很可能在现实中没法稳定存在(比如积木悬浮在空中或者与其他物体有碰撞),通过物理仿真就能让 blueprint policy 知道什么样的状态是物理上可行的,帮助 blueprint policy 建立对物理规律的理解。

奖励信号:如果桥成功搭出来了,agent 会获得一个大的奖励信号。那怎么判断桥有没有成功搭起来呢?

本文沿着悬崖的中心连线均匀地采样若干个点,检查了每个采样点的上表面高度,如果所有采样点的高度都大于一定的阈值,就认为桥搭成功了。此外,agent 在建造的中途还可以获得一些比较小的奖励信号:当部分采样点的高度到达阈值的时候,可以获得正比于这部分点占总点数比例的奖励。为了鼓励 agent 用尽量节省物料的方式搭出平整的桥,作者还在判断搭桥成功的基础上给用物体少的桥和平整的桥额外的奖励。agent 收到的奖励信号是上面所有项的加和。

设计桥梁的策略学习

任务设定清楚之后,还要采用合适的策略网络结构和算法来解决它。Agent需要建立对环境中物体间的关系的理解,还需要具有一定的在不同数量物体之间泛化的能力。

为了更好地学习能在物体间泛化的策略,研究者采用了基于Transformer 编码器的网络结构来从场景中所有物体的状态提取特征。如图2左侧,把每一个物体的状态当作一个 token 来处理,将它们的嵌入表示 (embedding) 经过N个注意力块 (attention block) 处理,充分地建模物体与物体之间的关系信息,得到特征。之后再经过多个线性层得到策略网络 (policy) 和估值函数 (value) 输出。

作者采用 PPG (Phasic Policy Gradient,阶段策略梯度) 算法来训练 blueprint policy。PPG 是在 PPO (Proximal Policy Optimization,近端策略优化) 基础上提出的一种在线强化学习算法,它的长处在于能巧妙地将 value 网络学到的有用知识与 policy 网络共享,使得强大的 Tranformer encoder 同时惠及 policy 和 value 网络。PPG 有 "shared" 共享和 "dual" 非共享两种实现架构,其中 shared 架构中 policy 和 value head 共享了 feature extractor 的参数,而dual架构不共享 参数。

PPG的技术细节可以参考原文,在此不再展开。

图2: Blueprint policy网络结构

虽然该文的目标是希望机器人能用很多积木搭出复杂的桥,但在训练初期 agent 水平很低的时候就提供这样的任务对它来说太困难了,就如同强行让小学生啃大学教材;因此我们采用了自适应的课程 (curriculum) 来调节训练任务的难度。最开始悬崖之间的距离是从整个任务分布中均匀采样的,有的很近有的很远;随着搭桥成功率渐渐提升,会逐渐增大采样到较远的悬崖距离的概率。

机械臂控制策略实现

机械臂底层控制策略负责用 pick and place 来完成 blueprint policy 设定的每一步目标,真正地用机械臂移动积木。研究者使用了传统的 motion planning 算法做六自由度抓取(包含抓取的三自由度位置和三自由度旋转),完成 pick and place 任务。

仿真和真机实验

文章首先在仿真环境中看看agent设计出了什么样的桥梁。在悬崖之间距离比较近的时候,agent学出先竖着放一个积木当支柱,再把两块积木横着架上去。在距离更远的时候,它能学会按照合适的间距摆放更多的支撑物,再放桥面。

图3: Agent学会了设计不同长度的桥梁

有时候agent第一次放的位置不是特别好,它还知道回过头来微调。比如图4(a)中agent发现桥面不太平整的时候会重新放置横着的积木。图4(b)中桥成形以后它发现棕色积木是多余的,就把它挪走了。

图4: 自己微调设计得不好的桥

作者采用搭桥成功率来衡量 blueprint policy 的表现。下图左展示了使用不同算法(PPG,PPO)和不同的网络架构 (shared,dual) 时的训练曲线。红线是最终采用的组合,它能以0.8的成功率设计出需要用7块积木的桥。图右展示了 curriculum learning 的关键作用,蓝色线是不从简单的任务学起,直接挑战高难度桥梁的训练情况,它的学习效率明显低于加了curriculum的红色线。

图5: 消融实验的训练曲线

最后将机械臂的底层控制加入,看看机器人搭桥的最终效果。作者用6轴的Kinova机械臂做了真机实验。不管是只需要放一块积木的迷你桥,还是需要加支撑块的T形、 形桥,机器人建造师都从容应对,成功完成任务。

图6: Kinova 机器人搭出不同长度的桥

项目视频:

3

总结

这篇工作提出了“机器人搭桥”的自动装配任务,研究在不事先给定蓝图的情况下如何同时进行结构设计与建造。

本文将搭桥任务拆解成高层设计与底层建造两部分,设计部分利用深度强化学习算法训练,建造部分由传统动作规划方法实现,在实验中能根据悬崖之间随机的距离成功设计建造不同形态的积木桥。

参考文献


Y. Li, T. Kong, L. Li, Y. Li, and Y. Wu, "Learning to Design and Construct Bridge without Blueprint", CoRR, vol. abs/2108.02439, 2021.

L. P. Kaelbling and T. Lozano-Pe ́rez, “Hierarchical task and motion planning in the now,” in 2011 IEEE International Conference on Robotics and Automation. IEEE, 2011, pp. 1470–1477.

A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, “Attention is all you need,” in Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, Decem- ber 4-9, 2017, Long Beach, CA, USA, I. Guyon, U. von Luxburg, S. Bengio, H. M. Wallach, R. Fergus, S. V. N. Vishwanathan, and R. Garnett, Eds., 2017, pp. 5998–6008.

K. Cobbe, J. Hilton, O. Klimov, and J. Schulman, “Phasic policy gradient,” CoRR, vol. abs/2009.04416, 2020.

J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and O. Klimov, “Proximal policy optimization algorithms,” CoRR, vol. abs/1707.06347, 2017.

Y. Bengio, J. Louradour, R. Collobert, and J. Weston, “Curriculum learning,” in Proceedings of the 26th annual international conference on machine learning, 2009, pp. 41–48.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
44岁全智贤香港晚宴亮相,斗鸡眼明显,体态欠佳

44岁全智贤香港晚宴亮相,斗鸡眼明显,体态欠佳

悠悠说世界
2026-06-30 22:40:59
武契奇宣布购买HQ-9导弹,塞媒体猜测还将购买中国战机

武契奇宣布购买HQ-9导弹,塞媒体猜测还将购买中国战机

观察者网
2026-06-30 21:15:09
菲律宾副总统开庭受审之日已定,小马科斯视察军队严防生变

菲律宾副总统开庭受审之日已定,小马科斯视察军队严防生变

旧窗老街
2026-07-01 00:52:11
为挽救就业岗位和本土产能,大众股东呼吁在德国生产中国“特供”车型

为挽救就业岗位和本土产能,大众股东呼吁在德国生产中国“特供”车型

中国能源网
2026-06-30 11:08:03
改嫁60年后,她选择葬在杨开慧身边:这一声“妈妈”她等了一辈子

改嫁60年后,她选择葬在杨开慧身边:这一声“妈妈”她等了一辈子

近史谈
2026-06-30 18:34:13
罗马诺:曼联和拉什福德的团队直接接触;名记:据我所知,他在曼联的生涯结束了

罗马诺:曼联和拉什福德的团队直接接触;名记:据我所知,他在曼联的生涯结束了

MUREDS
2026-07-01 02:20:44
父母能不靠谱到什么地步?网友:我妈让我嫁给四十的老登

父母能不靠谱到什么地步?网友:我妈让我嫁给四十的老登

康富贵碎碎念
2026-06-28 11:47:58
对普京掀桌子了!特朗普连发两道通牒,留给莫斯科的时间真不多了

对普京掀桌子了!特朗普连发两道通牒,留给莫斯科的时间真不多了

云上乌托邦
2026-06-30 17:15:05
姆巴佩恋情正式曝光!1.8亿球王邂逅西班牙顶流,双向奔赴太好嗑

姆巴佩恋情正式曝光!1.8亿球王邂逅西班牙顶流,双向奔赴太好嗑

老特有话说
2026-06-28 20:01:22
别吹马丁内利了!巴西世界杯逆转头号功臣!他一人拯救了全队

别吹马丁内利了!巴西世界杯逆转头号功臣!他一人拯救了全队

澜归序
2026-06-30 03:35:23
俄军三线都要收尾了!

俄军三线都要收尾了!

星火聊天下
2026-06-30 07:16:16
湖北一位复读生的亮眼成绩:去年高考633分复读一年奋力冲刺

湖北一位复读生的亮眼成绩:去年高考633分复读一年奋力冲刺

手工制作阿爱
2026-06-30 19:37:20
下周三,珠海人账户或将多一笔钱

下周三,珠海人账户或将多一笔钱

石辰搞笑日常
2026-06-30 19:01:11
不回答皇马!新援首秀踢45分钟后表态:现在只谈国家队

不回答皇马!新援首秀踢45分钟后表态:现在只谈国家队

体育硬核说
2026-07-01 00:29:07
我60岁,奉劝所有人:爸妈只要到了90岁,请马上断绝这5个动作

我60岁,奉劝所有人:爸妈只要到了90岁,请马上断绝这5个动作

阿凯销售场
2026-06-30 18:42:40
美国军队痛哭流涕,伊朗战争的绝境,实际上是上了三个国家的当

美国军队痛哭流涕,伊朗战争的绝境,实际上是上了三个国家的当

农夫史记
2026-06-09 20:11:08
王石,捡到宝了。

王石,捡到宝了。

驴蛋科普
2026-06-29 07:00:39
重磅破冰!中欧达成关键共识,欧盟主动让步,经贸格局彻底稳了

重磅破冰!中欧达成关键共识,欧盟主动让步,经贸格局彻底稳了

奇思妙想生活家
2026-06-30 20:08:54
真“死亡”之组?荷兰日本同天出局+无缘16强!瑞典将战15亿法国

真“死亡”之组?荷兰日本同天出局+无缘16强!瑞典将战15亿法国

我爱英超
2026-06-30 12:25:52
男子在KTV饮酒后猝死,家属索赔143万;KTV和两名同饮者被判共赔偿58万,判决书披露详情

男子在KTV饮酒后猝死,家属索赔143万;KTV和两名同饮者被判共赔偿58万,判决书披露详情

大风新闻
2026-06-30 18:04:02
2026-07-01 02:56:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7414文章数 20760关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

体育要闻

德国足球,脸都不要了

娱乐要闻

黄晓明沦陷!羡慕周杰伦能降住昆凌

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

手机
游戏
数码
本地
公开课

手机要闻

REDMI K90至尊版已正式发布:对比上代,到底有多少区别?

线下宣发落地!知名连锁品牌曝光《GTA6》专属活动

数码要闻

曝微软停产Surface Go与Surface Laptop Go,无后续机型研发计划

本地新闻

贵州小城的新目标:举办“村超”世界杯!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版