网易首页 > 网易号 > 正文 申请入驻

ICCV 2023 | 柔性物体长程操作的视觉表征

0
分享至

本文是对发表于计算机视觉领域顶级会议 ICCV 2023 的论文 Learning Foresightful Dense Visual Affordance for Deformable Object Manipulation 的解读。该论文由北京大学董豪课题组完成,共同第一作者为计算机学院博士生吴睿海和图灵班本科生宁川若。

本文针对长程的柔性物体操作任务,提出学习一种逐点级别(point-level)的视觉可供性表征(affordance)来操作柔性物体,同时赋予该表征对未来状态的感知(foresightful),从而得到柔性物体操作任务中的多步最优策略。

论文名称: Learning Foresightful Dense Visual Affordance for Deformable Object Manipulation ‍ ‍ 论文链接: https://arxiv.org/abs/2303.11057 开源代码: https://github.com/TritiumR/DeformableAffordance 项目主页: https://hyperplane-lab.github.io/DeformableAffordance/ 视频介绍: https://youtu.be/DiZ9aXjK_PU

一、研究背景

柔性物体操作(例如对衣物,绳子等物体的操作)是未来机器人不可或缺的能力。然而,目前机器人领域对柔性物体操作的研究还有很大提升空间,这主要由于柔性物体操作任务具有的难点:


  1. 柔性物体状态复杂且难以表征,动力学复杂,动作搜索空间大。



  2. 不同于刚体和铰接物体,柔性物体操作任务通常需要多步操作(例如展开衣物)。


前者使得每一步的操作选择都很困难,后者则更引入了长程规划的复杂度,使得贪心策略易于陷入局部最优解。

为了解决上述痛点,在这篇论文里,我们提出学习一种逐点级别(point-level)的视觉可供性表征(affordance)来操作柔性物体,从而有依据地选择操作动作。同时我们赋予该表征对未来状态的感知(foresightful),从而得到柔性物体操作任务中的最优策略。该表征将在每一步操作中预示最佳的抓取和放置操作(如图1),并且避免局部最优情况出现,顺利完成整个长程任务。

图1. 上方展示了柔性物体操作的两大难点:复杂状态动作空间(左上)和长程任务规划(右上),下方展示了我们提出的视觉表征(pick affordance和place affordance)可以指引机械臂顺利完成整个任务,避开局部最优状态。

二、方法简介

我们的视觉表征由两个模块进行预测:抓取位置的感知模块和基于抓取位置的放置感知模块。给定一个物体的视觉输入,一个抓取点,该模块预测将该抓取点放置在各个像素点的结果和最终目标的距离,即pick affordance。抓取感知模块则以图像为输入,预测各个像素点作为抓取位置的优劣。

方法的核心要点在于逆过程学习(reverse)和价值(value)估计:即从任务的最终状态开始(例如展平的衣物),先学习最后一步的操作策略,之后向前回溯, 利用已经学习好后续过程的模块估计状态的价值,从而指导上一步操作策略的学习,依此类推,直到学习到最初状态(例如揉皱的衣物)。这样的学习方式有以下优点:


  1. 相较于正向过程的学习,逆向学习一开始接触的状态(目标状态)比较简单,适合网络学习。



  2. 网络积累了后续操作的知识之后,可以估计一个衣物状态的未来价值,即下一步可达到的最佳状态,从而可以向前传递对当前状态的价值估计指导,这样的学习框架可以引导策略避免局部最优状态。



  3. 相较于强化学习使用 bellman-equation 来更新价值估计,我们的训练方式是更稳定的的监督学习,搜索的空间也小很多。


具体来说,我们先用最后一步交互的数据监督训练放置感知模块。之后,由于抓取点的选取应该考虑该抓取点能取得的最好结果,所以我们使用 place affordance 最大值监督抓取感知模块,也就是 pick affordance。至此模型具有了规划最后一步操作的能力,pick affordance 的最大值将能够反映一个物体状态的下一步最佳状态,也即这一状态的未来价值(value)。我们可以利用这样的估计和倒数第二步的数据一起监督放置感知模块,这样模型对于未来状态的考虑就融入了 affordance 之中。同上一步相同,接下来需要用新的放置模块训练倒数第二步的抓取模块。依此类推,直到模型已经见到足够复杂的场景(例如打乱5步的衣物已经接近揉皱的状态)。

图2. 逆向多阶段训练框架。

三、实验结果

我们使用了两个常见的柔性物体操作环境:DeformableRavens 以及 SoftGym。选取了以往工作表现不佳的四项任务:SpreadCloth:将一个揉皱的布料展开;RopeConfiguration:将一条随机打乱的绳索操作成“S”形;Cable-ring:操作随机打乱的项链到一个指定的圆以及Cable-ring-notarget:将打乱的项链操作成一个圆。

图3. 在不同任务上我们模型输出的 affordance,颜色越亮表示这个点越容易被抓取或者放置,白色代表抓取点。

图4. 在不同任务上我们模型的操作序列,白色代表抓取点,黑色代表放置点。

不同任务上的分数表明,我们模型的表现超越了模仿学习策略,这得益于我们的表征拥有更丰富的操作先验,可以从错误中恢复。同时,由于我们训练方法的稳定性和高效的探索方式,我们超越了许多经典的强化学习算法。

进一步地,我们进行了真机实验,证明了方法的迁移性和可应用性。

图5. 真机实验的操作轨迹和对应 affordance。

四、总结

在这篇论文中,为了解决柔性物体操作的两大难点,我们提出了一个逐点级别的视觉操作表征(affordance),并且通过多阶段的逆向学习赋予了该表征考虑未来物体状态的能力,使得该表征可以引导模型顺利完成长程任务。在模拟器和真实世界上的表现证明了该系统的有效性。

Illustration by IconScout From Delesign Graphics

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
离大谱,杨瀚森纪念杯上的中国地图缺失海南、台湾及藏南地区

离大谱,杨瀚森纪念杯上的中国地图缺失海南、台湾及藏南地区

懂球帝
2026-02-25 18:59:03
被时代淘汰的水果有哪些?网友:全吃过的孩子都十岁了吧!

被时代淘汰的水果有哪些?网友:全吃过的孩子都十岁了吧!

另子维爱读史
2026-02-25 21:20:46
别再尬演白月光了!脸肿皮松,嘟嘴装嫩,是迷倒男人该有的皮囊?

别再尬演白月光了!脸肿皮松,嘟嘴装嫩,是迷倒男人该有的皮囊?

不似少年游
2026-02-24 19:46:25
铁路部门回应“半夜候补成功1700元车票作废”报道

铁路部门回应“半夜候补成功1700元车票作废”报道

大象新闻
2026-02-25 18:17:03
41岁独居女子去世,百万遗产谁来继承?法院判了

41岁独居女子去世,百万遗产谁来继承?法院判了

上观新闻
2026-02-25 20:59:10
冲上热搜!中秋请3天假堪比春节,13天超长假期!最实用拼假攻略已备好

冲上热搜!中秋请3天假堪比春节,13天超长假期!最实用拼假攻略已备好

上观新闻
2026-02-25 14:08:57
1比3爆冷出局!21岁日本女单主力遭淘汰,孙颖莎冲冠之路有大劲敌

1比3爆冷出局!21岁日本女单主力遭淘汰,孙颖莎冲冠之路有大劲敌

卿子书
2026-02-25 08:58:03
李嘉诚被踢出局!巴方强行接管港口,长和重磅发声,释放什么信号

李嘉诚被踢出局!巴方强行接管港口,长和重磅发声,释放什么信号

青橘罐头
2026-02-25 07:19:36
全网好奇,谷爱凌嘴里咬的东西是啥?

全网好奇,谷爱凌嘴里咬的东西是啥?

有意思报告
2026-02-25 12:25:30
同家族近20人在路上祭祖遇车祸,致2死多伤后又遇理赔难,多方回应

同家族近20人在路上祭祖遇车祸,致2死多伤后又遇理赔难,多方回应

大风新闻
2026-02-25 17:00:14
近百万元存款被悄悄转走!上海独居老太毫无察觉,还说“我有两套房,你可以搬来同住”

近百万元存款被悄悄转走!上海独居老太毫无察觉,还说“我有两套房,你可以搬来同住”

潇湘晨报
2026-02-25 16:39:13
陈凯歌在三亚豪宅过年,穿5万皮鞋戴大金表 老年斑难掩艺术家气场

陈凯歌在三亚豪宅过年,穿5万皮鞋戴大金表 老年斑难掩艺术家气场

林雁飞
2026-02-25 20:00:33
西湖大学打了谁的脸?外籍学生学费35万一年,国内学生仅6千元

西湖大学打了谁的脸?外籍学生学费35万一年,国内学生仅6千元

妍妍教育日记
2026-02-24 18:35:18
女子服务区内躺在后车引擎盖上阻车视频曝光,后车驾驶员指责其“人肉插队”,加油站和交警回应

女子服务区内躺在后车引擎盖上阻车视频曝光,后车驾驶员指责其“人肉插队”,加油站和交警回应

极目新闻
2026-02-25 20:00:30
李小璐的新瓜,信息量有点大啊…

李小璐的新瓜,信息量有点大啊…

背包旅行
2026-02-25 17:05:16
AI除夕夜辱骂用户,腾讯元宝回应

AI除夕夜辱骂用户,腾讯元宝回应

IT之家
2026-02-25 14:57:08
俄记者曝大瓜:俄军进攻潜力耗尽,英国否定英法用核弹保护乌克兰

俄记者曝大瓜:俄军进攻潜力耗尽,英国否定英法用核弹保护乌克兰

史政先锋
2026-02-25 19:08:44
膜拜!徐新一笔2.56亿投资不到3年赚50亿!

膜拜!徐新一笔2.56亿投资不到3年赚50亿!

新浪财经
2026-02-25 11:56:37
合资开年大降价,今年谁都别想好过?

合资开年大降价,今年谁都别想好过?

汽车公社
2026-02-25 09:11:26
比尔·盖茨道歉!承认与两俄女子有婚外关系,“从未前往爱泼斯坦的私人岛屿”

比尔·盖茨道歉!承认与两俄女子有婚外关系,“从未前往爱泼斯坦的私人岛屿”

上观新闻
2026-02-25 15:37:09
2026-02-25 23:00:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

美官员称6个月内三国政府或被亲美政权取代 中方回应

头条要闻

美官员称6个月内三国政府或被亲美政权取代 中方回应

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

黄晓明新恋情!与小22岁美女同游新加坡

财经要闻

上海楼市放大招,地产预期别太大

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

教育
旅游
房产
艺术
公开课

教育要闻

中考数学化简题,思路逻辑很重要

旅游要闻

山东:传统年味融合新潮体验 新春文旅焕发新活力

房产要闻

海南楼市春节热销地图曝光!三亚、陵水又杀疯了!

艺术要闻

这位艺术家的马赛克画让人惊叹不已!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版