网易首页 > 网易号 > 正文 申请入驻

机器人衣物折叠新范式,NUS邵林团队用MetaFold解耦轨迹与动作

0
分享至

本文的共同第一作者为新加坡国立大学博士生陈浩楠,南京大学研究助理 / 本科生李骏骁和北京大学博士吴睿海。合作者为刘益伟、侯懿文、徐志轩、郭京翔、高崇凯、卫振宇、许申思、黄嘉祺。通讯作者为新加坡国立大学计算机学院助理教授邵林,研究方向为机器人和人工智能。

机器人对可形变物体的操作(Deformable Object Manipulation, DOM),是衡量通用机器人智能水平的关键指标之一。与刚体操作不同,衣物、绳索、食物等物体的形态不固定,其状态空间维度极高,且物理交互过程呈现出复杂的非线性动力学特性,为感知、规划和控制带来了巨大挑战。

传统的服装折叠方法往往依赖于预定义的关键点或演示数据 [1, 2],这严重限制了它们在不同服装类别间的泛化能力。现有研究大多采用基于规则的启发式方法或依赖人工演示的学习方式,这些方法在面对多样化的服装类型和用户指令时表现出明显的局限性。

近年来,随着基础模型在计算机视觉和自然语言处理领域的巨大成功,研究者们开始探索将这些先进技术应用于机器人操作任务 [3]。视觉和语言引导的机器人操作已成为当前研究的热点,它能够让机器人理解自然语言指令并执行相应的操作任务。然而,在可变形物体操作,特别是服装折叠任务中,如何有效结合视觉和语言指导与物理操作仍然是一个亟待解决的问题。

在此背景下,MetaFold旨在填补现有研究的空白:创建一个既能理解人类语言的丰富内涵和场景的视觉信息,又能精准、泛化地操作多类别衣物的、具有良好解释性的机器人框架。

目前,该论文已被机器人领域顶级会议 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2025) 接收。

  • 论文标题:MetaFold: Language-Guided Multi-Category Garment Folding Framework via Trajectory Generation and Foundation Model
  • 论文链接:https://arxiv.org/abs/2503.08372
  • 项目主页:https://meta-fold.github.io/

MetaFold:基于轨迹生成和动作预测的分层架构

MetaFold 采用了一种创新的分层架构设计,将复杂的服装折叠任务分解为两个相对独立的子问题:任务规划(task planning)和动作预测(action prediction)。这种分离式设计受到人类神经系统结构的启发 —— 大脑负责高级任务理解和物体识别,而脊髓和外周神经系统管理手部运动和抓取动作。

该框架的核心思想是通过语言引导的点云轨迹生成来处理任务规划,同时使用低级基础模型来进行动作预测。这种模块化设计不仅简化了训练过程,还显著提高了模型在不同服装类别间的泛化能力。

Fig. 1 MetaFold 框架

数据集生成与标注

由于当前衣物折叠数据稀缺,研究团队首先构建了一个包含 1210 个服装和 3376 条轨迹的大规模数据集。该数据集基于ClothesNet[4] 提供的服装模型,使用 DiffClothAI [5] 可微分仿真器生成高质量的点云轨迹数据。

对于不同种类的衣物,研究团队首先使用启发式的方法生成折叠轨迹,并记录每时刻的衣物网格。从连续帧的衣物网格中,可以提取出衣物的点云轨迹。研究团队对这些衣物的折叠轨迹进行筛选,将失败的折叠轨迹去除,构建了一个成功折叠的衣物折叠数据集。

数据集涵盖了四种主要的折叠类型:(1)无袖折叠(包括连衣裙、裙子和无袖上衣)(2)短袖折叠(3)长袖折叠(4)裤子折叠。每个轨迹都配有相应的自然语言描述,用于指导折叠过程。

数据集已经在 huggingface 上开源:

开源地址:https://huggingface.co/datasets/chenhn02/MetaFold

轨迹生成模型

轨迹生成模型的核心是一个基于注意力机制的跨模态融合模型。它首先通过独立的编码器分别提取点云的几何特征和语言指令的语义特征,然后利用交叉注意力机制来深度融合这两种模态的信息,从而理解指令在特定几何形态上的具体意图。

该模型的输出并非直接的机器人动作,而是衣物形态在未来的一系列几何快照。这种以点云轨迹作为中间表征的设计是 MetaFold 的关键创新之一,其优势在于:

  • 解耦与抽象:它将「任务目标」的几何定义从「如何实现该目标」的物理动作中剥离出来,显著降低了学习的复杂性。
  • 提升泛化性:无论是 T 恤还是连衣裙,「对折」这一动作在几何形态上的变化具有共性。学习这种视觉 / 语言 - 几何的映射,比学习视觉 / 语言 - 具体动作的映射更具泛化潜力。
  • 可解释性:生成的可视化点云轨迹为人类提供了一个直观的窗口,以理解和验证机器人的「任务规划」是否符合预期。

轨迹生成模型基于条件变分自编码器(CVAE)构建,其编码器和解码器均采用 Transformer 编码器架构。该模型接收点云观察和语言描述,生成点云轨迹。模型使用 PointNet++ 提取点云空间信息,得到点云特征。同时,LLaMA 模型处理语言描述的语义信息,经过降维后得到语言特征。

底层操作策略

ManiFoundation[6] 模型将操作任务形式化为接触合成问题。接收两个连续点云状态,模型将输出从上一个点云状态转移到下一个点云状态所需要的动作。这个动作将以接触合成的形式表示,即若干个接触点和对应的运动方向。

为减轻随机种子对预测结果的影响,系统采用模型集成方法,使用 160 个不同随机种子生成多个预测结果。当两个预测结果之间的距离小于阈值时,将它们归为同一组,最终选择排名最高的组内平均位置最近的点及其对应力作为输出。

系统实施闭环反馈控制策略,在机器人执行动作后重新获取服装状态,将当前点云输入轨迹生成模型产生后续轨迹。这种设计使框架能够适应环境扰动和变化,确保操作的鲁棒性和精确性。

实验结果与深度分析

数据集与评估指标

实验在 Isaac Sim 仿真环境中进行,相比传统的 PyFleX 仿真环境,该环境能够提供更准确的服装内力仿真和更低的网格穿透发生率。为了能同时衡量多种衣物的折叠效果,研究团队采用三个关键评估指标:

  • 矩形度(Rectangularity):折叠后服装面积与其边界矩形的比值,评估折叠质量。
  • 面积比(Area Ratio):折叠后与初始服装面积的比值,指示折叠紧密程度。
  • 成功率(Success Rate):矩形度超过阈值且面积比低于阈值的样本比例。

性能对比分析

MetaFold 在多项指标上显著优于现有方法。

  • 在矩形度上,MetaFold 保持 0.80-0.87 的高水平。
  • 在面积比指标上,MetaFold 实现 0.24-0.45,优于基线方法。
  • 在成功率指标上,MetaFold 达到 79%-97%,显著超过 UniGarmentManip [9] 的 42%-91% 和GPT-Fabric[3] 的 3%-63%

在未见过的 CLOTH3D [7] 数据集上,MetaFold 仍然达到 79%-97% 的成功率,证明了其强大的跨数据集泛化能力。

在语言指导的实验中,MetaFold 与基线比较了已见指令与未见指令的泛化能力。结果表明,MetaFold 在处理不同类型语言指令方面表现出色。除此之外,系统能够处理复杂的用户指令,如指定折叠顺序(「先左后右」)等,即使这些顺序在训练数据中未出现过,模型仍能正确理解和执行。

真实环境验证

研究团队使用 uFactory xArm6 机器人配备 xArm Gripper 和俯视 RealSense D435 相机进行真实环境实验。通过 SAM2 [8] 分割 RGB 图像生成服装掩码,结合深度数据提取真实服装点云。相比于 RGB 图片,点云模态有更小的模拟与实际差距 (sim-to-real gap),使其能够直接迁移到真实环境,而无需另外训练。

真实环境实验证实了 MetaFold 从仿真到现实的有效迁移能力,成功完成了多种服装的折叠任务,验证了框架的实用性和鲁棒性。

结论和展望

本研究成功地提出并验证了一个名为 MetaFold 的、用于机器人多类别衣物折叠的语言引导框架。其核心贡献在于:

  • 提出了一种创新的解耦架构,将任务规划与动作生成分离,有效提升了系统的性能、泛化性和可解释性。
  • 引入点云轨迹作为中间表征,为连接高级语义与底层控制提供了一种高效的桥梁。
  • 构建并开源了大规模多类别服装折叠点云轨迹数据集,为后续研究提供了宝贵资源。

参考文献

[1] Canberk, Alper, et al. "Cloth Funnels: Canonicalized-Alignment for Multi-Purpose Garment Manipulation." 2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023.

[2] Ganapathi, Aditya, et al. "Learning dense visual correspondences in simulation to smooth and fold real fabrics." 2021 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2021.

[3] Raval, Vedant, et al. "GPT-Fabric: Folding and Smoothing Fabric by Leveraging Pre-Trained Foundation Models." CoRR (2024).

[4] Zhou, Bingyang, et al. "Clothesnet: An information-rich 3d garment model repository with simulated clothes environment." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

[5] Yu, Xinyuan, et al. "Diffclothai: Differentiable cloth simulation with intersection-free frictional contact and differentiable two-way coupling with articulated rigid bodies." 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2023.

[6] Xu, Zhixuan, et al. "Manifoundation model for general-purpose robotic manipulation of contact synthesis with arbitrary objects and robots." 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2024.

[7] Bertiche, Hugo, Meysam Madadi, and Sergio Escalera. "Cloth3d: clothed 3d humans." European Conference on Computer Vision. Cham: Springer International Publishing, 2020.

[8] Ravi, Nikhila, et al. "Sam 2: Segment anything in images and videos." arXiv preprint arXiv:2408.00714 (2024).

[9] Wu, Ruihai, et al. "Unigarmentmanip: A unified framework for category-level garment manipulation via dense visual correspondence." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
PCB产业链,持续火爆,成长最高的10家公司

PCB产业链,持续火爆,成长最高的10家公司

新浪财经
2026-05-07 19:46:50
竹笋再次被关注!研究发现:吃得越多,高尿酸寿命或越长?真的?

竹笋再次被关注!研究发现:吃得越多,高尿酸寿命或越长?真的?

健康之光
2026-05-07 08:57:37
张兰晒照和解!汪小菲眼睛出现问题,难恢复如初,马筱梅努力创业

张兰晒照和解!汪小菲眼睛出现问题,难恢复如初,马筱梅努力创业

阿凫爱吐槽
2026-05-08 01:12:27
苏州光天团又爆了!英伟达带飞3800亿东山精密,联讯仪器7天暴涨13倍市值破千亿,成第四高价股,最强地级市十大上市公司9家硬科技

苏州光天团又爆了!英伟达带飞3800亿东山精密,联讯仪器7天暴涨13倍市值破千亿,成第四高价股,最强地级市十大上市公司9家硬科技

金融界
2026-05-07 14:46:18
TVB女星突然宣布改名,网友好奇改姓原因!真实本名竟是陈晓华

TVB女星突然宣布改名,网友好奇改姓原因!真实本名竟是陈晓华

生命之泉的奥秘
2026-05-07 08:23:13
过气影帝,被逼没招了

过气影帝,被逼没招了

最人物
2026-05-06 15:24:52
中国驻瑞典大使馆:再次提醒在瑞典中国公民拍摄注意事项

中国驻瑞典大使馆:再次提醒在瑞典中国公民拍摄注意事项

澎湃新闻
2026-05-07 01:29:03
放弃争夺数百亿遗产,带着女儿远遁美国,如今才明白她有多清醒

放弃争夺数百亿遗产,带着女儿远遁美国,如今才明白她有多清醒

笑饮孤鸿非
2026-05-07 21:08:14
赖清德回台湾,三个东盟国家为其开放领空

赖清德回台湾,三个东盟国家为其开放领空

混沌录
2026-05-06 22:50:16
退休后才明白:别人夸你“看起来真年轻”,千万别答“哪有哪有”

退休后才明白:别人夸你“看起来真年轻”,千万别答“哪有哪有”

心理观察局
2026-05-07 08:18:05
iPhone用户为什么突然集体装VPN

iPhone用户为什么突然集体装VPN

我是一个养虾人
2026-05-01 07:00:40
官方通报“男子猛推峨眉山猴险致其坠崖”

官方通报“男子猛推峨眉山猴险致其坠崖”

第一财经资讯
2026-05-07 18:09:31
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
卡里克转正悬了?罗马诺爆料:曼联暗中锁定世界级名帅

卡里克转正悬了?罗马诺爆料:曼联暗中锁定世界级名帅

澜归序
2026-05-07 06:48:06
入出梅时间,有消息了!江苏最新预测

入出梅时间,有消息了!江苏最新预测

鲁中晨报
2026-05-07 18:34:03
马斯克赢麻了?OpenAI总裁当庭认罪!承认零元购300亿…

马斯克赢麻了?OpenAI总裁当庭认罪!承认零元购300亿…

留学生日报
2026-05-06 20:21:18
被抓后家中查出20吨黄金,秘密移民国外?赵本山私生活谣言太离谱

被抓后家中查出20吨黄金,秘密移民国外?赵本山私生活谣言太离谱

做一个合格的吃瓜群众
2026-04-06 17:10:33
吴宜泽夺冠后,姐姐吴宜然凭颜值火出圈,身材火辣是机车爱好者

吴宜泽夺冠后,姐姐吴宜然凭颜值火出圈,身材火辣是机车爱好者

胡一舸南游y
2026-05-07 23:59:00
没想到,许昕因世乒赛上的一举动,口碑暴增,王楚钦的评价真没错

没想到,许昕因世乒赛上的一举动,口碑暴增,王楚钦的评价真没错

宝哥精彩赛事
2026-05-07 09:31:02
杜锋不再隐瞒!赛后回应广东男篮输球原因,原来伤病只是冰山一角

杜锋不再隐瞒!赛后回应广东男篮输球原因,原来伤病只是冰山一角

阿纂看事
2026-05-07 16:44:46
2026-05-08 02:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12939文章数 142644关注度
往期回顾 全部

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

头条要闻

日媒询问中国是否希望恢复中日之间人员往来 中方回应

头条要闻

日媒询问中国是否希望恢复中日之间人员往来 中方回应

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

Lisa主持!宁艺卓观看脱衣秀风波升级

财经要闻

人均年薪406万,这家ST公司惊呆市场!

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

数码
本地
艺术
时尚
公开课

数码要闻

大疆宣布ROMO 2代扫地机器人5月11日发布:清洁力更强 不怕零食掉渣

本地新闻

用青花瓷的方式,打开西溪湿地

艺术要闻

探索施密德的油画,感受无法抵挡的艺术魅力!

今年最火的4双平底鞋,配小黑裙好看又气质!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版