网易首页 > 网易号 > 正文 申请入驻

铰链物体的通用世界模型,超越扩散方法,入选CVPR 2025

0
分享至


基于当前观察,预测铰链物体的的运动,尤其是 part-level 级别的运动,是实现世界模型的关键一步。尽管现在基于 diffusion 的方法取得了很多进展,但是这些方法存在处理效率低,同时缺乏三维感知等问题,难以投入真实环境中使用。

清华大学联合北京大学提出了第一个基于重建模型的 part-level 运动的建模——PartRM。用户给定单张输入图像和对应的 drag ,PartRM 能生成观测物体未来状态的三维表征,使得生成数据能够真正服务于机器人操纵等任务。实验证明 PartRM 在生成结果上都取得了显著的提升。该研究已入选CVPR 2025。

  • 论文题目:PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model
  • 论文主页:https://partrm.c7w.tech/
  • 论文链接:https://arxiv.org/abs/2503.19913
  • 代码链接:https://github.com/GasaiYU/PartRM

研究动机

世界模型是一种基于当前观察和动作来预测未来状态的函数。该模型的研发使得计算机能够理解物理世界中的复杂规律,在机器人等领域得到了广泛应用。近期,对 part-level 的动态建模的兴趣日益增长,给定当前时刻的观察并给与用户给定的拖拽,预测下一时刻的铰链物体各个部件的运动受到越来越多的关注,这种类型的世界模型对于需要高精度的任务,例如机器人的操纵任务等,具有重要的意义。

然而,我们对这个充满前景的领域的调研表明,目前的前沿研究(如 Puppet-Master)通过对预训练的 大规模视频扩散模型进行微调,以实现增加拖拽控制的功能。尽管这种方法有效地利用了预训练过程中 学习到的丰富运动模式,但在实际应用中仍显不足。其中一个主要局限是它仅输出单视角视频作为表示,而模拟器需要三维表示来从多个视角渲染场景。此外,扩散去噪过程可能需要几分钟来模拟单个拖 拽交互,这与为操作策略(Manipulation Policies)提供快速试错反馈的目标相悖。

因此,我们需要采用三维表征,为了实现从输入单视角图像的快速三维重建,我们利用基于三维高斯泼溅(3DGS)的大规模重建模型,这些模型能以前馈方式从输入图像预测三维高斯泼溅,使重建时间从传 统优化方法所需的几分钟减少到仅需几秒钟。同时,通过将用户指定的拖拽信息加入到大规模三维重建 网络中,我们实现了部件级别的动态建模。在这个问题中,我们认为联合建模运动和几何是至关重要的,因为部件级运动本质上与每个部件的几何特性相关联(例如,抽屉在打开时通常沿其法线方向滑动)。这种集成使我们能够实现更真实和可解释的部件级动态表示。

同时,由于我们是第一个做这个任务的,在这个任务上缺少相关的数据集,因此我们基于 PartNet- Mobility 构建了PartDrag-4D数据集,并在这个数据集上建立了衡量对部件级别动态建模的基准(Benchmark),实验结果表明,我们的方法在定量和定性上都取得了最好的效果。

PartDrag-4D 数据集的构建

PartRM 方法

方法概览

图像和拖拽的预处理

图像预处理:由于我们的主网络是基于 LGM 设计的, LGM 需要多视角的图像作为输入,所以我们需要将 输入的单视角图像变成多视角,我们利用多视角图像生成网络 Zero123++,为了使得 Zero123++ 生成的 图像质量更高,我们会在训练集上对其进行微调。

拖拽传播:如果用户只输入一个拖拽,后续网络可能会对拖拽的区域产生幻觉从而出错,因此我们需要 对拖拽进行传播到需要被拖拽部分的各个区域,使得后续网络感知到需要被拖拽的区域,为此我们设计了一个拖拽传播策略。如图所示,我们首先拿用户给定的拖拽的起始点输入进 Segment Anything 模型中得到对应的被拖拽区域的掩码,然后在这个掩码区域内采样一些点作为被传播拖拽的起始点,这些被传播的拖拽的强度和用户给定的拖拽的强度一样。尽管在拖动强度大小的估计上可能存在不准确性,我们后续的模型仍然足够稳健,能够以数据驱动的方式学习生成预期的输出。

拖拽嵌入

实验结果

实验设置

我们在两个数据集上来衡量我们提出的 PartRM 方法,这两个数据集包括我们提出的 PartDrag-4D 数据集 以及通用数据集 Objaverse-Animation-HQ。因为 Objaverse-Animation-HQ 数据量比较大,我们只从其中采样 15000 条数据,然后手动拆分训练集和测试集。验证时,我们对输出的 3D 高斯渲染 8 个不同的视角,在这 8 个视角上算 PSNR ,SSIM 和 LPIPS 指标。

我们选用 DragAPart , DiffEditor 和 Puppet-Master 作为我们的 baseline。对于不需要训练的 DiffEditor 方法,我们直接拿它官方的训练权重进行推理。对于需要训练的 DragAPart 和 Puppet-Master,我们在训练 集上对他们进行微调。

由于现有的方法只能输出 2D 图像,不能输出 3D 表征,为了和我们的任务对齐,我们设计了两种方法。第一种称为NVS-First,即我们首先对输入的单视角图像利用 Zero123++ 生成多视角图像,再分别对每个视角结合每个视角对应的拖拽进行推理,生成对应的图像后再进行 3D 高斯重建;第二种称为 Drag-First,

即我们首先先对输入视角进行拖拽,然后对生成的结果利用 Zero123++ 进行多视角生成,最后进行 3D 高斯重建。我们采用了两种 3D 高斯重建方法,第一种为直接用 LGM (下图中两个时间的第一个)进行重建,第二种利用基于优化的 3D 高斯泼溅进行重建(下图中两个时间的第二个)。

定性比较

在视觉效果方面, PartRM 通过对外观,几何和运动的联合建模,能够在抽屉开合等场景中生成物理合理的三维表征。相比之下, DiffEditor 由于缺乏三维感知,导致部件形变错位; DragAPart 虽然能够处理简 单的关节运动,但在生成微波门板时出现了明显的伪影等问题,同时在通用数据集上表现不佳;Puppet- Master 在外观的时间连续性和运动部分的建模方面表现不佳。

在 in the wild 质量方面,我们从互联网上采了一些数据,手动设置拖拽,利用我们在 PartDrag-4D 上训练 好的 PartRM 进行推理。图中可以看到,我们的方法在一些和训练数据分布差别不大的数据上可以取得较 好的效果;但是在一些分布差别较大的数据上效果欠佳。

定量比较

定量评估中, PartRM 在 PSNR、SSIM、 LPIPS 指标上较基线模型均有提升;同时大幅提升了生成效率, PartRM 仅需 4 秒即可完成单次生成,而传统方案需分步执行 2D 形变与三维重建。

总结

本文介绍了 PartRM ,一种同时建模外观、几何和部件级运动的新方法。为了解决 4D 部件级运动学习中的数据稀缺问题,我们提出了 PartDrag-4D 数据集,提供了部件级动态的多视角图像。实验结果表明,我们的方法在部件运动学习上优于以往的方法,并且可应用于具身 AI 任务。然而,对于与训练分布差异较大的关节数据,可能会遇到挑战。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
菲律宾300万人教团一夜封锁首都,马科斯被堵在总统府里

菲律宾300万人教团一夜封锁首都,马科斯被堵在总统府里

爱意随风起呀
2026-07-02 15:35:11
WTT美国大满贯:日本男单0:3被淘汰!王楚钦高歌猛进,冲击双冠王

WTT美国大满贯:日本男单0:3被淘汰!王楚钦高歌猛进,冲击双冠王

国乒二三事
2026-07-02 05:42:59
网友质疑“卖电动车也要擦边吗”,涉事品牌:深感愧疚,相关责任人已接受处罚

网友质疑“卖电动车也要擦边吗”,涉事品牌:深感愧疚,相关责任人已接受处罚

南方都市报
2026-07-02 10:51:57
法国二队都能拿世界杯?看完这18人名单,我沉默了…

法国二队都能拿世界杯?看完这18人名单,我沉默了…

老税系戏精北鼻
2026-05-27 07:05:09
不救菲防长了?马科斯对华改口,中方在岛礁清场,南海划设禁航区

不救菲防长了?马科斯对华改口,中方在岛礁清场,南海划设禁航区

你的雷达站
2026-07-01 20:20:54
一夜4笔重磅交易炸翻NBA!76人组四巨头封神,湖人梭哈家底被全网骂惨!

一夜4笔重磅交易炸翻NBA!76人组四巨头封神,湖人梭哈家底被全网骂惨!

刘哥谈体育
2026-07-02 11:24:55
别怪我没提醒你:2026年还敢让人“挂靠社保”的,趁早收手吧

别怪我没提醒你:2026年还敢让人“挂靠社保”的,趁早收手吧

国曙
2026-06-30 15:30:53
印尼砍30%配额想收割中企,结果反被掐住喉咙:中企3周拆光生产线

印尼砍30%配额想收割中企,结果反被掐住喉咙:中企3周拆光生产线

李砍柴
2026-07-02 14:15:06
梁文峰身家要破万亿?中国首富恐要换人了

梁文峰身家要破万亿?中国首富恐要换人了

次元君情感
2026-06-23 16:48:02
“地天板”!2倍牛股江化微,午后“秒”涨停

“地天板”!2倍牛股江化微,午后“秒”涨停

新浪财经
2026-07-02 13:55:40
迎来第一波“失业潮”的不是教师,不是医生,而是这四个行业!

迎来第一波“失业潮”的不是教师,不是医生,而是这四个行业!

职场资深秘书
2026-06-28 14:27:05
六代机,就这么明晃晃的官宣了

六代机,就这么明晃晃的官宣了

侠客栈
2026-06-30 13:35:58
北京东城10027名小学生参加小升初电脑派位,7月2日15时可查结果

北京东城10027名小学生参加小升初电脑派位,7月2日15时可查结果

北青网-北京青年报
2026-07-02 10:46:10
女子在餐厅情不自禁亲热,男友抓扯上衣险些走光,全程画面流出

女子在餐厅情不自禁亲热,男友抓扯上衣险些走光,全程画面流出

曹莽看世界
2026-07-02 14:51:21
这个一妻多夫制的民族,晚上怎么过?女人直言:简直就是受罪

这个一妻多夫制的民族,晚上怎么过?女人直言:简直就是受罪

哄动一时啊
2026-06-24 14:26:23
外媒:情报显示俄军准备发动大规模袭击,泽连斯基紧急中断出访返回基辅

外媒:情报显示俄军准备发动大规模袭击,泽连斯基紧急中断出访返回基辅

环球网资讯
2026-07-02 13:22:43
奢靡淫逸的白马会所:性交易泛滥,让富婆挥金如土,最终一夜覆灭

奢靡淫逸的白马会所:性交易泛滥,让富婆挥金如土,最终一夜覆灭

浮光惊掠影
2026-02-20 23:15:25
台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

史之铭
2026-06-17 19:50:32
马斯克一张大合照 A股机器人板块爆了

马斯克一张大合照 A股机器人板块爆了

每日经济新闻
2026-07-02 14:58:08
女生硕士研究生毕业,与近百张证书合影,当事人:本硕期间获得奖学金等共计五六万

女生硕士研究生毕业,与近百张证书合影,当事人:本硕期间获得奖学金等共计五六万

潇湘晨报
2026-07-01 17:21:20
2026-07-02 17:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13417文章数 142685关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

两高三学生公交车智斗嫌犯救下学妹:当时吓得腿软了

头条要闻

两高三学生公交车智斗嫌犯救下学妹:当时吓得腿软了

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

小鹏MONA L03 智能化水平拉满 还有玩法多样的巧思大空间

态度原创

本地
时尚
健康
艺术
公开课

本地新闻

这场穿越酉阳的光影之旅,张张都是壁纸!

月入3万,时代红利砸向文科生

这4类消化病患者 吃粘食管住嘴

艺术要闻

光辉历程 时代丹青——庆祝中国共产党成立105周年美展 油画选

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版