网易首页 > 网易号 > 正文 申请入驻

无需多视角,单图重建可交互3D模型!南洋理工开源结构推理框架

0
分享至


新智元报道

编辑:LRST

【新智元导读】让3D模型「活」起来!南洋理工大学团队提出MonoArt,通过逐步推理实现从单图生成可动3D模型。该方法先恢复几何结构,再识别部件,最后推断运动方式与参数。无需外部数据或先验,即可构建出具备运动能力的3D表示,有效提升重建稳定性与实用性。

在3D生成领域,我们已经习惯了从单张图片中生成3D物体模型。

然而,随着具身智能(Embodied AI)的爆发,一个新的现实摆在研究者面前:这些模型大多是难以交互的静态资产。

你想打开生成的冰箱门?它是焊死的。你想让机器人搬动生成的椅子?它不知道哪里可以折叠 。

近日,来自南洋理工大学S-Lab的研究团队提出MonoArt,尝试高效的解决这一问题:与其让模型直接「猜」物体怎么动,不如先让它一步步「理解」物体的结构。

MonoArt 的核心思路可以概括为一句话: 把单目可动物体重建,建模为一个渐进式结构推理过程(progressive structural reasoning)。

在这个框架里,模型不是一次性输出articulation,而是依次完成几何恢复、部件感知、运动推理和运动学参数估计,最终得到一个既有形状、又有部件层级和关节信息的3D表示。


论文链接:https://arxiv.org/abs/2603.19231

项目链接:https://lihaitian.com/MonoArt/

GitHub链接:https://github.com/Quest4Science/MonoArt

引言

与静态3D重建不同,articulated 3D reconstruction不仅要恢复物体形状,还要进一步建模部件划分、关节类型、运动轴、旋转中心和运动范围。这个任务的难点不仅在于需要预测的参数更多,更在于结构与运动是耦合的:不知道可动部件怎么划分,就很难推断它如何运动;反过来,不理解运动关系,又很难真正建好可动部件的结构。也正因为如此,直接从图像特征回归articulation往往不稳定,泛化也有限。

现有方法大致可以分为三类:

  • 基于多视角或视频的方法依赖同一物体在不同开合状态下的观测,虽然效果较好,但对数据条件要求高,真实场景中往往不具备。

  • 基于检索与拼装的方法通过已有资产库组装可动物体,但容易受到库内形状覆盖的限制,结果常出现几何误差和纹理不匹配。

  • 基于额外先验的方法借助视觉语言模型、辅助视频生成或预定义运动方向来推断articulation,虽然减少了对多视角数据的依赖,但系统更复杂,更依赖外部先验,同时通常需要更漫长的推理时间。

这些方法有一个共同问题:它们都没有真正把结构理解本身作为articulation inference的起点。

要么依赖更多观测补信息,要么依赖外部先验补线索,但都没有回答一个更本质的问题:单张图像里的可动物体,能否先被拆解为稳定的几何与部件结构,再在此基础上推断运动关系?

MonoArt正是为了解决这个问题而提出。它不再把 articulation 视为一个直接回归的结果,而是将单目可动物体重建建模为一个渐进式结构推理过程,把 geometry、part structure 和 motion 放进同一条连续的推理链里,让运动成为结构理解的自然结果。

方法设计


具体来看,MonoArt 由四个关键模块组成,来实现图像 → 几何恢复 → 部件感知 → 运动推理 → 运动学参数估计的逐步的推理。

第一步:先有一个靠谱的3D形状

一切的起点是从单张图像恢复出物体的三维几何。MonoArt使用TRELLIS作为冻结的3D生成骨干,输出一个canonical mesh以及与之对齐的latent features。这一步的意义在于:后续所有关于「部件」和「运动」的推理,都建立在三维空间而非二维图像上——这比直接从像素特征回归关节参数要稳定得多。

第二步:知道物体由哪些可动部件组成

有了3D形状,下一个问题是:这个形状里哪些部分是可动的?一个柜子的门和柜体是两个不同的部件,但mesh本身不会告诉你这一点。Part-Aware Semantic Reasoner的作用就是让模型「看懂」部件结构。

它将表面上每个点的几何特征投影到三个正交平面上(triplane),再通过Transformer 捕捉全局结构关系,最终为每个点生成一个包含部件归属信息的embedding。

训练时通过triplet loss来拉开不同部件特征之间的距离,让属于同一部件的点聚在一起,不同部件的点彼此远离。

下面的可视化很直观地展示了这一步的效果:没有这个模块时,点特征对于部件难以有运动层级上的区分(第二列);加上模块和triplet监督后,不同部件的特征有了较好的区分(最后一列)。


第三步:推断每个部件怎么动

知道了部件划分,接下来要推断运动。但这里有一个微妙的难点:描述一个部件的运动,需要同时回答两类不同性质的问题——它「是什么」(语义:这是一扇门还是一个抽屉?)和它的运动「发生在哪里」(空间:旋转中心在什么位置?)。

如果把这两类信息混在同一个表征里端到端回归,往往不稳定。 MonoArt的Dual-Query Motion Decoder用了一个解耦的设计:用content query编码部件语义,用position query编码空间运动锚点,两者通过6层迭代 refinement 逐步对齐。

每一层中,query之间通过self-attention建模部件间关系,再通过 cross-attention 从点特征中提取证据。这种「一边搞清楚是什么,一边搞清楚在哪里」的并行迭代方式,让运动推理更加稳定。

第四步:输出物理上可用的运动学参数

最后,Kinematic Estimator 把前面的推理结果转化为明确的、物理可解释的输出:每个部件的 mask、关节类型(固定、旋转、平移等)、旋转轴方向、旋转中心位置、以及运动范围上下限。

此外,它还预测部件之间的父子关系,构建出完整的 kinematic tree——也就是「哪个部件连在哪个部件上」。

一个值得注意的设计细节是:关节位置的预测采用了残差形式,以上一步输出的 position query(即部件质心)为锚点,只预测偏移量。消融实验表明这比直接回归绝对坐标更准确——这也呼应了整个框架「渐进式」的设计哲学:每一步都站在上一步的肩膀上。

这四步递进的设计带来一个直接的好处:整个articulation推理不需要任何外部先验——不需要多视角、不需要资产库、不需要VLM、不需要辅助视频生成。那么它的效果到底怎么样?

实验效果

在PartNet-Mobility基准测试中,MonoArt在7类和46类两种设置下均展现出领先性能。

相比SINGAPO、URDFormer、Articulate-Anything、PhysXAnything等代表性方法,MonoArt在几何重建质量、关节类型预测以及关键运动参数估计等多个核心指标上取得最优表现,同时兼顾了更高的推理效率。

相比Articulate-Anything的229.9s和PhysXAnything的256.8s, MonoArt只需要20.5s(其中 18.2 秒花在 TRELLIS做3D重建上,articulation reasoning本身只增加了约 2 秒的开销)。

同时,在下游任务中,MonoArt生成的3D物体可以用在机械臂的仿真训练,MonoArt 重建出来的物体可以直接导入 IsaacSim,让 Franka 机械臂去抓取和开门,不需要任何额外的关节标注。

MonoArt可以扩展到具有可动部件的场景生成上。

局限性与思考

MonoArt给单目articulated 3D reconstruction提供了一条清晰的新路线:不是依赖越来越重的外部先验去「补」运动,而是通过progressive structural reasoning,让模型真正学会物体为什么这样组成、又为什么可以这样运动。

但是对于尺度极不均衡的小部件,均匀采样可能导致特征不够明显;对于非常新的拓扑结构或罕见模式,模型的运动参数预测也可能下降。这些问题也为后续工作留下了空间。

参考资料:

[1] TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation. CVPR 2025.

[2] URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images. RSS 2024.

[3] SINGAPO: Single Image Controlled Generation of Articulated Parts in Objects. ICLR 2025.

[4] Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model. ICLR 2025.

[5] PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image. CVPR 2026.

[6] DreamArt: Generating Interactable Articulated Objects from a Single Image. SIGGRAPH Asia 2025.

[7] Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics. ICCV 2025.

[8] PARIS: Part-level Reconstruction and Motion Analysis for Articulated Objects. ICCV 2023.

[9] ArticulatedGS: Self-supervised Digital Twin Modeling of Articulated Objects using 3D Gaussian Splatting. CVPR 2025.

[10] PhysX-3D: Physical-Grounded 3D Asset Generation. NeurIPS 2025.


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4500万人恐断粮!美国深夜求援中俄:粮食红线被踩化肥紧缺超黄金

4500万人恐断粮!美国深夜求援中俄:粮食红线被踩化肥紧缺超黄金

闻识
2026-04-22 01:12:59
埃奇库姆你太狠了,第一次季后赛,就创造80年NBA独一无二纪录

埃奇库姆你太狠了,第一次季后赛,就创造80年NBA独一无二纪录

大西体育
2026-04-22 17:31:24
51岁何润东骑自行车买早饭,妻子林姵希蹬车小腿纤细,很般配

51岁何润东骑自行车买早饭,妻子林姵希蹬车小腿纤细,很般配

娱乐圈圈圆
2026-04-22 10:45:56
醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

芹姐说生活
2026-04-19 15:52:53
祭拜鬼社当天,日本发出崩溃预警,美欧视而不见,中国不再伸援手

祭拜鬼社当天,日本发出崩溃预警,美欧视而不见,中国不再伸援手

离离言几许
2026-04-21 23:24:09
姆巴佩破门造2大纪录,熊皇世界波,皇马2-1送阿拉维斯交手9连败

姆巴佩破门造2大纪录,熊皇世界波,皇马2-1送阿拉维斯交手9连败

钉钉陌上花开
2026-04-22 05:33:49
詹姆斯:系列赛要赢四场2-0没有意义,前往客场要做好充分准备

詹姆斯:系列赛要赢四场2-0没有意义,前往客场要做好充分准备

懂球帝
2026-04-22 14:20:10
特大级建工集团崩了,从业20年的老员工:天塌了!

特大级建工集团崩了,从业20年的老员工:天塌了!

新浪财经
2026-04-22 10:14:20
伊朗拒绝出席谈判,特朗普宣布延长停火期限

伊朗拒绝出席谈判,特朗普宣布延长停火期限

21世纪经济报道
2026-04-22 06:41:08
太扎心了!上海男子年薪百万失业引不满,新婚3个月女子就想离婚

太扎心了!上海男子年薪百万失业引不满,新婚3个月女子就想离婚

火山詩话
2026-04-20 06:12:18
43岁李宗伟谈羽联改革:若改用15分制,说不定我也会复出

43岁李宗伟谈羽联改革:若改用15分制,说不定我也会复出

懂球帝
2026-04-22 10:47:23
美伊极限拉扯!伊朗拒绝出席谈判,美国延长停火期限但维持海上封锁

美伊极限拉扯!伊朗拒绝出席谈判,美国延长停火期限但维持海上封锁

上观新闻
2026-04-22 06:53:08
934元平板背后:小米在赌一个被忽视的市场

934元平板背后:小米在赌一个被忽视的市场

我是一个粉刷匠2
2026-04-21 14:58:01
广东汕尾一地下车库新能源电动汽车起火:已处置完毕,无伤亡

广东汕尾一地下车库新能源电动汽车起火:已处置完毕,无伤亡

澎湃新闻
2026-04-22 17:52:30
就在刚刚!广东官宣2米11中锋加盟!离队第1人出炉,不是奎因

就在刚刚!广东官宣2米11中锋加盟!离队第1人出炉,不是奎因

老吴说体育
2026-04-22 11:59:40
4.7万宗罪!萨尔瓦多总统公审500名黑帮,铁腕清算杀疯了!

4.7万宗罪!萨尔瓦多总统公审500名黑帮,铁腕清算杀疯了!

明天见灌装冰块
2026-04-22 16:20:32
火箭94-101湖人!杜兰特说一事实,申京放豪言,乌度卡要改变2点

火箭94-101湖人!杜兰特说一事实,申京放豪言,乌度卡要改变2点

鱼崖大话篮球
2026-04-22 17:02:01
国务院国资委党委专题通报中国航材有关问题

国务院国资委党委专题通报中国航材有关问题

每日经济新闻
2026-04-22 11:30:43
4月22日亨通光电(600487)涨停分析:股东增持、光通信景气与订单饱满驱动

4月22日亨通光电(600487)涨停分析:股东增持、光通信景气与订单饱满驱动

证券之星
2026-04-22 15:44:27
京东员工:周围同事不少得糖尿病呀,有点恐怖

京东员工:周围同事不少得糖尿病呀,有点恐怖

蚂蚁大喇叭
2026-04-22 09:54:02
2026-04-22 18:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15039文章数 66798关注度
往期回顾 全部

科技要闻

对话梅涛:没有视频底座,具身智能走不远

头条要闻

特朗普180°转弯延长停火 伊朗硬刚首次直接回绝谈判

头条要闻

特朗普180°转弯延长停火 伊朗硬刚首次直接回绝谈判

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

复婚无望!baby黄晓明陪小海绵零交流

财经要闻

伊朗拒绝出席 特朗普宣布延长停火期限

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

时尚
游戏
本地
手机
军事航空

初夏穿赫本的白裤子,清新又高级!

性感美女韩游上线Steam!酥脸白腿娇羞可爱

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

手机要闻

三剑齐发!华为nova 16系列已备案:Ultra版谢幕

军事要闻

特朗普宣布延长停火 伊朗表态

无障碍浏览 进入关怀版