网易首页 > 网易号 > 正文 申请入驻

剑指专业领域零部件级3D生成!Meta联手牛津推出全新多视图扩散模型

0
分享至

新智元报道

编辑:alan

【新智元导读】对于专业应用和创意工作流来说,除了高质量的形状和纹理,更需要可以独立操作的「零部件级3D模型」。为此,Meta与牛津大学的研究人员推出了全新的多视图扩散模型。

当前AI生成的3D模型,已经拥有相当高的质量。

但这些生成结果通常只是单个物体的某种表示(比如隐式神经场、高斯混合或网格),而不包含结构信息。

对于专业应用和创意工作流来说,除了高质量的形状和纹理,更需要可以独立操作的「零部件级3D模型」。

比如上图中的几个例子,3D模型应该由多个有意义的部分组成,可以分离、组合与编辑。

而上图中的效果,正是出自Meta与牛津大学的研究人员推出的全新多视图扩散模型——PartGen。

论文地址:https://arxiv.org/pdf/2412.18608

项目地址:https://silent-chen.github.io/PartGen

PartGen可以使用文本、图像或非结构化3D对象作为输入,生成上面说的「子结构可分离」的3D模型。

同一些SOTA生成工作流类似,PartGen也采用两阶段方案,以消除零部件分割和重建的歧义:

首先,多视图生成器根据给定条件,生成3D对象的多个视图,由第一个多视图扩散模型提取一组合理且视图一致的部分分割,将对象划分为多个部分。

然后,第二个多视图扩散模型将每个部分分开,填充遮挡并馈送到3D重建网络,对这些补充完整的视图进行3D重建。

PartGen在生成过程中考虑了整个对象的上下文,以确保各部分紧密集成。这种生成式补全模型可以弥补由于遮挡而丢失的信息,还原出完全不可见的部分。

作者在合成以及真实的3D资产上评估了PartGen,如图所示,其性能大大优于之前的类似方法。

作者还将PartGen部署到真实的下游应用程序,例如3D零件编辑,以证明模型的实力。

零部件级3D生成

零件很重要,因为零件可以支持重用、编辑或者动画。

人类艺术家在制作3D模型时,会自然地以这种角度考虑。

比如一个人的模型可以分解成衣服和配饰,以及各种解剖特征(头发、眼睛、牙齿、四肢等)。

零件承载的信息和功能也很重要,比如不同的部分可能具有不同的动画或不同的材质。

零件还可以单独替换、删除或编辑。比如在视频游戏中,角色更换武器或衣服。

另外,由于其语义意义,零部件对于机器人、具身人工智能和空间智能等3D理解和应用也很重要。

PartGen将现有3D生成方法从非结构化,升级为零部件组合的方法,从而解决了两个关键问题:

1)如何自动将3D对象分割成多个部分; 2)如何提取高质量、完整的3D零部件,即使是在外观部分遮挡、或者根本看不到的情况下。

多视图零部件分割

3D对象分割并没有所谓的「黄金标准」。因此,分割方法应该对合理的部分分割的分布进行建模,而不是对单个分割进行建模。

可以使用概率扩散模型来学习这项任务,从而有效地捕捉和建模这种模糊性。

作为整个生成流程的第一阶段,研究人员将零件分割转换为随机多视图一致性着色问题(stochastic multi-view-consistent colouring problem),利用经过微调的多视图图像生成器,在3D对象的多个视图中生成颜色编码的分割图。

作者不假设任何确定性的零件分类法——分割模型从艺术家创建的大量数据中学习,如何将对象分解为多个部分。

考虑将多数图图像作为输入,模型的任务就是预测多个部分的mask。给定一个映射,将分割图渲染为多视图RGB图像,然后对预训练模型进行微调。

作者使用VAE将多视图图像编码到潜在空间中,并将其与噪声潜在空间堆叠起来,作为扩散网络的输入。

这种方法有两个优势:首先是利用了预训练的图像生成器,保证了天生具有视图一致性;其次,生成方法允许简单地从模型中重新采样来进行多个合理的分割。

上下文部分补全

对于第二个问题,即在3D中重建分割的零件,普遍的方法是在现有的对象视图中屏蔽零件,然后使用3D重建网络进行恢复。

然而,当零件被严重遮挡时,这项任务相当于非模态重建,是高度模糊的,确定性重构网络无法很好地解决。

本文建议微调另一个多视图生成器来补全部分的视图,同时考虑整个对象的上下文。

类似于上一个阶段,研究人员将预训练的VAE分别应用于蒙版图像和上下文图像,产生2 × 8个通道,并将它们与8D噪声图像和未编码的部分掩码堆叠在一起,获得扩散模型的25通道输入。

通过这种方式,即使零件在原始输入视图中仅部分可见,甚至不可见,也可以可靠地重建这些零件。此外,生成的部分可以很好地组合在一起,形成一个连贯的3D对象。

最后一步是在3D中重建零件。因为零件视图已经是完整且一致的,所以可以简单地使用重建网络来生成预测,此阶段的模型不需要特殊的微调。

训练数据

为了训练模型,研究人员从140k 3D艺术家生成的资产集合中构建了数据集(商业来源获得AI训练许可)。数据集中的示例对象如图3所示。

对于方法中涉及微调的三个模型,每个模型的数据预处理方式都不同。

为了训练多视图生成器模型,首先必须将目标多视图图像(4个视图组成)渲染到完整对象。

作者从正交方位角和20度仰角对4个视图进行着色,并将它们排列在2 × 2网格中。

在文本条件下,训练数据由多视图图像对及其文本标题组成,选择10k最高质量的资产,并使用类似CAP3D的工作流生成它们的文本标题。

在图像条件下,使用所有140k模型数据,设置随机采样以单个渲染的形式出现。

为了训练零件分割和补全网络,还需要渲染多视图零件图像及其深度图。

由于不同的创作者对部分分解有不同的想法,因此作者过滤掉数据集中可能缺乏语义的过于精细的部分(首先剔除占用对象体积小于5%的部分,然后删除具有10个以上部分或由单个整体组成的资产)。

最终的数据集包含45k个对象(210k个零部件)。

下游应用

下图给出了几个应用示例:部件感知文本到3D生成、部件感知图像到3D生成,以及真实世界的3D对象分解。

如图所示,PartGen可以有效地生成具有不同部件的3D对象,即使在严重重叠的情况下,例如小熊软糖。

给定一个来自GSO(Google Scanned Objects)的3D对象,渲染不同的视图以获得图像网格,图6的最后一行显示,PartGen可以有效地分解现实世界的3D对象。

当3D对象被分解之后,它们就可以通过文本输入进一步修改。如图7所示,PartGen可以根据文本提示有效地编辑零件的形状和纹理。

参考资料:

https://x.com/MinghaoChen23/status/1871809184620323279

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨紫啊!实在不行你就退圈吧!主要是大家都看不下去了,你都33了

杨紫啊!实在不行你就退圈吧!主要是大家都看不下去了,你都33了

乐悠悠娱乐
2025-10-28 15:05:14
25岁男子在四川景区身亡!遇难全过程曝光,网友一边倒:死不足惜

25岁男子在四川景区身亡!遇难全过程曝光,网友一边倒:死不足惜

一只番茄鱼
2025-10-30 21:25:33
浙江1米75男生只有110斤,反复腹痛一年被误会“装病”,医生凭一个细节揪出罕见病!

浙江1米75男生只有110斤,反复腹痛一年被误会“装病”,医生凭一个细节揪出罕见病!

FM93浙江交通之声
2025-11-02 06:05:42
这下好了,不仅全国人民知道了,就连空间站的航天员也知道了!

这下好了,不仅全国人民知道了,就连空间站的航天员也知道了!

夜深爱杂谈
2025-11-01 07:58:52
一夜之间,特朗普对华高挂“免战牌”!帮中国争取到了宝贵的时间

一夜之间,特朗普对华高挂“免战牌”!帮中国争取到了宝贵的时间

叮当当科技
2025-11-03 05:54:04
幽灵点球!C罗赛后遭群嘲! 费哈主帅怒斥:取悦C罗是安排好的!

幽灵点球!C罗赛后遭群嘲! 费哈主帅怒斥:取悦C罗是安排好的!

恒歪评球
2025-11-02 14:07:28
杨瀚森发展联盟好刷数据?杨毅:人家拿球能给你么,姥姥!

杨瀚森发展联盟好刷数据?杨毅:人家拿球能给你么,姥姥!

阿纂看事
2025-11-02 15:32:11
官方已确认!75岁张艺谋,突传消息!

官方已确认!75岁张艺谋,突传消息!

好叫好伐
2025-11-01 18:19:38
外电:红军城之战为何如此重要?

外电:红军城之战为何如此重要?

参考消息
2025-11-02 17:42:11
300亿收购梦碎!闻泰科技手中的安世只剩“空壳”

300亿收购梦碎!闻泰科技手中的安世只剩“空壳”

风风顺
2025-10-14 10:09:49
德媒:“压路机”重返布鲁塞尔?冯德莱恩拒绝

德媒:“压路机”重返布鲁塞尔?冯德莱恩拒绝

环球网资讯
2025-11-03 06:47:47
正式开通!南山⇌香港1.5小时!

正式开通!南山⇌香港1.5小时!

深圳全接触
2025-11-02 22:17:01
经省委常委会会议研究:州政协秘书长潘黔昆,拟任县委书记

经省委常委会会议研究:州政协秘书长潘黔昆,拟任县委书记

新京报政事儿
2025-11-02 17:12:16
中超第29轮现5大争议判罚!蓉城最冤?申花受益?亚泰逃红?

中超第29轮现5大争议判罚!蓉城最冤?申花受益?亚泰逃红?

谢葥邮轮摄影
2025-11-03 06:22:03
海牛1-0,赢球不可怕,可怕的是李霄鹏赛后一席话,尽显高情商

海牛1-0,赢球不可怕,可怕的是李霄鹏赛后一席话,尽显高情商

范櫳舍长
2025-11-02 20:20:16
“公粮补偿”方案有变,农民有福了?11月农村这5件事,大家要关注

“公粮补偿”方案有变,农民有福了?11月农村这5件事,大家要关注

特特农村生活
2025-11-02 14:01:25
痛心!19岁女大学生和24岁女子不幸遇难,网友:太大胆,必须严厉追责

痛心!19岁女大学生和24岁女子不幸遇难,网友:太大胆,必须严厉追责

大风新闻
2025-11-02 10:45:10
四大银行 大额存单最新利率:2025年11月,本金20万比买国债强吗?

四大银行 大额存单最新利率:2025年11月,本金20万比买国债强吗?

双色球的方向舵
2025-11-02 09:05:48
11月3日精选热点:可控核聚变再传利好,这些地位公司显著受益

11月3日精选热点:可控核聚变再传利好,这些地位公司显著受益

元芳说投资
2025-11-02 19:30:34
主动揽责任,勇士队库里在又一次令人难以置信地失利后自责不已

主动揽责任,勇士队库里在又一次令人难以置信地失利后自责不已

好火子
2025-11-03 05:20:17
2025-11-03 07:32:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13769文章数 66236关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

游戏
家居
教育
亲子
公开课

TES给Faker打困了!网友称第一次见到Faker打哈欠

家居要闻

吸睛艺术 富有传奇色彩

教育要闻

背诵很多遍依旧写不出来,要让自己根据真题练习模拟写作

亲子要闻

我发现一个带娃永远不生气的理论

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版