网易首页 > 网易号 > 正文 申请入驻

剑指专业领域零部件级3D生成!Meta联手牛津推出全新多视图扩散模型

0
分享至

新智元报道

编辑:alan

【新智元导读】对于专业应用和创意工作流来说,除了高质量的形状和纹理,更需要可以独立操作的「零部件级3D模型」。为此,Meta与牛津大学的研究人员推出了全新的多视图扩散模型。

当前AI生成的3D模型,已经拥有相当高的质量。

但这些生成结果通常只是单个物体的某种表示(比如隐式神经场、高斯混合或网格),而不包含结构信息。

对于专业应用和创意工作流来说,除了高质量的形状和纹理,更需要可以独立操作的「零部件级3D模型」。

比如上图中的几个例子,3D模型应该由多个有意义的部分组成,可以分离、组合与编辑。

而上图中的效果,正是出自Meta与牛津大学的研究人员推出的全新多视图扩散模型——PartGen。

论文地址:https://arxiv.org/pdf/2412.18608

项目地址:https://silent-chen.github.io/PartGen

PartGen可以使用文本、图像或非结构化3D对象作为输入,生成上面说的「子结构可分离」的3D模型。

同一些SOTA生成工作流类似,PartGen也采用两阶段方案,以消除零部件分割和重建的歧义:

首先,多视图生成器根据给定条件,生成3D对象的多个视图,由第一个多视图扩散模型提取一组合理且视图一致的部分分割,将对象划分为多个部分。

然后,第二个多视图扩散模型将每个部分分开,填充遮挡并馈送到3D重建网络,对这些补充完整的视图进行3D重建。

PartGen在生成过程中考虑了整个对象的上下文,以确保各部分紧密集成。这种生成式补全模型可以弥补由于遮挡而丢失的信息,还原出完全不可见的部分。

作者在合成以及真实的3D资产上评估了PartGen,如图所示,其性能大大优于之前的类似方法。

作者还将PartGen部署到真实的下游应用程序,例如3D零件编辑,以证明模型的实力。

零部件级3D生成

零件很重要,因为零件可以支持重用、编辑或者动画。

人类艺术家在制作3D模型时,会自然地以这种角度考虑。

比如一个人的模型可以分解成衣服和配饰,以及各种解剖特征(头发、眼睛、牙齿、四肢等)。

零件承载的信息和功能也很重要,比如不同的部分可能具有不同的动画或不同的材质。

零件还可以单独替换、删除或编辑。比如在视频游戏中,角色更换武器或衣服。

另外,由于其语义意义,零部件对于机器人、具身人工智能和空间智能等3D理解和应用也很重要。

PartGen将现有3D生成方法从非结构化,升级为零部件组合的方法,从而解决了两个关键问题:

1)如何自动将3D对象分割成多个部分; 2)如何提取高质量、完整的3D零部件,即使是在外观部分遮挡、或者根本看不到的情况下。

多视图零部件分割

3D对象分割并没有所谓的「黄金标准」。因此,分割方法应该对合理的部分分割的分布进行建模,而不是对单个分割进行建模。

可以使用概率扩散模型来学习这项任务,从而有效地捕捉和建模这种模糊性。

作为整个生成流程的第一阶段,研究人员将零件分割转换为随机多视图一致性着色问题(stochastic multi-view-consistent colouring problem),利用经过微调的多视图图像生成器,在3D对象的多个视图中生成颜色编码的分割图。

作者不假设任何确定性的零件分类法——分割模型从艺术家创建的大量数据中学习,如何将对象分解为多个部分。

考虑将多数图图像作为输入,模型的任务就是预测多个部分的mask。给定一个映射,将分割图渲染为多视图RGB图像,然后对预训练模型进行微调。

作者使用VAE将多视图图像编码到潜在空间中,并将其与噪声潜在空间堆叠起来,作为扩散网络的输入。

这种方法有两个优势:首先是利用了预训练的图像生成器,保证了天生具有视图一致性;其次,生成方法允许简单地从模型中重新采样来进行多个合理的分割。

上下文部分补全

对于第二个问题,即在3D中重建分割的零件,普遍的方法是在现有的对象视图中屏蔽零件,然后使用3D重建网络进行恢复。

然而,当零件被严重遮挡时,这项任务相当于非模态重建,是高度模糊的,确定性重构网络无法很好地解决。

本文建议微调另一个多视图生成器来补全部分的视图,同时考虑整个对象的上下文。

类似于上一个阶段,研究人员将预训练的VAE分别应用于蒙版图像和上下文图像,产生2 × 8个通道,并将它们与8D噪声图像和未编码的部分掩码堆叠在一起,获得扩散模型的25通道输入。

通过这种方式,即使零件在原始输入视图中仅部分可见,甚至不可见,也可以可靠地重建这些零件。此外,生成的部分可以很好地组合在一起,形成一个连贯的3D对象。

最后一步是在3D中重建零件。因为零件视图已经是完整且一致的,所以可以简单地使用重建网络来生成预测,此阶段的模型不需要特殊的微调。

训练数据

为了训练模型,研究人员从140k 3D艺术家生成的资产集合中构建了数据集(商业来源获得AI训练许可)。数据集中的示例对象如图3所示。

对于方法中涉及微调的三个模型,每个模型的数据预处理方式都不同。

为了训练多视图生成器模型,首先必须将目标多视图图像(4个视图组成)渲染到完整对象。

作者从正交方位角和20度仰角对4个视图进行着色,并将它们排列在2 × 2网格中。

在文本条件下,训练数据由多视图图像对及其文本标题组成,选择10k最高质量的资产,并使用类似CAP3D的工作流生成它们的文本标题。

在图像条件下,使用所有140k模型数据,设置随机采样以单个渲染的形式出现。

为了训练零件分割和补全网络,还需要渲染多视图零件图像及其深度图。

由于不同的创作者对部分分解有不同的想法,因此作者过滤掉数据集中可能缺乏语义的过于精细的部分(首先剔除占用对象体积小于5%的部分,然后删除具有10个以上部分或由单个整体组成的资产)。

最终的数据集包含45k个对象(210k个零部件)。

下游应用

下图给出了几个应用示例:部件感知文本到3D生成、部件感知图像到3D生成,以及真实世界的3D对象分解。

如图所示,PartGen可以有效地生成具有不同部件的3D对象,即使在严重重叠的情况下,例如小熊软糖。

给定一个来自GSO(Google Scanned Objects)的3D对象,渲染不同的视图以获得图像网格,图6的最后一行显示,PartGen可以有效地分解现实世界的3D对象。

当3D对象被分解之后,它们就可以通过文本输入进一步修改。如图7所示,PartGen可以根据文本提示有效地编辑零件的形状和纹理。

参考资料:

https://x.com/MinghaoChen23/status/1871809184620323279

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
段永平谈OPPO母亲节文案:文案欠妥,确实不合适

段永平谈OPPO母亲节文案:文案欠妥,确实不合适

凤凰网科技
2026-05-11 08:47:36
小玥儿开通账号仅24小时,难堪的一幕出现,亲爸后妈的体面全无

小玥儿开通账号仅24小时,难堪的一幕出现,亲爸后妈的体面全无

悄悄史话
2026-05-11 15:00:13
九寨沟实行“双向检票”?工作人员:出园检票并非新政策,一直严禁沟内住宿

九寨沟实行“双向检票”?工作人员:出园检票并非新政策,一直严禁沟内住宿

上游新闻
2026-05-11 15:40:24
山东恶意“仅退款”女生与商家聊天记录曝光:言辞粗鄙、态度嚣张

山东恶意“仅退款”女生与商家聊天记录曝光:言辞粗鄙、态度嚣张

葱哥说
2026-05-10 23:57:42
央一48集新剧《主角》开播!2名配角太优秀,连张嘉益都被抢风头

央一48集新剧《主角》开播!2名配角太优秀,连张嘉益都被抢风头

八斗小先生
2026-05-11 12:40:33
山姆欠租887万冲上热搜!结果大反转,网友:原来是个大冤种

山姆欠租887万冲上热搜!结果大反转,网友:原来是个大冤种

雷科技
2026-05-11 17:02:13
8年前击败北大硕士,拿下诗词大会冠军的外卖大叔,如今过得怎样

8年前击败北大硕士,拿下诗词大会冠军的外卖大叔,如今过得怎样

从零到一研究所
2026-05-09 16:17:39
张文宏:此次疫情核心在于传播路径异常;“洪迪厄斯”号邮轮8人发病3死,“室内房间不能随意开窗”;西班牙称接收工作“一切准备就绪”

张文宏:此次疫情核心在于传播路径异常;“洪迪厄斯”号邮轮8人发病3死,“室内房间不能随意开窗”;西班牙称接收工作“一切准备就绪”

大象新闻
2026-05-10 08:46:41
奥沙利文夺第八个克鲁斯堡的世锦赛冠军,也是生涯第九个世界冠军

奥沙利文夺第八个克鲁斯堡的世锦赛冠军,也是生涯第九个世界冠军

天涯远行人
2026-05-11 08:24:23
英超VAR最重要判罚!西汉姆绝平球被吹,决定冠军归属,枪手欢庆

英超VAR最重要判罚!西汉姆绝平球被吹,决定冠军归属,枪手欢庆

奥拜尔
2026-05-11 02:03:40
每体:巴萨本赛季预计入账约1.5亿欧,含竞技表现奖金3750万

每体:巴萨本赛季预计入账约1.5亿欧,含竞技表现奖金3750万

懂球帝
2026-05-11 07:13:11
义乌商家:世界杯周边销量没达预期,经济下行,时间也不友好

义乌商家:世界杯周边销量没达预期,经济下行,时间也不友好

懂球帝
2026-05-11 11:49:21
伊朗主帅加莱诺埃:祝中国队好运,我们和中国是好朋友

伊朗主帅加莱诺埃:祝中国队好运,我们和中国是好朋友

懂球帝
2026-05-11 11:37:55
光迅科技今日涨停,有4家机构专用席位净卖出10.32亿元

光迅科技今日涨停,有4家机构专用席位净卖出10.32亿元

每日经济新闻
2026-05-11 16:34:05
王皓挥拳+张本智和父亲沉默!梁靖崑回应2天2个失2追3:有点懵

王皓挥拳+张本智和父亲沉默!梁靖崑回应2天2个失2追3:有点懵

风过乡
2026-05-11 06:47:32
吞自己的苦果!日媒称:中国多所一流高校已经终止向日本派交换生

吞自己的苦果!日媒称:中国多所一流高校已经终止向日本派交换生

凡知
2026-05-09 12:38:17
鲁比奥回应伊朗外长访华:我不是替中国考虑,但中国是出口型国家

鲁比奥回应伊朗外长访华:我不是替中国考虑,但中国是出口型国家

青辉
2026-05-11 15:48:02
15.98万,真的疯了

15.98万,真的疯了

放毒
2026-05-09 18:53:10
伍德沃德美股盘前跌超26%

伍德沃德美股盘前跌超26%

每日经济新闻
2026-05-11 16:23:05
台官员揭密:赖清德返台惊险全记录,大陆拦截落空,背后真相曝光

台官员揭密:赖清德返台惊险全记录,大陆拦截落空,背后真相曝光

抑尘的清风
2026-05-09 16:10:05
2026-05-11 17:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15183文章数 66862关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

吴宜泽:能进攻时我从来不会防守 为此付出过很多代价

头条要闻

吴宜泽:能进攻时我从来不会防守 为此付出过很多代价

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

手机
健康
艺术
亲子
军事航空

手机要闻

华为Mate 80 Pro Max风驰版推HarmonyOS 6.1.0.117 SP10升级

干细胞能让人“返老还童”吗

艺术要闻

陆抑非写竹,笔力遒劲

亲子要闻

阿不力挖不力,这是谁的声音?

军事要闻

特朗普:伊朗的回应“完全不可接受”

无障碍浏览 进入关怀版