学会分解组装3D物体：香港大学让计算机具备"零件思维"|体素|原理|遮罩

分享至

这项由香港大学的杨云涵、刘希辉等研究者与哈尔滨工业大学、浙江大学、VAST公司联合开展的研究发表于2025年7月，论文标题为"OmniPart: Part-Aware 3D Generation with Semantic Decoupling and Structural Cohesion"。有兴趣深入了解的读者可以通过论文项目页面https://omnipart.github.io/访问完整内容。

当我们看到一个机器人玩具时，大脑会自动将它分解为头部、身体、手臂、腿部等不同部分。这种"零件思维"让我们能够轻松理解物体的结构，也让我们能够想象如何重新组装或修改这些部分。然而，对于计算机来说，这种看似简单的能力一直是个巨大挑战。

传统的3D生成技术就像是用一整块橡皮泥捏出一个雕塑，虽然外观不错，但内部结构是混乱的，无法分离出有意义的部分。如果你想给这个3D机器人换个帽子或者调整手臂的位置，就像试图从一块已经混合好的面团中取出特定的面粉一样困难。这种限制严重阻碍了3D内容在游戏、动画、虚拟现实等领域的应用。

这个研究团队提出了一个名为OmniPart的创新框架，让计算机学会了像人类一样思考3D物体的结构。这个系统能够从一张普通的2D图片出发，不仅生成高质量的3D模型，还能自动将其分解为语义明确、结构合理的各个部分。更重要的是，用户可以通过简单的2D遮罩来控制这个分解过程，就像在照片上用不同颜色标记出你想要分离的部分一样直观。

一、智能规划：让计算机学会"看图识部件"

OmniPart的工作原理可以用装配家具来类比。当你拿到一套宜家家具的安装说明书时，第一步总是查看零件清单，了解需要哪些部件以及它们的大致位置。OmniPart的第一个核心模块就扮演着这样的角色，它被称为"可控结构规划"模块。

这个模块的工作方式非常巧妙。研究团队让它学会了一种特殊的"语言"，这种语言不是用文字，而是用3D边界框来表达。每个边界框就像是一个透明的盒子，圈出一个特定零件应该占据的空间范围。比如，如果要生成一个机器人，系统会先预测出头部、躯干、手臂、腿部等各个部分的大致位置和大小。

这个过程使用了一种叫做"自回归生成"的技术。简单来说，就是让计算机像写故事一样，一个接一个地生成这些边界框。它会先决定第一个部件的位置，然后基于这个信息决定第二个部件的位置，以此类推。这种方法的好处是可以处理不同复杂程度的物体，有些物体可能只需要3-5个部件，而复杂的物体可能需要几十个部件。

更令人印象深刻的是，这个系统支持用户控制。用户可以在输入的2D图像上用不同颜色标记出希望分离的部分，就像用彩色笔在草图上涂色一样。系统会理解这些标记，并据此调整3D分解的策略。这种控制方式不需要用户具备专业的3D建模知识，任何人都可以通过直观的2D操作来影响3D结果。

为了确保生成的边界框能够完整覆盖对应的物体部分，研究团队还引入了一个"部件覆盖损失"的技术。这就像是在装配过程中反复检查每个零件是否都被正确的包装盒包含，如果发现有零件露在外面，系统会自动调整盒子的大小以确保完整覆盖。

二、精准合成：同时生成所有零件的艺术

有了详细的零件清单和位置规划，接下来就是实际制造这些零件。这就是OmniPart第二个核心模块的任务：空间条件化零件合成。这个过程就像是一个拥有多条生产线的智能工厂，能够同时制造所有需要的零件，并确保它们完美契合。

这个合成过程建立在一个名为TRELLIS的先进3D生成系统之上。TRELLIS使用了一种叫做"结构化潜在表示"的技术，可以将3D物体编码为一组稀疏的体素点，每个体素点都携带着局部的几何和外观信息。研究团队巧妙地利用了这个特性，将第一阶段预测的边界框转化为体素初始化的指导。

在这个过程中，系统面临一个重要挑战：如何让所有零件保持整体的一致性。这就像是要求多个厨师同时制作一道菜的不同部分，既要保证每个部分的质量，又要确保它们能够完美组合。研究团队的解决方案是引入"零件位置嵌入"技术。系统会给每个零件分配一个特殊的标识符，让生成网络知道当前正在处理的是哪个部分，以及它与整体的关系。

更加创新的是，系统还采用了"体素丢弃机制"来处理边界重叠的问题。在现实中，相邻零件的边界往往会有重叠，比如机器人手臂和躯干的连接处。系统会自动识别这些重叠区域，并决定每个体素真正属于哪个零件。这个过程就像是在拼图时自动修整边缘，确保每个拼块都能完美契合。

整个合成过程使用了一种叫做"整流流"的先进生成技术。这种技术可以被理解为一个精密的雕刻过程，从粗糙的噪声开始，逐步细化直到得到精确的3D几何形状。关键在于，所有零件的雕刻过程是同步进行的，系统会不断协调各个零件之间的关系，确保最终结果的一致性。

三、数据构建：打造AI的"零件字典"

为了训练这样一个复杂的系统，研究团队需要构建一个庞大的训练数据集。这个过程就像是为AI编写一本详尽的"零件字典"，让它学会识别和理解各种物体的部件结构。

研究团队收集了18万个带有零件标注的3D物体。这些物体涵盖了从简单的家具到复杂的机器人等各种类别。每个物体都被仔细标注了其组成部件，包括每个部件的边界、语义类别和空间关系。这个过程需要大量的人工工作，就像是要为每个物体编写详细的零件说明书。

为了确保训练质量，研究团队还设计了一个评分系统来评估标注质量。他们从18万个物体中选出了1.5万个高质量样本作为核心训练数据。这些样本的零件数量分布很广，从简单的2-3个部件到复杂的几十个部件都有涵盖。

在数据预处理阶段，系统会为每个零件渲染150个不同角度的视图，然后使用先进的视觉编码器提取特征。这个过程就像是为每个零件拍摄全方位的照片，让AI能够从各个角度理解零件的外观和结构。

四、实验验证：全面测试系统性能

为了验证OmniPart的有效性，研究团队设计了一系列全面的实验。他们构建了一个包含300个测试物体的评估数据集，这些物体按照零件数量分为四个组别：0-5个零件、6-10个零件、11-15个零件和16-50个零件。

在边界框生成的评估中，研究团队使用了三个关键指标：边界框IoU（衡量预测边界框与真实边界框的重叠程度）、体素召回率（衡量预测边界框覆盖有效零件体素的比例）和体素IoU（衡量整体体素级别的重叠程度）。实验结果显示，OmniPart在所有指标上都显著优于现有方法。特别是在体素召回率方面，OmniPart达到了85.96%，远超基线方法的79.12%。

在完整的零件感知3D生成评估中，研究团队将OmniPart与多个现有方法进行了对比。这些方法包括基于分割的方法（如TRELLIS+SAM3D）、基于重建的方法（如TRELLIS+PartField+HoloPart）以及直接生成方法（如Part123和PartGen）。评估使用了零件级别和整体物体级别的几何质量指标，包括倒角距离和F1分数。

结果表明，OmniPart在所有评估指标上都取得了最佳性能。在零件级别的倒角距离方面，OmniPart达到了0.18，明显优于其他方法。在整体物体级别，OmniPart也表现出了优异的性能，证明了其生成的零件不仅质量高，而且能够很好地组合成完整的物体。

效率方面的测试也显示出OmniPart的优势。从单张图像生成零件级3D输出，OmniPart只需要约0.75分钟，而Part123需要约15分钟，PartGen需要约5分钟。这种效率提升主要来自于OmniPart的统一主干设计，能够同时生成所有零件，并支持直接解码为网格、3D高斯点云或NeRF表示。

五、实际应用：开启3D内容创作新纪元

OmniPart的成功不仅在于其技术创新，更在于其广泛的应用前景。这个系统为3D内容创作开辟了许多新的可能性，让普通用户也能轻松进行复杂的3D编辑和定制。

在遮罩控制生成方面，用户可以通过简单的2D遮罩来控制3D零件的结构。这个过程就像是在纸上画草图，然后让计算机自动将其转换为精确的3D模型。研究团队设计了一个高效的流程，用户可以通过合并SAM生成的过分割区域来获得准确的2D遮罩。

多粒度生成是另一个重要应用。通过控制2D分割遮罩的粒度，用户可以生成不同复杂程度的3D零件。比如，对于同一个机器人，用户可以选择生成粗粒度的"头部、躯干、四肢"三个部分，也可以选择生成细粒度的"眼部、嘴部、帽子、衣服、手掌、脚部"等十几个部分。这种灵活性让系统能够适应不同的应用需求。

材质编辑功能让用户可以为每个零件单独分配材质属性。这就像是为每个零件准备不同的"衣服"，比如可以给机器人的帽子换成不同的颜色或材质，给衣服添加不同的图案。这种零件级别的材质控制为3D内容的个性化定制提供了强大的支持。

几何处理方面，OmniPart生成的零件感知3D对象使得几何处理变得更加便捷和有效。比如，在网格重构过程中，系统可以为每个零件单独处理，避免了传统方法在零件边界处产生的人工痕迹。这种处理方式不仅提高了处理质量，还大大简化了工作流程。

动画支持是OmniPart的另一个重要应用。由于每个零件都是独立生成的，动画师可以轻松地为每个零件设置不同的动画参数。比如，可以让机器人的手臂独立旋转，让头部独立点头，这种精细的控制能力为动画制作提供了极大的便利。

研究团队还展示了OmniPart在实际项目中的应用效果。他们使用系统生成了各种复杂的3D对象，包括机器人、车辆、家具、动物等。这些生成的对象不仅具有高质量的视觉效果，还能支持各种后续的编辑和处理操作。

六、技术创新与突破

OmniPart在技术层面实现了多个重要突破。首先是两阶段解耦设计的创新。传统方法通常将零件规划和零件生成混合在一起，导致控制困难和质量不稳定。OmniPart将这两个过程完全分离，先进行结构规划，再进行几何生成，这种设计不仅提高了控制性，还显著改善了生成质量。

自回归边界框生成是另一个技术亮点。这种方法能够处理可变数量的零件，不需要预先指定零件数量。系统会根据输入的复杂程度自动决定生成多少个零件，这种自适应能力让系统能够处理从简单到复杂的各种对象。

空间条件化合成技术实现了所有零件的同步生成。这种方法避免了传统逐个生成方法可能产生的不一致性问题，确保所有零件能够完美组合。同时，这种同步生成方式也大大提高了生成效率。

体素丢弃机制是解决边界重叠问题的创新方案。这个机制能够自动识别和处理零件边界处的重叠体素，确保每个体素都被正确分配给对应的零件。这种处理方式不仅提高了分割精度，还减少了后续处理的复杂度。

零件位置嵌入技术让系统能够理解零件之间的空间关系。这种嵌入方式不仅帮助系统区分不同的零件，还让生成过程能够考虑零件之间的相互影响，从而提高整体的一致性。

七、实验分析与性能评估

研究团队进行了详尽的消融实验来验证每个技术组件的有效性。在边界框生成的消融实验中，他们发现覆盖损失的引入显著提高了体素召回率和IoU。虽然没有覆盖损失的模型在边界框IoU方面表现更好（41.24% vs 38.37%），但这种"更准确"的边界框实际上覆盖了更少的有效零件体素，这会负面影响第二阶段的性能。

2D遮罩输入的重要性也得到了验证。没有2D遮罩输入的模型在所有指标上都表现较差，特别是在体素召回率方面只达到了66.98%，远低于完整模型的85.96%。这说明2D遮罩不仅提供了用户控制能力，还显著提高了系统的性能。

在完整系统的性能评估中，OmniPart在零件级别的几何质量方面表现出色。倒角距离达到了0.18，F1-0.1分数达到了0.74，F1-0.05分数达到了0.59，这些指标都明显优于现有方法。更重要的是，OmniPart生成的零件能够很好地组合成完整的物体，整体物体级别的性能也达到了最佳水平。

质量分析显示，OmniPart生成的零件具有低语义耦合和高结构内聚的特点。每个零件都是语义上独立的，可以单独进行编辑和处理，同时所有零件组合起来又形成了结构合理的完整物体。这种平衡是零件感知3D生成的关键要求。

与现有方法的对比显示，基于分割的方法只能产生表面级别的遮罩，无法恢复完整的零件几何。基于补全的方法虽然能够生成完整的零件，但受限于初始分割的质量。直接生成方法能够生成完整的零件，但往往几何保真度和语义合理性较差。OmniPart通过其两阶段设计和精心的技术组合，在所有这些方面都取得了最佳平衡。

八、局限性与未来展望

尽管OmniPart取得了显著成果，但研究团队也诚实地指出了系统的一些局限性。当前系统使用轴对齐边界框来简化第一阶段的训练，这在某些情况下可能导致过多的噪声体素被传递到第二阶段。研究团队认为，探索更精确的结构规划表示是未来工作的一个重要方向。

在数据需求方面，虽然OmniPart有效利用了预训练的整体3D生成模型，但仍然需要一定量的零件级别标注数据进行微调。如何进一步减少对标注数据的依赖，或者开发更有效的弱监督学习方法，是值得探索的研究方向。

计算效率方面，虽然OmniPart已经比现有方法快得多，但对于实时应用来说仍有优化空间。特别是在移动设备或边缘计算环境中的部署，可能需要进一步的模型压缩和优化。

在应用扩展方面，当前系统主要针对刚性物体的零件分解，对于变形物体或流体等更复杂的几何形式的处理还有待探索。同时，如何将系统扩展到更大规模的场景生成，也是一个有趣的研究方向。

用户交互方面，虽然2D遮罩提供了直观的控制方式，但对于更复杂的编辑需求，可能需要开发更丰富的交互界面。比如，支持3D空间中的直接操作，或者提供更高级的语义控制选项。

九、技术影响与产业前景

OmniPart的成功不仅代表了学术研究的突破，更预示着3D内容创作产业的重要变革。这项技术的应用前景非常广阔，涵盖了从娱乐媒体到工业设计的多个领域。

在游戏开发领域，OmniPart可以大大简化3D资产的创作流程。游戏开发者可以快速生成具有清晰零件结构的3D模型，然后针对每个零件进行个性化的材质和动画设置。这种工作流程不仅提高了效率，还为游戏的个性化定制提供了更多可能性。

动画制作行业也将从这项技术中受益。传统的角色建模和绑定过程通常需要大量的手工工作，而OmniPart可以自动生成具有合理零件结构的3D角色，为后续的绑定和动画制作奠定良好基础。

在虚拟现实和增强现实应用中，OmniPart生成的零件感知3D对象能够支持更自然的交互体验。用户可以在虚拟环境中直接操作物体的各个部分，这种精细的交互能力为沉浸式体验提供了重要支撑。

工业设计领域也是OmniPart的重要应用场景。设计师可以使用这个系统快速生成产品的初始设计，然后针对每个零件进行详细的工程分析和优化。这种设计流程能够显著缩短产品开发周期。

电子商务平台可以利用OmniPart技术为产品提供更丰富的3D展示。消费者可以查看产品的详细零件结构，甚至模拟不同配置的组合效果。这种展示方式不仅提高了用户体验，还能减少因为产品信息不足导致的退货。

教育领域也是一个重要的应用方向。OmniPart可以用于生成各种教学用的3D模型，学生可以通过操作这些模型来学习物体的结构和工作原理。这种交互式学习方式能够显著提高学习效果。

研究团队表示，他们正在与多家公司合作，探索OmniPart在实际产品中的应用。这些合作不仅有助于技术的产业化，还为进一步的技术改进提供了宝贵的反馈。

说到底，OmniPart代表了AI技术在3D内容生成领域的一个重要里程碑。它不仅解决了长期存在的技术难题，还为整个行业开辟了新的发展方向。这项技术让计算机第一次真正学会了像人类一样思考3D物体的结构，这种"零件思维"的获得将对未来的3D应用产生深远影响。

随着技术的不断完善和应用的深入扩展，我们有理由相信，OmniPart将成为下一代3D内容创作工具的重要基础。它不仅会改变专业创作者的工作方式，还会让普通用户也能轻松创作出专业级的3D内容。这种技术的普及化将真正实现"人人都是3D创作者"的愿景。

对于有兴趣进一步了解这项技术的读者，可以访问研究团队的项目页面https://omnipart.github.io/，那里提供了更多的技术细节、演示视频和代码资源。这项研究的成功也提醒我们，AI技术的发展不仅在于算法的创新，更在于对人类认知过程的深入理解和巧妙模拟。

Q&A

Q1：OmniPart是什么？它能做什么？ A：OmniPart是香港大学团队开发的AI系统，能够从单张2D图片生成具有清晰零件结构的3D模型。它的核心能力是像人类一样"分解"3D物体，将复杂对象自动分解为语义明确的各个部分，比如将机器人分解为头部、躯干、手臂等，每个部分都可以独立编辑和处理。

Q2：OmniPart会不会取代传统的3D建模工作？ A：不会完全取代，但会大大改变3D创作方式。OmniPart更像是一个智能助手，能够快速生成具有合理零件结构的3D模型初稿，然后专业建模师可以基于这个基础进行精细化设计。它让3D创作变得更高效，也让普通用户能够参与到3D内容创作中来。

Q3：普通用户如何使用OmniPart？有什么技术要求？ A：用户只需要提供一张2D图片和简单的颜色遮罩（类似用彩色笔标记想要分离的部分），系统就能自动生成对应的3D零件。整个过程不需要专业的3D建模知识，就像在照片上涂颜色一样直观。目前系统还在研究阶段，但研究团队已经开源了相关代码，未来有望开发成用户友好的产品。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.