上海科技大学与腾讯混元突破：AI实现3D动态物品积木式自动生成|轨迹|点云|知名企业

分享至

这项由上海科技大学联合腾讯混元团队共同完成的研究发表于2026年3月的arXiv预印本平台，论文编号为arXiv:2603.01142v1。对于想要深入了解技术细节的读者，可以通过该编号查询完整的学术论文。

当你看到游戏中的门能够开合、抽屉能够拉开、机器人能够活动时，是否想过这些看似简单的3D物体背后需要多么复杂的制作过程？传统的方式就像手工制作精密钟表一样，每个零件都需要工程师逐一设计、调试，耗时耗力且容易出错。现在，研究团队提出了一个名为ArtLLM的全新框架，它能够像搭积木一样，仅仅通过一张图片或一段文字描述，就自动生成出具有真实运动能力的3D物体。

这项研究的意义远超游戏娱乐。在机器人训练领域，科学家们迫切需要大量可交互的虚拟环境来训练机器人，就像飞行员需要在飞行模拟器中练习一样。而在游戏开发、工业仿真、虚拟现实等领域，快速生成高质量的可动3D物体一直是个难题。ArtLLM的出现为这些应用场景提供了全新的解决方案，让原本需要数小时甚至数天完成的工作在几十秒内就能完成。

**一、从静态到动态：为什么制作会动的3D物体如此困难**

要理解这项研究的价值，我们先来看看传统制作可动3D物体面临的挑战。这个过程就像制作一个复杂的机械玩具，不仅要设计出每个零件的形状，还要确定它们之间如何连接、如何运动，以及运动的范围限制。

传统方法主要有两种思路，每种都有明显的局限性。第一种方法类似于逆向工程，研究人员拍摄物体从多个角度的照片或视频，然后通过复杂的数学计算来推测物体的结构和运动方式。这种方法就像考古学家通过化石碎片重建恐龙骨架一样，需要大量的计算时间，而且只能处理相对简单的物体，比如只有一个转动关节的门。更麻烦的是，这种方法生成的3D模型质量往往不够理想，就像用粗糙的材料拼凑出的模型，缺乏真实感。

第二种方法则像是从现成的乐高积木库中挑选零件来组装新玩具。研究人员预先建立了一个包含各种标准零件的数据库，然后通过匹配和组合来创建新物体。这种方法虽然速度较快，但就像用有限的积木只能搭建有限种类的建筑一样，生成的物体缺乏新颖性，而且外观往往重复单调。更关键的是，由于零件库的限制，这种方法很难适应新的物体类型或设计需求。

这两种传统方法都存在一个根本问题：它们将物体的外观设计和运动结构分开处理，就像分别设计汽车的外壳和引擎，然后再试图将它们拼装到一起。这种分离式处理往往导致外观与功能不匹配的问题，比如一个看起来像抽屉的部分实际上不能拉开，或者一个门的转轴位置不合理导致无法正常开关。

近年来，虽然3D物体生成技术取得了巨大进步，能够创造出质量很高的3D模型，但这些技术通常只关注外观，对物体的内在运动结构一无所知。就像制作了一个看起来很漂亮的机械表，但内部没有真正的机械结构，只是一个装饰品而已。这种局限性严重制约了这些技术在实际应用中的价值。

**二、ArtLLM：像语言大师一样理解3D物体的运动结构**

面对这些挑战，研究团队提出了一个革命性的思路：既然大型语言模型在理解和生成复杂文本方面表现出色，为什么不让它们也来理解3D物体的结构和运动关系呢？这就像教会一个语言大师不仅能写作，还能理解机械图纸一样。

ArtLLM的核心创新在于将3D物体的结构信息转化为一种特殊的"语言"。传统的机械设计图纸使用URDF（统一机器人描述格式）这种XML格式来描述物体的各个部分及其运动关系，就像用特定的语法规则来描述一个复杂的机械系统。研究团队巧妙地将这种技术描述转换成了语言模型能够理解的文本格式，让AI能够像阅读文章一样"阅读"物体的结构信息。

这个过程就像翻译工作。原本的3D物体信息是用数字和坐标表示的，就像一串串的数学公式。ArtLLM将这些数学信息翻译成了结构化的文本描述，比如"零件A是一个位于特定位置的长方体盒子"、"零件A和零件B通过一个旋转关节连接"等等。通过这种翻译，语言模型就能运用其强大的语言理解能力来处理3D物体的结构问题。

更clever的是，ArtLLM采用了自回归生成方式，就像写作时一个词接一个词地构建句子一样。它首先预测物体包含哪些部分以及这些部分的位置和大小，然后预测这些部分之间如何连接和运动。这种顺序化的处理方式确保了生成结果的逻辑一致性，避免了传统方法中容易出现的结构矛盾问题。

为了让语言模型能够处理3D空间信息，研究团队还开发了一个特殊的编码器-投影器架构。这就像给语言模型配备了一副"3D眼镜"，让它能够"看懂"3D点云数据。系统使用了Point Transformer v3作为点云编码器，这是一个专门处理3D点云数据的高效模型。编码后的3D信息通过一个简单的两层神经网络投影器转换成语言模型能够理解的格式，就像同声传译员在不同语言之间架起沟通的桥梁。

**三、数据的智慧：从离散化到多任务学习的全方位训练策略**

训练一个能够理解3D结构的语言模型面临着独特的挑战。语言模型天生擅长处理离散的文本符号，但3D空间中的坐标、角度、距离等都是连续的数值。这就像让一个只会处理汉字的人去理解数学公式一样困难。

研究团队采用了一个巧妙的量化策略来解决这个问题。他们将所有的连续数值转换成离散的"词汇"，就像将连续的温度读数转换成"热"、"温"、"凉"、"冷"这样的词汇标签。具体来说，物体边界框的坐标被量化到128个离散区间内，关节角度被分成48个区间，关节位置也有对应的量化方案。这种量化不仅解决了连续数值的处理问题，还大大提高了模型训练的数值稳定性。

特别值得注意的是关节轴向的处理方式。研究团队发现，大多数物体的运动轴向都与坐标轴对齐，比如门通常沿Y轴旋转，抽屉沿X轴滑动。基于这个观察，他们设计了一个分层的编码本系统：首先密集采样坐标平面上的方向，然后用Fibonacci球面采样补充其他方向。这种设计既保证了常见轴向的精确表示，又保持了对任意方向的覆盖能力。

在训练策略方面，研究团队采用了多任务学习方法，将复杂的结构预测问题分解为三个相互关联的子任务。第一个任务专注于部分布局预测，让模型学会识别物体包含哪些部分以及它们的空间位置。第二个任务处理运动学预测，在已知部分布局的条件下预测各部分之间的连接关系。第三个任务则是端到端的完整预测，从输入的3D点云直接生成完整的结构描述。

这种多任务设计的巧妙之处在于任务间的互补性。部分布局预测帮助模型建立几何理解能力，运动学预测强化了对物体功能的理解，而端到端预测则锻炼了模型的整体协调能力。就像学习弹钢琴时，分别练习左手、右手，然后再进行双手配合一样，这种渐进式学习策略显著提升了模型的性能。

训练过程采用了两阶段策略。第一阶段专门训练部分布局预测任务，让模型的3D编码器获得扎实的几何理解基础。这个阶段还使用了P3SAM模型的预训练权重进行初始化，P3SAM是一个在大规模部分分割任务上预训练的模型，为几何理解提供了良好的起点。第二阶段在第一阶段的基础上，使用所有三个任务进行联合训练，进一步提升模型的综合能力。

为了增强模型的泛化能力，训练过程中还加入了3D数据增强技术。每个样本有75%的概率被施加随机的缩放和旋转变换，缩放因子在0.8到1.05之间选择，旋转角度在90度的整数倍中选择。这些变换不仅应用于输入的点云数据，还同步应用于对应的部分布局和关节参数，确保了数据的一致性。

**四、数据集的精心构建：汇聚现有资源与程序化生成的智慧**

构建一个高质量的训练数据集对ArtLLM的成功至关重要。研究团队采用了"兼收并蓄"的策略，将现有的标准数据集与新生成的数据有机结合，最终构建出包含20,673个物体的大规模训练集。

这个数据集的基础来自三个重要来源。PartNet-Mobility数据集提供了2,168个精心标注的物体，涵盖43个类别，这些数据质量很高但数量相对有限。PhysX3D数据集贡献了7,672个物体，涉及23个类别，为数据集增添了更多样的物理结构。最大的贡献来自Infinite-Mobility的程序化生成方法，产生了12,833个合成物体，虽然只覆盖13个类别，但大大增加了数据的总量和多样性。

数据预处理过程就像精心挑选和整理图书馆藏书一样细致。研究团队首先进行了严格的过滤：移除了关节数量超过20的复杂物体，因为过于复杂的结构会增加学习难度；排除了包含过小零件的类别，比如键盘和遥控器，因为这些细小组件难以从单张图片中准确识别；同时也过滤掉了体积过小的零件，如按钮等，以保持模型关注于主要的功能结构。

结构简化是另一个重要步骤。原始数据中的固定关节被移除，相连的部件被合并为单一组件，这样做能够减少不必要的复杂性。螺旋关节通常在URDF文件中表示为旋转和平移关节的组合，研究团队将它们合并为单一的螺旋关节，简化了预测任务的复杂度。

数据标准化确保了不同来源数据的一致性。所有关节参数都被转换到全局坐标系中，物体尺寸被标准化到[-0.9, 0.9]的范围内。这种标准化不仅便于模型学习，还提高了训练过程的数值稳定性。

特别值得一提的是表面法向量的修正工作。PartNet-Mobility数据集中的一些模型存在表面法向量错误的问题，这会影响后续的几何处理。研究团队对这些模型进行了水密重建，确保了表面法向量的正确性。这个过程就像修复古籍中的错别字一样细致，虽然工作量大，但对最终结果质量至关重要。

最终构建的数据集呈现出良好的多样性分布。在零件数量方面，虽然大多数物体包含相对较少的零件，但数据集中也包含了足够数量的复杂多零件物体，确保模型能够处理不同复杂度的结构。数据排序也经过精心设计：零件边界框按照最小坐标的z-y-x顺序排列，关节按照子零件ID的升序排列，这种确定性排序消除了顺序歧义，提高了训练稳定性。

**五、几何生成的艺术：从布局到真实3D模型的精确转换**

预测出物体的结构布局只是成功的一半，将这个抽象的布局转换为真实的3D几何模型才是真正的挑战。ArtLLM采用了与现有部分级生成模型无缝集成的策略，特别选择了XPart作为几何生成的后端引擎。

XPart是一个专门设计用于从边界框条件生成3D部件的先进模型，它就像一个精准的3D打印机，能够根据给定的空间边界精确地"打印"出对应的几何形状。这种选择的智慧在于避免了重复造轮子，而是充分利用现有技术的优势，将精力集中在结构理解这个核心问题上。

然而，实际应用中会遇到一个技术挑战：预测的边界框可能无法完美覆盖真实的几何形状。这就像用稍小的盒子装一个稍大的物品，可能会导致部分内容被截断或遗漏。为了解决这个问题，研究团队开发了一个智能的边界框扩展算法。

这个算法的工作过程非常直观。首先，系统检查输入点云中的每一个点，找出那些没有被任何预测边界框包含的"孤儿"点。然后，将这些孤儿点分配给距离最近的边界框，就像将流浪的小猫分配给最近的收容所。最后，将每个边界框扩展到恰好能包含所有分配给它的点，确保没有任何几何信息丢失。

这种边界框扩展策略看似简单，但效果显著。它保证了整个输入点云都能得到有效覆盖，防止了几何工件的产生，确保了最终生成部件的完整性和真实性。同时，这种方法的计算开销很小，不会显著影响整体的生成效率。

几何生成过程的另一个优势是其模块化设计。由于采用了标准的边界框接口，ArtLLM可以轻松地与其他部件生成模型集成，如OmniPart等。这种灵活性使得系统能够适应不同的应用需求和技术发展，就像标准化的接口使得不同厂商的设备能够互相兼容一样。

生成的几何模型最终与预测的关节信息结合，输出标准的URDF格式文件。URDF是机器人学中广泛使用的描述格式，这意味着生成的模型可以直接导入到各种仿真环境中，如SAPIEN、Gazebo等，为机器人训练和仿真应用提供了便利。

**六、物理约束的智慧：确保运动的真实性和安全性**

即使成功生成了几何模型和关节信息，生成的可动物体仍可能在实际运动中出现问题。最常见的问题是关节限制范围设置不当，导致物体在运动过程中发生自碰撞。这就像设计一扇门时，没有考虑到门框的限制，结果门开得太大撞到了墙。

研究团队开发了一个基于物理碰撞检测的关节限制校正模块来解决这个问题。这个模块的工作原理类似于安全测试：让物体在预测的关节范围内运动，实时监测是否发生碰撞，一旦发现碰撞就调整关节限制。

具体的校正过程采用了分层搜索策略。对于旋转关节，系统让子部件在预测的角度范围内转动，同时计算它与其他静止部件的碰撞体积。当发生严重碰撞时，碰撞体积会急剧增加，其导数会出现尖锐的峰值。系统首先识别包含这种峰值的粗略角度窗口，然后在该窗口内进行精细搜索，准确定位初始接触的角度。这个角度就被设定为新的关节限制。

对于平移关节，采用类似的处理方法，但监测的是沿平移方向的碰撞情况。这种方法能够有效识别各种类型的运动冲突，包括直接接触、部分重叠、完全穿插等不同程度的碰撞情况。

碰撞检测的精度对校正效果至关重要。系统使用了基于体积的碰撞检测方法，这种方法比简单的距离检测更加准确和稳定。体积重叠能够更好地反映真实物理世界中的碰撞情况，避免了基于距离检测可能产生的误判。

这个物理约束校正模块的另一个优势是其通用性。它不依赖于特定的物体类型或关节配置，能够处理各种复杂的运动结构。无论是简单的门窗开合，还是复杂的多关节机械臂运动，这个模块都能提供有效的碰撞预防。

校正后的关节限制确保了生成的可动物体在仿真环境中能够安全、稳定地运动。这对于机器人训练应用特别重要，因为不真实的物理行为会导致机器人学到错误的操作策略。通过这种物理约束校正，ArtLLM生成的物体能够为机器人提供高质量的训练环境。

**七、实验验证：全方位性能评估展现技术优势**

为了验证ArtLLM的有效性，研究团队在PartNet-Mobility数据集上进行了全面的实验评估。评估采用了SINGAPO论文提出的数据划分方案，选择了7个具有代表性的类别进行测试，包括储物柜、桌子、冰箱、洗碗机、烤箱、洗衣机和微波炉，共计77个测试物体。

实验评估采用了多维度的指标体系，就像从不同角度检验一件艺术品的质量一样。对于部分布局预测，使用平均交并比（mIoU）来衡量预测部分与真实部分的重叠程度，这个指标能够直观地反映空间定位的准确性。对于关节预测，评估指标包括关节类型准确率、轴向误差、枢轴位置误差、运动范围交并比等，全面考察了关节预测的各个方面。

实验结果令人印象深刻。与现有的最先进方法相比，ArtLLM在几乎所有评估指标上都取得了显著优势。在部分布局预测方面，ArtLLM达到了0.6884的mIoU，显著超过了Articulate-Anything的0.3381、SINGAPO的0.4330和URDFormer的0.1225。这种优势体现了ArtLLM在理解3D空间结构方面的卓越能力。

在关节预测方面，ArtLLM同样表现出色。关节类型准确率达到90.84%，表明系统能够正确识别绝大多数关节的运动类型。轴向误差仅为0.1271弧度，远低于其他方法，说明系统对运动轴向的预测非常精确。枢轴位置误差为0.0801，也明显优于对比方法，体现了对关节位置定位的准确性。

特别值得注意的是图结构准确率，ArtLLM达到了77.41%，这个指标衡量的是整体运动结构的正确性。这个结果表明，ArtLLM不仅能够准确预测单个关节，还能正确理解各部分之间的整体连接关系，构建出逻辑一致的运动结构。

在计算效率方面，ArtLLM也展现出明显优势。单个物体的推理时间仅为19秒，远快于Articulate-Anything的522秒、SINGAPO的84秒和URDFormer的183秒。这种高效性使得ArtLLM在实际应用中具有很强的实用价值，特别适合需要批量生成可动物体的应用场景。

分类别的详细分析显示，ArtLLM在不同类型的物体上都表现稳定。对于结构相对简单的物体如微波炉和洗碗机，系统达到了接近完美的性能。对于结构复杂的储物柜和桌子，虽然挑战更大，但ArtLLM仍然保持了明显的性能优势。这种跨类别的稳定性证明了方法的泛化能力。

消融实验进一步验证了设计选择的正确性。去除量化策略会导致性能显著下降，证明了离散化处理的重要性。移除多任务学习设置也会影响性能，表明任务间的协同效应确实有效。去除数据增强和多阶段训练同样会带来性能损失，验证了完整训练策略的必要性。

**八、真实世界应用：从实验室到机器人训练的实际验证**

为了验证ArtLLM在真实场景中的实用价值，研究团队进行了一系列机器人应用实验。这些实验的设计思路是构建"真实到虚拟再到真实"的闭环验证链条，检验生成的可动物体是否能够真实地再现现实世界中的物体行为。

实验过程的第一步是在真实环境中进行遥操作演示。研究团队使用装备有Robotiq夹爪的Franka Panda机械臂完成了三个典型的操作任务：合上笔记本电脑、关闭储物盒、移动水桶把手。在执行这些任务的过程中，系统记录了机械臂的完整位姿轨迹，就像记录舞蹈演员的每一个动作一样详细。

第二步是使用ArtLLM重建虚拟环境。团队首先利用Hunyuan3D 3.0从视频帧中重建出准确的3D物体几何，然后运用ArtLLM生成对应的URDF格式可动物体资产。这些虚拟物体被放置在SAPIEN仿真环境中，位置和姿态与真实实验中的设置保持一致。

第三步是在虚拟环境中重放真实轨迹。仿真机械臂按照记录的真实轨迹执行相同的操作，观察虚拟物体是否表现出与真实物体相同的运动行为。这个过程就像让演员按照舞谱重现原始舞蹈，检验舞谱的准确性。

实验结果令人振奋。在所有三个测试任务中，虚拟环境都成功重现了真实世界的操作效果。笔记本电脑的屏幕能够顺畅地合上，储物盒的盖子能够正确关闭，水桶把手能够按预期方向移动。更重要的是，这些虚拟物体的运动范围和阻力特性都与真实物体高度吻合，表明ArtLLM捕捉到了物体的真实物理特性。

这种真实世界验证的意义超出了技术演示本身。它证明了ArtLLM生成的可动物体具有足够的保真度，能够为机器人学习提供高质量的训练环境。在机器人学习中，仿真环境的真实性直接影响学习效果，不准确的仿真会导致机器人学到错误的操作策略，在真实环境中表现不佳。

实验还展示了ArtLLM在构建数字孪生方面的潜力。数字孪生是指与真实物体高度同步的虚拟副本，在工业4.0、智能制造等领域有重要应用。通过快速从图像生成高保真的可动物体模型，ArtLLM为数字孪生的构建提供了高效的技术手段。

此外，这些实验也验证了ArtLLM对真实世界物体的泛化能力。测试中使用的物体都不在训练数据集中，但系统仍然能够准确识别其结构并生成正确的运动模型。这种泛化能力对于实际应用至关重要，因为真实世界中的物体种类远比训练数据集丰富。

**九、技术局限与未来展望：诚实面对挑战，展望发展方向**

尽管ArtLLM在多个方面取得了突破性进展，但研究团队也坦诚地指出了当前技术的局限性。首要的限制来自训练数据的类别覆盖范围。虽然数据集包含了43个类别的2万多个物体，但这个覆盖范围相对于现实世界物体的多样性仍然有限。系统在处理常见的家居用品时表现出色，但面对汽车、机器人等复杂类别时可能力不从心。

这种局限性的根源在于可动物体数据的获取难度。与静态3D模型不同，可动物体需要精确标注每个部分的运动关系，这个过程需要专业知识和大量人工投入。虽然程序化生成方法如Infinite-Mobility能够产生大量数据，但其多样性仍然受到程序规则的限制。

第二个重要限制是系统目前不包含物理属性的建模。ArtLLM专注于几何形状和运动结构，但没有考虑质量分布、材料属性、摩擦系数等物理特性。这些属性对于真实的物理仿真很重要，特别是在精确的机器人操作任务中。例如，一个重头轻尾的抽屉和一个均匀分布质量的抽屉在开启时的力学特性是不同的。

生成质量的一致性也是一个挑战。虽然ArtLLM在大多数情况下能够生成高质量的结果，但仍然会遇到一些失败案例。最常见的问题出现在几何生成阶段，当预测的边界框无法完美匹配真实几何时，XPart可能生成不完整或不准确的部件。特别是对于具有复杂内部结构的物体，如内部有多层隔板的储物柜，单张图像往往无法提供足够的信息来重建这些隐藏结构。

部件重叠也是一个技术难题。当物体的不同部分在空间上高度重叠时，生成的几何模型可能出现穿插现象。虽然物理约束校正模块能够在一定程度上缓解这个问题，但对于严重重叠的情况，完全避免穿插仍然困难。

面对这些挑战，研究团队提出了几个有前景的发展方向。在数据方面，他们建议结合开放词汇方法，如Kinematify等技术，来扩展系统对新物体类别的处理能力。通过利用大型视觉语言模型的常识知识，可能实现对训练数据中未出现类别的零样本或少样本学习。

在物理建模方面，未来的工作可能包含质量、材料等物理属性的学习和预测。这需要构建包含物理属性标注的大规模数据集，并扩展现有的语言建模框架来处理这些额外信息。这种扩展将使生成的物体更适合高精度的物理仿真应用。

几何生成质量的提升也是重要的研究方向。一种可能的改进是开发能够处理内部结构的3D生成模型，或者结合多视角信息来提供更完整的几何约束。另一种方向是改进边界框预测的精度，减少几何生成阶段的误差传播。

在应用拓展方面，ArtLLM的成功为很多下游应用开辟了可能性。除了机器人训练，该技术还可能应用于游戏内容生成、建筑设计、工业仿真等领域。特别是在需要快速原型制作和迭代设计的场景中，ArtLLM的高效性优势将得到充分发挥。

研究团队还提到了实时生成的可能性。虽然当前的19秒生成时间已经很快，但某些应用场景可能需要更短的响应时间。通过模型压缩、推理优化等技术，未来可能实现近实时的可动物体生成，为交互式设计工具提供支持。

总体而言，ArtLLM为3D可动物体生成领域树立了新的技术标杆，但仍有广阔的改进和应用空间。随着相关技术的不断发展和数据资源的日益丰富，我们有理由期待这个领域将迎来更多突破性进展。

说到底，ArtLLM的出现标志着我们正在进入一个新的时代——一个让计算机理解物体不仅仅是静态形状，更是动态功能的时代。就像当年从黑白电视进入彩色电视时代一样，这种技术的成熟将从根本上改变我们与数字世界交互的方式。从游戏中更真实的物体交互，到机器人更智能的学习能力，再到工业设计中更快的原型制作，ArtLLM所代表的技术方向正在为我们的数字化未来铺设道路。虽然当前还存在一些技术挑战，但正如任何新生技术一样，随着研究的深入和应用的拓展，这些问题终将得到解决，为我们带来更加精彩的数字体验。

Q&A

Q1：ArtLLM是什么，它能做什么？

A：ArtLLM是由上海科技大学联合腾讯混元团队开发的AI系统，能够仅通过一张图片或文字描述就自动生成具有真实运动能力的3D物体。比如输入一张桌子的照片，它就能生成一个抽屉可以真实开合的3D模型。这项技术主要用于游戏开发、机器人训练和工业仿真等领域。

Q2：ArtLLM生成的3D物体和传统方法有什么不同？

A：传统方法要么需要耗时的逐个物体优化，要么只能从固定的零件库中拼装，限制了创新性。ArtLLM则像搭积木一样，能够理解物体的整体结构和运动关系，自动生成全新的几何形状，而且生成速度很快，单个物体只需19秒，比其他方法快数倍到数十倍。

Q3：ArtLLM在真实应用中效果怎么样？

A：研究团队进行了机器人实验验证，让机械臂在真实环境中操作物体，然后用ArtLLM重建虚拟版本，结果虚拟物体完全重现了真实物体的运动特性。这证明ArtLLM生成的模型具有很高的真实性，能够为机器人训练和数字孪生等应用提供高质量的虚拟环境。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.