AI变身“乐高大师”，一句话完成3D建模成现实|iccv|计算机视觉|深度思考模型

AI变身“乐高大师”，一句话完成3D建模成现实

2025-10-23 19:02:14　来源: 天极网

北京举报

分享至

【天极网手机频道】10月23日消息，在美国檀香山夏威夷会议中心举办的ICCV 2025国际会议即将落下帷幕。会议期间最受瞩目的自然是含金量极高的最佳论文奖——马尔奖(Marr Prize)，该奖被看作是计算机视觉研究方面的最高荣誉之一。今年的获奖论文名为《Generating Physically Stable and Buildable Brick Structures from Text》，作者们创建了一个名为“BRICKGPT”的系统，能够根据文字描述自动进行3D建模。可能这样听起来有些平平无奇，但是它却能切实解决许多现有技术未能解决的困难，直接应用在工业、建筑等领域。

传统的文本到3D生成技术虽然能生成外观逼真的模型，但是却无法考虑到物理结构的合理性。这些美丽的模型只能够在VR或游戏中进行展示，想要按照它的结构在现实世界中进行搭建却是完全不可能的事情。比如，传统的游戏《我的世界》或者《乐高》游戏，只能够在视觉上搭建，除非经设计师特别设计，否则这些设计在现实生活中完全无法落地。

然而，“BRICKGPT”系统却能够弥补这一缺陷，能够生成在真实世界物理定律下可建造的3D结构，经测试其有效率达到了100%、稳定性高达98.8%。“BRICKGPT”主要是应用大语言模型（经过微调的LLaMA-3.2-Instruct-1B），搭配团队专门构建的大规模数据集StableText2Brick（包含超过47000个稳定的积木结构，覆盖了28000多种独特的3D物体）来一步到位地生成完整的、可建造的积木结构。

有趣的是，“BRICKGPT”将3D建模的过程转化为大模型擅长的“文本生成”任务，简单概括就是经过积木结构文本化（以特有文本来达标每个模块）、模型微调、有物理约束的推理生成，并且在创建过程中，一旦搭建的模型不稳定，系统会自动进行识别并回退到上一步，直至模型稳定。据悉，整个搭建过程却只需要花费几十秒的时间。并且，还能够使用文字描述为生成的积木添加纹理或颜色，使其更加逼真和美观。采用“BRICKGPT”生成的3D结构，无论人工还是机械臂都能按照系统提供的方法一步一步完成模型搭建，进一步展现了系统生成模型的有效性与可靠性。

ICCV会议，全称 International Conference on Computer Vision(国际计算机视觉大会)，作为计算机视觉领域顶级的学术会议之一，与 CVPR、ECCV 并称为视觉领域三大顶会。这一会议的研究方向涵盖计算机视觉各个前沿领域，包括图像和视频理解、三维重建与场景建模、目标检测与跟踪、自主驾驶与机器人视觉等。

今年该会议吸引了全球94个国家和地区的顶尖人才参与。值得注意的是，ICCV 2025提交论文的作者中，中国学者的占比竟然达到了半数，并且在获奖人群中也有不少中国学者的身影。从2019年的17%到现在2025年的50%，可以看出更多的中国学者在计算机领域崭露头角，中国在相关领域也逐渐走在了领先地位。

值得一提的是，“BRICKGPT”创作团队中我们也看到了不少年轻华人学者的身影，包括清华大学校友朱俊彦以及本科毕业于北京大学的Kangle Deng等人。

ICCV作为具有代表性的计算机领域的国际会议，近年来开始有着越来越多中国学者参与，相信未来在AI领域，会有更多的中国学者与开发者崭露头角，为AI的发展及广泛应用贡献一份力量。

聚合标签：