网易首页 > 网易号 > 正文 申请入驻

CMU朱俊彦等上新LEGOGPT,一句话搭乐高,网友:复杂零件行不行?

0
分享至

机器之心报道

机器之心编辑部

AI 不允许有人不会搭乐高。

近日,CMU 助理教授朱俊彦团队带来了新研究 —— 基于文本生成 3D 乐高的大模型。

这款大模型有多强呢?比如输入文本「基本款沙发」,一眨眼的功夫,乐高沙发就拼好了。

如果你觉得乐高沙发太简单,可以继续上难度,让它生成一个复杂点的书架,只见不同大小的积木拼拼凑凑,乐高书架就完工了,整个流程像不像你在拼乐高:

不仅如此,生成的乐高还有纹理和颜色:

为了证明 AI 搭乐高的设计过程在现实生活中可用,研究人员让机器臂组装了由 AI 创建的 LEGO 模型,结果很完美。

接下来,我们看文章主要内容。

得益于生成模型和神经渲染技术,3D 生成模型已经取得了显著进展,并在虚拟现实、游戏、娱乐和科学计算等领域实现了各种应用。比如,一些研究探索了从文本合成 3D 对象、为网格添加纹理以及操控现有 3D 对象和场景的形状和外观。

不过,应用现有方法创建现实世界中的对象仍然充满挑战。大多数方法侧重于生成具有高保真几何形状和外观的多样化 3D 对象,但受限于两个关键挑战,这些数字设计往往无法在物理上实现。一是,这些对象可能难以使用标准组件来组装或制作。二是,即使可以组装,最终的结构也可能存在物理不稳定。如果没有适当的支撑,设计的某些部分可能会坍塌、漂浮或保持分离状态。

因此,朱俊彦团队探讨了生成物理可实现对象的挑战,并在乐高(LEGO)设计环境中进行研究。乐高广泛应用于娱乐、教育、艺术创作和制造原型。同时,由于所有标准组件很容易获得,乐高可以作为可复现的研究基准。由于手动设计需要付出巨大努力,最近一些研究开发了自动化算法来简化流程并生成了令人信服的结果。

然而,现有方法主要基于给定的 3D 对象创建乐高设计,或者专注于单一对象类别。本文的目标是开发一种方法,直接从自由格式的文本提示生成乐高设计,同时确保其物理稳定性和可搭建性。具体来说,研究者的目标是训练一个生成模型,使其能够生成具有以下特点的设计:

  • 物理稳定性:构建在具有强大结构完整性的乐高底板上,不会出现积木漂浮或坍塌的情况。
  • 可搭建性:与标准乐高积木兼容,并且能够由人类或机器人逐块组装。

研究者提出了 LEGOGPT,其关键洞察在于将最初用于下一个 Token 预测的自回归大型语言模型重新用于下一个积木预测。他们将乐高设计问题表述为一个自回归文本生成任务,其中下一个积木的尺寸和位置用简单的文本格式指定。而为了确保生成的结构既稳定又可搭建,研究者在训练和推理过程中都强制执行物理感知的组装约束。

在训练过程中,研究者构建了一个包含物理稳定的乐高设计并配有字幕的大规模数据集。在自回归推理过程中,研究者通过有效性检查和物理感知回滚来执行可行性,以确保最终的 Token 符合物理定律和组装约束。

  • 论文标题: Generating Physically Stable and Buildable LEGO® Designs from Text
  • 论文主页:https://avalovelace1.github.io/LegoGPT/
  • arXiv 地址:https://arxiv.org/pdf/2505.05469
  • GitHub 地址:https://github.com/AvaLovelace1/LegoGPT
  • Demo 地址:https://huggingface.co/spaces/cmu-gil/LegoGPT-Demo

实验表明,本文生成的乐高设计稳定、多样且视觉吸引力强,同时能够完美契合输入文本提示。本文方法优于预训练的 LLM(无论是否包含上下文学习)以及以往基于网格 3D 生成的方法。

朱俊彦表示:LegoGPT 是迈向「物理对象生成制造」这一终极目标的一小步。当前版本仍存在局限:仅支持 20x20x20 的构建尺寸、21 种物体类别和基础积木类型,但他们也在努力扩展其能力!

面对这么好玩的应用,网友纷纷求教程:

还有网友担心,复杂的零件能不能完成啊?

方法介绍

数据集

训练自回归模型需要大规模数据集,因此,本文推出了 StableText2Lego,这是一个全新的大规模 LEGO 数据集,包含 47,000 多种不同的乐高结构,并涵盖 ShapeNetCore 数据集中 21 个常见对象类别中的 28,000 多个独特的 3D 对象。其概览如图 2 所示。

LegoGPT Pipeline

在实现方法上,本文提出了 LEGOGPT,这是一种能够根据文本提示生成物理结构稳定的 LEGO 设计的方法。

该方法通过利用 LLM 的序列建模和文本理解能力,对预训练 LLM 进行 LEGO 生成任务的微调。为了增强设计成品的结构稳定性和可搭建性,本文在推理过程中采用了逐块拒绝采样和物理感知回滚机制。图 3 展示了本方法的整体框架。

模型微调:本文进一步使用自定义指令数据集对预训练的 LLM 进行微调,该数据集包含来自 StableText2Lego 的文本提示及其对应的乐高结构。

预训练基础模型。本文使用 LLaMA-3.2-1B-Instruct 作为基础模型,如图 5 所示,基础模型可以通过上下文学习生成类似 LEGO 的设计。

然而,生成的设计通常会遗漏某些物体部件,并且包含相交或断开的积木,这使其在物理上不稳定且无法搭建。为了解决这些问题,本文使用数据集进一步微调了预训练模型。

物理稳定性:尽管该模型基于物理稳定性数据进行了训练,但有时生成的设计仍会违反物理和组装约束。为了解决这个问题,该研究进一步将物理稳定性验证纳入自回归推理中。

如果乐高结构在底板上搭建时不会倒塌,则该结构被认为是物理稳定的且可搭建的。为此,本文使用稳定性分析方法评估物理结构稳定性。图 4 (a) 展示了施加在单个积木上的所有可能力。

LEGOGPT 推理算法如下:

乐高纹理和着色:颜色和纹理在创意乐高设计中也起着至关重要的作用。因此,本文提出了一种应用精细 UV 纹理或为单个积木分配统一颜色的方法。

实验

图 5 展示了一系列多样化、高品质的 LEGO 设计,这些设计紧密遵循输入提示。

本文选取 LLaMAMesh 、LGM、XCube 和 Hunyuan3D-2 作为基线方法。如表 1 所示,本方法在所有指标上均超越基线方法。图 5 直观展示了本方法生成的乐高结构质量显著优于基线方案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
放在家门口的鞋子,屡次遭邻居恶意踩踏!上海一女子放粘鼠板反击!全网蹲后续

放在家门口的鞋子,屡次遭邻居恶意踩踏!上海一女子放粘鼠板反击!全网蹲后续

上观新闻
2026-03-18 18:06:12
打着安全的名义搞垄断,40块钱的液化气,被硬生生卖到130块

打着安全的名义搞垄断,40块钱的液化气,被硬生生卖到130块

流苏晚晴
2026-03-18 18:50:16
暗杀拉里贾尼,以色列此招拖得住美国吗?专家:美国更难退出战争,美以矛盾将扩大

暗杀拉里贾尼,以色列此招拖得住美国吗?专家:美国更难退出战争,美以矛盾将扩大

红星新闻
2026-03-18 17:36:31
嗜血以色列,杀了拉里贾尼,耍了美国

嗜血以色列,杀了拉里贾尼,耍了美国

南风窗
2026-03-18 14:29:49
约基奇8+7+14创中锋历史第一!掘金双杀76人升第五 布劳恩22分

约基奇8+7+14创中锋历史第一!掘金双杀76人升第五 布劳恩22分

醉卧浮生
2026-03-18 12:29:21
“买鱼不买”事件,闹得沸沸扬扬,全网没人同情买鱼女子

“买鱼不买”事件,闹得沸沸扬扬,全网没人同情买鱼女子

魔都姐姐杂谈
2026-03-18 12:48:37
为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

廖保平
2026-03-17 09:04:38
伊朗战争18日最新战报:斩首最有实权的拉里贾尼;伊朗如何报复?

伊朗战争18日最新战报:斩首最有实权的拉里贾尼;伊朗如何报复?

黔有虎
2026-03-18 12:42:40
敢炸莫斯科?凌晨3:30俄军疯狂复仇:导弹厂、F-16机场全都报销了

敢炸莫斯科?凌晨3:30俄军疯狂复仇:导弹厂、F-16机场全都报销了

李健政观察
2026-03-18 16:55:27
霍尔木兹梗阻,哪个省最受伤

霍尔木兹梗阻,哪个省最受伤

南风窗
2026-03-18 14:21:14
时速约7.2万公里!美媒:俄亥俄州上空划过重达7吨流星,解体时发出巨响

时速约7.2万公里!美媒:俄亥俄州上空划过重达7吨流星,解体时发出巨响

环球网资讯
2026-03-18 19:07:06
布伦特原油失守97美元/桶

布伦特原油失守97美元/桶

每日经济新闻
2026-03-18 13:44:11
太心酸了!深圳多数普工午休现状曝光,垫着纸皮在地上躺半小时…

太心酸了!深圳多数普工午休现状曝光,垫着纸皮在地上躺半小时…

火山詩话
2026-03-18 09:56:07
拉里贾尼被“斩首”,细节披露

拉里贾尼被“斩首”,细节披露

中国新闻周刊
2026-03-18 13:59:13
美伊战争的大决战,即将打响!

美伊战争的大决战,即将打响!

君临财富
2026-03-17 22:51:09
“妈,门口要钱,我们就不进去看你了”,游客在壶口瀑布外拍视频被投诉侵权,山西壶口瀑布景区:事发地是陕西壶口瀑布,我们也是受害者

“妈,门口要钱,我们就不进去看你了”,游客在壶口瀑布外拍视频被投诉侵权,山西壶口瀑布景区:事发地是陕西壶口瀑布,我们也是受害者

观威海
2026-03-18 14:47:02
腾讯音乐大跌超20%,将停止披露季度用户数

腾讯音乐大跌超20%,将停止披露季度用户数

第一财经资讯
2026-03-18 14:52:07
长津湖冻死冻伤3万人,多年后宋时轮才说出真相:不只是缺棉衣那么简单

长津湖冻死冻伤3万人,多年后宋时轮才说出真相:不只是缺棉衣那么简单

寄史言志
2026-03-17 23:25:17
又一五星级酒店撑不住!拖欠租金高达3000万,老板:在给房东打工

又一五星级酒店撑不住!拖欠租金高达3000万,老板:在给房东打工

毒sir财经
2026-03-17 21:23:43
全面反华?卡尼正式通知中国:加征25%关税,中企必须卷铺盖走人

全面反华?卡尼正式通知中国:加征25%关税,中企必须卷铺盖走人

阿策聊实事
2026-03-18 13:41:49
2026-03-18 21:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12536文章数 142588关注度
往期回顾 全部

科技要闻

直连微信!腾讯QClaw宣布大规模放量

头条要闻

美国家反恐中心主任辞职:无法凭良心支持特朗普的战争

头条要闻

美国家反恐中心主任辞职:无法凭良心支持特朗普的战争

体育要闻

晋级2026世界杯,这届中国女篮啥水平?

娱乐要闻

姚晨侯雯元绯闻升级 双方否认称是谣言

财经要闻

楼市最大的"赌徒",正在批量抄底老破小

汽车要闻

价格10万级 四驱中级电混轿车银河星耀7来了

态度原创

教育
家居
游戏
房产
军事航空

教育要闻

初试高分≠已录取!这些院校容易被逆袭!

家居要闻

复古格纹 轻法森系风

和表妹结婚生子日游大争议!玩家求生化9千万别学

房产要闻

大规模召回离职员工?碧桂园最新回应!

军事要闻

以防长:伊朗情报部长哈提卜已身亡

无障碍浏览 进入关怀版