网易首页 > 网易号 > 正文 申请入驻

从文本生成物理稳定积木模型,BrickGPT革新创意制造

0
分享至

就在几天前,美国卡耐基梅隆大学(CMU)的团队获得了国际计算机视觉大会 ICCV 的年度最佳论文奖。

这项研究来自 CMU 朱俊彦助理教授、刘畅流副教授和德瓦·拉马南(Deva Ramanan)教授联合团队,他们提出了一种新方法 BrickGPT,首次通过端到端的方式,从文本提示生成符合语义、物理稳定且实际可行的积木装配模型。

简言之,他们将搭积木变成一个写句子的过程。比如,你只需要用文字描述“一把吉他”,BrickGPT 就可以生成模型结构,并提供详细的步骤说明,这样你可以按照这些指导用积木一步步搭建出这把吉他。

值得关注的是,这些设计不是虚拟创意而是真正能够实现现实制造。除了能够通过手工组装,还可以让机器人自动组装。

相关论文题目为《从文本生成物理稳定且可建造的积木结构》(Generating Physically Stable and Buildable Brick Structures from Text)[1]。


图丨相关论文(来源:https://arxiv.org/abs/2505.05469)

那么,这种新方法有哪些独特的创新呢?

现有大多数 3D 生成方法主要关注视觉效果,包括形状的逼真程度、外观细节等,同时更多聚焦在单个整体,如 3D Mesh。尽管也有一些工作中加入了物理约束,但往往聚焦整体结构性质,如质心位置。这类物理约束相对容易表达且可以被现有的物理引擎模拟出来,因此较容易融入到模型学习过程中。

在 BrickGPT 的工作中,研究团队更多聚焦在拼装结构的物理约束,即单个物体不再是一个整体,而是由多个部件组装而成。这类结构在生活中更普遍存在,如制造、家居、电器等无处不在。

如果忽略物理世界的组装限制,一个看起来完美的模型,在现实中很可能没办法组装,甚至无法存在——要么是结构部位容易倒塌,要么是某些部分悬空没有支撑。这些组装件的物理限制往往更复杂,不容易表示且很难被现有的仿真器模拟出来。

为解决物理分析限制的问题,研究团队借助积木,希望通过拼装结构来探索物理稳定性和可实现性。他们提出一种核心思路:把搭积木变成一个写句子的过程。


图丨BrickGPT 概览(来源:https://avalovelace1.github.io/Bri)

该论文共同第一作者、CMU 博士生邓康乐对 DeepTech 表示:“只要你知道要把哪块积木放到哪个具体的地方,搭积木的每个步骤都可以用文本清晰地表达出来。这样我们就可以用大模型学习如何用语言的形式来表达搭积木的过程。”

但是,要让模型能够理解物理世界,仅靠模型学习是不够的。因此,研究人员在生成过程中还用到了显式物理属性。由于现有物理引擎无法模拟拼装积木的物理特性,他们将积木的物理属性公式转变为一个优化问题,通过求解受力分布,直接把物理属性嵌入到模型中,从而让模型理解积木的物理属性。

需要了解的是,语言模型在写句子的过程中可能会犯错,因为它对物理事实知之甚少,其并不理解搭出来的积木结构背后的物理性质和物理规律。因此,它可能会生成一些在物理世界中不可能存在的积木结构,例如飘在空中的积木或在空间上交叠的积木。

为解决该问题,研究团队首先将搭建积木的过程用结构化表示,即尽可能精简地表达积木块的尺寸,包括长、宽和它的物理空间位置,以让模型可以更好地理解空间上的位置关系。然后,他们还引入了物理约束,用显式的物理分析方法明确告诉模型,所生成的结构是否稳定或在物理世界中是否可能存在。

具体而言,如果模型生成的结构是不稳定的、可能会倒塌的,就需要去掉其中不稳定的结构,让模型更改并重新生成一个能够通过物理判别的结构。通过这样的强制性策略,使模型的结果能够符合物理世界的规律。


(来源:https://avalovelace1.github.io/BrickGPT/)

为确保数据的多样性,研究人员还构建了一个全新数据集 StableText2Brick,包含 4.7 万个稳定的积木结构,涵盖 2.8 万个来自 ShapeNet 数据集的不同 3D 物体。基于该数据集,能够生成不同的积木布局,即便形状相同,也可以通过不同的积木组合来实现。此外,他们还会对每个不同的结构进行稳定性分析,并只保留稳定的结构。

另一方面,由于基于文本来生成积木结构,只有积木结构数据是不够的。所以研究团队使用了 GPT-4o 模型来为每个积木结构匹配高质量文本信息。他们把积木渲染成多角度的 2D 图片,然后利用该多模态的语言模型根据这些图片生成符合的描述文本。

“在这个过程中,我们让语言模型尽可能生成不同长度及维度的描述,比如 10 个词以内、20 个词以内的描述。这样,我们的数据集在文本多样性方面也得到了补充和提升。”该论文共同第一作者、CMU 博士生刘瑞轩告诉 DeepTech。


图丨机器人组装积木(来源:该团队)

该技术为 AI 在实体制造和创意设计的应用提供了新的思路,可应用于创意、设计、教育领域等多个领域。

在教育领域,孩子们可基于 BrickGPT 用语言来描述一个积木模型,并自动生成这个积木模型。不仅能激发其创造力和想象力,还可以同时学习到物理知识和空间结构原理。

在创意设计领域,可能一些人经常会产生不错的机械装置设计创意,但受限于不会画机械图纸,也无法确认这些图纸在物理上是否可行,BrickGPT 便可作为一种高效的工具。需要了解的是,生成模型并不是要取代人类的创意,而是帮助人们显著降低门槛、更高效地实现设计想法。


(来源:https://avalovelace1.github.io/BrickGPT/)

这项研究涉及计算机科学、物理学、机械工程,机器人学等多个领域。巧合的是,其中的两位 PI 都是清华大学和美国加州大学伯克利分校的校友。朱俊彦先后在美国麻省理工学院从事博士后研究以及在 Adobe Research 担任研究员。目前他的研究方向是计算机视觉、图形学、计算摄影和生成模型。在本次研究中,其课题组的重点是为生成模型提供支持。

刘畅流在美国斯坦福大学完成博士后研究后,来到 CMU 任教,并成为 2024 年“35 岁以下科技创新 35 人”(MIT Technology Review Innovators Under 35)中国区入选者之一。她的研究方向包括机器人学习与操作、具身智能、安全控制和形式化方法。在本次研究中,她的课题组聚焦于机器人技术,包括物理分析、机器人操作和制造。

展望未来,该团队表示,他们更长远的目标是探索一种全新的、由生成模型、具身智能驱动的创造范式。这项研究的价值远不止于生成积木,实际上,我们生活中所有的物体本质上都是一种拼装结构。因此,研究团队的终极目标是通过生成模型与机器人技术降低设计门槛和制造门槛,让一切皆可“生成式制造”。

BrickGPT 是该团队向此范式迈出的第一步,他们表示目前也正在积极探索其他方向,例如与 CMU 助理教授李骄阳合作研究多机器人协作的大型复杂装配。同时团队也感谢 Richard King Mellon Foundation 以及 CMU Manufacturing Future Institute 对项目研究的初期支持。

参考资料:

1. 相关论文:https://arxiv.org/abs/2505.05469

2. 代码和模型:https://avalovelace1.github.io/BrickGPT/

3. Ava Pun 个人主页:https://avapun.com/

4. 邓康乐个人主页:https://dunbar12138.github.io/

5. 刘瑞轩个人主页:https://waynekyrie.github.io/

6. Deva Ramanan 个人主页:http://www.cs.cmu.edu/~deva/

7. 朱俊彦个人主页:https://www.cs.cmu.edu/~junyanz/

8. 刘畅流个人主页:https://icontrol.ri.cmu.edu/people/changliu.html

排版:刘雅坤

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗迎来援兵,土耳其或对以色列开战?美英失声,以总理恼羞成怒

伊朗迎来援兵,土耳其或对以色列开战?美英失声,以总理恼羞成怒

虎哥闲聊
2026-04-14 10:07:50
这真是玩手机玩的,8岁女孩吃饭姿势怪异,网友:怎么不抽她?

这真是玩手机玩的,8岁女孩吃饭姿势怪异,网友:怎么不抽她?

蝴蝶花雨话教育
2026-04-14 10:47:08
布耶27+9卡尔森26+10 太阳客场大胜雷霆

布耶27+9卡尔森26+10 太阳客场大胜雷霆

北青网-北京青年报
2026-04-13 20:48:02
情侣在餐厅秀恩爱,女友手部动作不雅被偷拍,目击者:都看习惯了

情侣在餐厅秀恩爱,女友手部动作不雅被偷拍,目击者:都看习惯了

李晚书
2026-04-10 17:13:10
比赖清德更狂的人出现了,只要她当上台湾领导人,解放军必定收台

比赖清德更狂的人出现了,只要她当上台湾领导人,解放军必定收台

共工之锚
2026-03-29 18:26:19
以色列袭击黎巴嫩被谴责,内塔尼亚胡:“以军是世界上最有道德的军队”;此前以色列对黎巴嫩发动袭击,造成包括儿童在内数百名平民死伤

以色列袭击黎巴嫩被谴责,内塔尼亚胡:“以军是世界上最有道德的军队”;此前以色列对黎巴嫩发动袭击,造成包括儿童在内数百名平民死伤

扬子晚报
2026-04-11 11:33:21
山东高速再输辽宁,邱彪已无调整空间,塞巴斯蒂安或成唯一希望

山东高速再输辽宁,邱彪已无调整空间,塞巴斯蒂安或成唯一希望

狮王乱弹
2026-04-14 10:27:59
哈萨克斯坦2000万吨稀土转卖美日,签完协议发现,还是绕不开中国

哈萨克斯坦2000万吨稀土转卖美日,签完协议发现,还是绕不开中国

蔡蔡说史
2026-04-11 04:25:53
心源性猝死的人越来越多?医生强调:宁可打打牌,建议别做这7事

心源性猝死的人越来越多?医生强调:宁可打打牌,建议别做这7事

医学原创故事会
2026-03-29 23:50:13
上海男篮冲击20连胜!卢伟拒绝爆冷,怀特塞德回归,央视直播

上海男篮冲击20连胜!卢伟拒绝爆冷,怀特塞德回归,央视直播

金风说
2026-04-14 11:06:32
女大学生吐槽“普信男”视频火了,却因长相被嘲:你也照照镜子吧

女大学生吐槽“普信男”视频火了,却因长相被嘲:你也照照镜子吧

世界圈
2026-04-12 00:10:16
伊朗官员删除“美国三个过分要求”帖文

伊朗官员删除“美国三个过分要求”帖文

财联社
2026-04-13 12:02:14
郑丽文的婚姻:女主外男主内,不生育孩子,事业理想置于家庭之上

郑丽文的婚姻:女主外男主内,不生育孩子,事业理想置于家庭之上

观察者海风
2026-04-09 17:42:58
83年李鹏当上副总理,79岁的邓颖超亲自上门叮嘱:切不可脱离群众

83年李鹏当上副总理,79岁的邓颖超亲自上门叮嘱:切不可脱离群众

我不是沃神
2026-04-12 14:35:03
儿子病逝,儿媳改嫁,9岁孙子和73岁爷爷相依为命,怕爷爷也去世,每天偷偷把肉带回家,老师:他懂事得让人心疼

儿子病逝,儿媳改嫁,9岁孙子和73岁爷爷相依为命,怕爷爷也去世,每天偷偷把肉带回家,老师:他懂事得让人心疼

观威海
2026-04-13 10:00:08
东契奇飞回洛杉矶,湖人季后赛前48小时才凑齐首发

东契奇飞回洛杉矶,湖人季后赛前48小时才凑齐首发

赛场名场面
2026-04-14 08:35:13
南京大屠杀幸存者的回忆:野狗吃红了眼,到处都是女人的哭声

南京大屠杀幸存者的回忆:野狗吃红了眼,到处都是女人的哭声

铜臭的历史味
2026-04-11 22:40:28
奥沙利文终于说了句公道话:丁俊晖不是不行,是命太硬

奥沙利文终于说了句公道话:丁俊晖不是不行,是命太硬

阿丰聊娱
2026-04-14 08:54:25
斯诺克赛程:决出8席32强,周跃龙率中国4人出战,小将冲百万大奖

斯诺克赛程:决出8席32强,周跃龙率中国4人出战,小将冲百万大奖

刘姚尧的文字城堡
2026-04-14 08:49:02
追觅董事长俞浩:一季度增长100%,今年营收目标挑战1000亿元

追觅董事长俞浩:一季度增长100%,今年营收目标挑战1000亿元

澎湃新闻
2026-04-13 22:12:30
2026-04-14 11:36:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16572文章数 514871关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

女子做完医美吃不下睡不着 女技师吐槽"本来就不好看"

头条要闻

女子做完医美吃不下睡不着 女技师吐槽"本来就不好看"

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

伊朗要求五个中东国家赔偿战争损失

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

数码
教育
亲子
公开课
军事航空

数码要闻

华为新款鸿蒙电脑来了!MateBook 14鸿蒙版4月20日见:云晰柔光屏+艺术圆键盘

教育要闻

做有思考、有思路、有思想的校长

亲子要闻

清明过后少给娃吃凉,多喝这碗扶阳汤,体质好长得壮

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:今晚10点封锁伊朗 对北约非常失望

无障碍浏览 进入关怀版