网易首页 > 网易号 > 正文 申请入驻

从文本生成物理稳定积木模型,BrickGPT革新创意制造

0
分享至

就在几天前,美国卡耐基梅隆大学(CMU)的团队获得了国际计算机视觉大会 ICCV 的年度最佳论文奖。

这项研究来自 CMU 朱俊彦助理教授、刘畅流副教授和德瓦·拉马南(Deva Ramanan)教授联合团队,他们提出了一种新方法 BrickGPT,首次通过端到端的方式,从文本提示生成符合语义、物理稳定且实际可行的积木装配模型。

简言之,他们将搭积木变成一个写句子的过程。比如,你只需要用文字描述“一把吉他”,BrickGPT 就可以生成模型结构,并提供详细的步骤说明,这样你可以按照这些指导用积木一步步搭建出这把吉他。

值得关注的是,这些设计不是虚拟创意而是真正能够实现现实制造。除了能够通过手工组装,还可以让机器人自动组装。

相关论文题目为《从文本生成物理稳定且可建造的积木结构》(Generating Physically Stable and Buildable Brick Structures from Text)[1]。


图丨相关论文(来源:https://arxiv.org/abs/2505.05469)

那么,这种新方法有哪些独特的创新呢?

现有大多数 3D 生成方法主要关注视觉效果,包括形状的逼真程度、外观细节等,同时更多聚焦在单个整体,如 3D Mesh。尽管也有一些工作中加入了物理约束,但往往聚焦整体结构性质,如质心位置。这类物理约束相对容易表达且可以被现有的物理引擎模拟出来,因此较容易融入到模型学习过程中。

在 BrickGPT 的工作中,研究团队更多聚焦在拼装结构的物理约束,即单个物体不再是一个整体,而是由多个部件组装而成。这类结构在生活中更普遍存在,如制造、家居、电器等无处不在。

如果忽略物理世界的组装限制,一个看起来完美的模型,在现实中很可能没办法组装,甚至无法存在——要么是结构部位容易倒塌,要么是某些部分悬空没有支撑。这些组装件的物理限制往往更复杂,不容易表示且很难被现有的仿真器模拟出来。

为解决物理分析限制的问题,研究团队借助积木,希望通过拼装结构来探索物理稳定性和可实现性。他们提出一种核心思路:把搭积木变成一个写句子的过程。


图丨BrickGPT 概览(来源:https://avalovelace1.github.io/Bri)

该论文共同第一作者、CMU 博士生邓康乐对 DeepTech 表示:“只要你知道要把哪块积木放到哪个具体的地方,搭积木的每个步骤都可以用文本清晰地表达出来。这样我们就可以用大模型学习如何用语言的形式来表达搭积木的过程。”

但是,要让模型能够理解物理世界,仅靠模型学习是不够的。因此,研究人员在生成过程中还用到了显式物理属性。由于现有物理引擎无法模拟拼装积木的物理特性,他们将积木的物理属性公式转变为一个优化问题,通过求解受力分布,直接把物理属性嵌入到模型中,从而让模型理解积木的物理属性。

需要了解的是,语言模型在写句子的过程中可能会犯错,因为它对物理事实知之甚少,其并不理解搭出来的积木结构背后的物理性质和物理规律。因此,它可能会生成一些在物理世界中不可能存在的积木结构,例如飘在空中的积木或在空间上交叠的积木。

为解决该问题,研究团队首先将搭建积木的过程用结构化表示,即尽可能精简地表达积木块的尺寸,包括长、宽和它的物理空间位置,以让模型可以更好地理解空间上的位置关系。然后,他们还引入了物理约束,用显式的物理分析方法明确告诉模型,所生成的结构是否稳定或在物理世界中是否可能存在。

具体而言,如果模型生成的结构是不稳定的、可能会倒塌的,就需要去掉其中不稳定的结构,让模型更改并重新生成一个能够通过物理判别的结构。通过这样的强制性策略,使模型的结果能够符合物理世界的规律。


(来源:https://avalovelace1.github.io/BrickGPT/)

为确保数据的多样性,研究人员还构建了一个全新数据集 StableText2Brick,包含 4.7 万个稳定的积木结构,涵盖 2.8 万个来自 ShapeNet 数据集的不同 3D 物体。基于该数据集,能够生成不同的积木布局,即便形状相同,也可以通过不同的积木组合来实现。此外,他们还会对每个不同的结构进行稳定性分析,并只保留稳定的结构。

另一方面,由于基于文本来生成积木结构,只有积木结构数据是不够的。所以研究团队使用了 GPT-4o 模型来为每个积木结构匹配高质量文本信息。他们把积木渲染成多角度的 2D 图片,然后利用该多模态的语言模型根据这些图片生成符合的描述文本。

“在这个过程中,我们让语言模型尽可能生成不同长度及维度的描述,比如 10 个词以内、20 个词以内的描述。这样,我们的数据集在文本多样性方面也得到了补充和提升。”该论文共同第一作者、CMU 博士生刘瑞轩告诉 DeepTech。


图丨机器人组装积木(来源:该团队)

该技术为 AI 在实体制造和创意设计的应用提供了新的思路,可应用于创意、设计、教育领域等多个领域。

在教育领域,孩子们可基于 BrickGPT 用语言来描述一个积木模型,并自动生成这个积木模型。不仅能激发其创造力和想象力,还可以同时学习到物理知识和空间结构原理。

在创意设计领域,可能一些人经常会产生不错的机械装置设计创意,但受限于不会画机械图纸,也无法确认这些图纸在物理上是否可行,BrickGPT 便可作为一种高效的工具。需要了解的是,生成模型并不是要取代人类的创意,而是帮助人们显著降低门槛、更高效地实现设计想法。


(来源:https://avalovelace1.github.io/BrickGPT/)

这项研究涉及计算机科学、物理学、机械工程,机器人学等多个领域。巧合的是,其中的两位 PI 都是清华大学和美国加州大学伯克利分校的校友。朱俊彦先后在美国麻省理工学院从事博士后研究以及在 Adobe Research 担任研究员。目前他的研究方向是计算机视觉、图形学、计算摄影和生成模型。在本次研究中,其课题组的重点是为生成模型提供支持。

刘畅流在美国斯坦福大学完成博士后研究后,来到 CMU 任教,并成为 2024 年“35 岁以下科技创新 35 人”(MIT Technology Review Innovators Under 35)中国区入选者之一。她的研究方向包括机器人学习与操作、具身智能、安全控制和形式化方法。在本次研究中,她的课题组聚焦于机器人技术,包括物理分析、机器人操作和制造。

展望未来,该团队表示,他们更长远的目标是探索一种全新的、由生成模型、具身智能驱动的创造范式。这项研究的价值远不止于生成积木,实际上,我们生活中所有的物体本质上都是一种拼装结构。因此,研究团队的终极目标是通过生成模型与机器人技术降低设计门槛和制造门槛,让一切皆可“生成式制造”。

BrickGPT 是该团队向此范式迈出的第一步,他们表示目前也正在积极探索其他方向,例如与 CMU 助理教授李骄阳合作研究多机器人协作的大型复杂装配。同时团队也感谢 Richard King Mellon Foundation 以及 CMU Manufacturing Future Institute 对项目研究的初期支持。

参考资料:

1. 相关论文:https://arxiv.org/abs/2505.05469

2. 代码和模型:https://avalovelace1.github.io/BrickGPT/

3. Ava Pun 个人主页:https://avapun.com/

4. 邓康乐个人主页:https://dunbar12138.github.io/

5. 刘瑞轩个人主页:https://waynekyrie.github.io/

6. Deva Ramanan 个人主页:http://www.cs.cmu.edu/~deva/

7. 朱俊彦个人主页:https://www.cs.cmu.edu/~junyanz/

8. 刘畅流个人主页:https://icontrol.ri.cmu.edu/people/changliu.html

排版:刘雅坤

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
开拓者老鹰达成3换1!杨瀚森添三分神射新队友 交易评级出炉

开拓者老鹰达成3换1!杨瀚森添三分神射新队友 交易评级出炉

罗说NBA
2026-02-02 04:03:35
中方接连“被做局”,美国真能“赢麻了”?

中方接连“被做局”,美国真能“赢麻了”?

头条爆料007
2026-02-02 06:25:51
一天2.2万人爽约!灵隐寺这次算是被白嫖党,给结结实实上了一课

一天2.2万人爽约!灵隐寺这次算是被白嫖党,给结结实实上了一课

火山诗话
2026-02-02 08:41:43
史诗级闪崩!但历史不会简单重演

史诗级闪崩!但历史不会简单重演

新浪财经
2026-02-01 19:11:18
国际黄金价格创下40年来最大单日跌幅 专家:对前期过热情绪的快速修正

国际黄金价格创下40年来最大单日跌幅 专家:对前期过热情绪的快速修正

证券时报
2026-02-02 07:31:07
莱昂纳德100%递补入选全明星!首次世界队VS美国队就有BUG!

莱昂纳德100%递补入选全明星!首次世界队VS美国队就有BUG!

篮球大图
2026-02-02 08:27:55
狂胜43分!热巴20+9热火复仇公牛 河村勇辉6+6+6生涯新高

狂胜43分!热巴20+9热火复仇公牛 河村勇辉6+6+6生涯新高

醉卧浮生
2026-02-02 09:25:26
专家回应大年三十“消失”:正常历法现象

专家回应大年三十“消失”:正常历法现象

环球网资讯
2026-02-02 10:45:13
个人增值税起征点提高至1000元

个人增值税起征点提高至1000元

南方都市报
2026-02-02 07:05:17
浙江卫视炸了!7000万网红怒怼评委:你15年没歌凭啥说我?

浙江卫视炸了!7000万网红怒怼评委:你15年没歌凭啥说我?

不写散文诗
2026-01-30 12:16:42
武契奇:我预计48小时内伊朗将遭袭

武契奇:我预计48小时内伊朗将遭袭

新京报政事儿
2026-02-02 11:39:00
一个逻辑闭环:阿富汗女性只能上到小学,但女患者又必须看女医生

一个逻辑闭环:阿富汗女性只能上到小学,但女患者又必须看女医生

黄娜老师
2026-02-01 13:45:43
现场画面:柬埔寨对一电诈园区展开最大规模行动,抓捕2044人;缅甸出动空军运输机押729人回国

现场画面:柬埔寨对一电诈园区展开最大规模行动,抓捕2044人;缅甸出动空军运输机押729人回国

扬子晚报
2026-02-01 15:59:57
再公布超三百万页文件仍难平息公众质疑,爱泼斯坦案爆出更多“大人物”丑行

再公布超三百万页文件仍难平息公众质疑,爱泼斯坦案爆出更多“大人物”丑行

环球网资讯
2026-02-02 06:57:29
创纪录暴跌后,今日金银价继续大跌!刚买的金饰能退吗?有商家提醒

创纪录暴跌后,今日金银价继续大跌!刚买的金饰能退吗?有商家提醒

每日经济新闻
2026-02-02 08:19:12
玩不到一起真尴尬,沈腾沙溢努力调节气氛,关晓彤张凯丽盛气凌人

玩不到一起真尴尬,沈腾沙溢努力调节气氛,关晓彤张凯丽盛气凌人

白面书誏
2026-02-01 18:39:22
谷爱凌爱上币圈诈骗犯孙宇晨?

谷爱凌爱上币圈诈骗犯孙宇晨?

爆角追踪
2026-02-01 17:28:46
唐末最强雇佣军,开创了三个王朝

唐末最强雇佣军,开创了三个王朝

《中国国家历史》
2026-02-01 21:38:11
“反向春运”火了!部分火车票低至1.9折,南京到上海只要8.5元

“反向春运”火了!部分火车票低至1.9折,南京到上海只要8.5元

上观新闻
2026-02-01 21:39:09
30岁男子如厕时猝死,妻子回忆事发前5天,那些被掩盖的生命求救信号

30岁男子如厕时猝死,妻子回忆事发前5天,那些被掩盖的生命求救信号

红星新闻
2026-02-01 23:06:17
2026-02-02 12:27:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16208文章数 514582关注度
往期回顾 全部

科技要闻

元宝发10亿红包,阿里千问:我跟30亿

头条要闻

30岁男子如厕时猝死 妻子回忆事发前5天丈夫疼痛细节

头条要闻

30岁男子如厕时猝死 妻子回忆事发前5天丈夫疼痛细节

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

国六货车被迫"换头" 每次收费超200元

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

手机
艺术
数码
家居
时尚

手机要闻

2026年1月中国手机市场排名公布:华为市占率18.6%,位列第一

艺术要闻

马斯克花5万买的折叠屋,是预制住宅的未来吗?

数码要闻

安卓小平板口碑王!新款联想拯救者Y700官宣3月见:支持实体SIM卡

家居要闻

现代几何彩拼 智焕童梦居

普通人衣服没必要买太多,准备好这些单品,简单实用又耐看

无障碍浏览 进入关怀版