网易首页 > 网易号 > 正文 申请入驻

多模态大语言模型空间智能新探索:单图或一句话,生成3D建模代码

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文的主要作者来自上海交通大学电子信息与电气工程学院 i-WiN 中心团队,团队负责人是上海交通大学讲席教授关新平。本文的第一作者为上海交通大学博士生王思宇,研究方向涉及多模态大模型、大模型的可靠生成及其工业应用。本文的通讯作者和主要指导老师为i-WiN中心陈彩莲教授、乐心怡副教授和许齐敏副研究员。

计算机辅助设计(CAD)已经成为许多行业设计、绘图和建模的标准方法。如今,几乎每一个制造出来的物体都是从参数化 CAD 建模开始的。CAD 构造序列是 CAD 模型表示的一种类型,不同于 Mesh 类型的三角网格、B-rep 格式的点、线、面表示,它被描述为一系列建模操作,包括确定草图 3D 起点和 3D 草图平面方向、绘制 2D 草图、将草图拉伸成 3D 实体形状的完整参数和过程,以 JSON 代码格式储存和表示。这类表示方法与专业建模工程师构建 CAD 模型的过程最为近似,可以直接被导入 AutoDesk、 ProE 等建模软件。构建这些 CAD 模型需要领域专业知识和空间推理能力,也需要较高的学习成本。

图 1. CAD 建模代码示意图

作为空间智能的关键能力之一,空间建模能力对 MLLM 提出了严峻的挑战。尽管 MLLM 在生成 2D 网页布局代码等方面展现出了卓越的性能,这类方法在 3D 建模领域仍然存在问题,比如生成 4 个平行于车底方向车轮的小车。这是因为 MLLM 在推理 3D 草图角度和 3D 空间位置时受限于大语言模型的 1D 推理惯性,难以理解复杂数字背后真正的空间含义。

图 2. 原始多模态大模型 3D 建模效果差原因分析

近期,来自上海交通大学的 i-WiN 研究团队提出了专门用于 CAD 建模的多模态大语言模型 CAD-GPT,结合专门设计的 3D 建模空间定位机制,将 3D 参数映射到 1D 语言信息维度,提高了 MLLM 的空间推理能力,实现了基于单张图片或一句话描述的精准 CAD 建模构造序列生成。该项研究以《CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs》为题,被 AAAI 2025 接收。

  • 论文标题:CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs
  • 论文地址:https://arxiv.org/abs/2412.19663
  • 项目地址:https://OpenIWIN.github.io/CAD-GPT/

方法介绍

3D 建模空间定位机制

我们把关键的 3D、2D 建模参数定义为大语言模型可以理解的建模语言,便于大模型理解和生成。具体来说,设计了 3 个系列的定位 token 来代替 3D 草图平面起点坐标、3D 草图平面角度和 2D 草图曲线坐标的参数。通过将全局空间 3D 坐标、草图平面 3D 旋转角度的特征展开到一维语言特征空间,将它们转换为两类不同的 1D 位置 tokens。此外,2D 草图被离散化并转换为特殊的 2D token。这些 token 被合并到原始 LLM 词表中。同时,纳入了 3 类适配 3 种 token 的自定义可学习的位置嵌入,以弥合语言和空间位置之间的差距。

数据集构建

基于 DeepCAD 数据集,生成了 160k 固定视角渲染的 CAD 模型图像和 18k 相应的自然语言描述数据集,构建专门用于训练多模态大语言模型的 CAD 建模数据集,便于后续其他工作训练大模型生成 CAD 模型建模序列。

训练策略与细节

我们采用 LLaVA - 1.5 7B 版本作为基础模型。训练包括两个阶段:首先在 image2CAD 任务上进行训练,然后在 text2CAD 任务上降低学习率进行微调。此外,因 CAD 建模序列长度较长,我们基于外推法,通过超参调整,扩展 LLM 的窗口长度到 8192。

图 3. CAD-GPT 原理框架图

实验效果展示

图 4. CAD-GPT 生成的各种 CAD 模型展示

图 4 中的模型展示了包含精准语义草图生成能力(如心形和字母 “E”)、带有类别的 CAD 生成能力(如桌子、椅子和钥匙)、空间推理能力(如桌子和相互垂直的圆柱体),以及生成不同尺寸的相同模型的能力(如三个有两个圆孔的不同尺寸连接器)。

基于单张图片的生成效果

将 CAD-GPT 与三种代表性方法进行了比较。第一个是 DeepCAD,它演示了 CAD 建模中的先进生成技术。第二个是 GPT-4,代表了闭源多模态大型模型的前沿。第三个是 Qwen2-VL-Max,这是领先的开源多模态大型模型之一。相比之下,CAD-GPT 产生的输出既准确又美观。

图 5. 基于图片的 CAD 生成效果对比

基于一句话描述生成效果展示

本文选择了两个有代表性的大型语言模型:领先的闭源模型 GPT-4 和最先进的开源模型 LLaMA-3.1(405B)。如图 6 所示,我们的模型始终生成高精度、美观的输出,并且展示出了与文本描述对应的语义信息。

图 6. 基于文本描述的 CAD 生成效果对比

消融实验

图 7 展示了是否添加 3D 建模空间定位机制训练模型的差异。如图所示,添加定位机制后,CAD-GPT 可以精准的推理空间角度、位置变化,以及生成准确的 2D 草图。

图 7. 消融实验效果展示

总结

本文提出 CAD-GPT,一种具有三维建模空间定位机制的多模态大模型,以提高空间推理能力。所提出模型擅长推断草图 3D 方向的变化、3D 空间位置的变化,并准确渲染 2D 草图。利用这些功能,CAD-GPT 在单张图像和文本输入条件下生成精确 CAD 模型方面表现出卓越的性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不只是一笔签约!格列兹曼登陆美职联,是君子协定与1.1亿欧牺牲

不只是一笔签约!格列兹曼登陆美职联,是君子协定与1.1亿欧牺牲

凌晨四点马德里
2026-03-24 09:05:33
4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

通鉴史智
2026-03-15 11:45:00
41岁张雪峰突然去世:跑步机上突发心脏骤停,医院抢救全过程披露

41岁张雪峰突然去世:跑步机上突发心脏骤停,医院抢救全过程披露

博士观察
2026-03-25 00:57:25
伊朗公布停战条件:47年了,必须做个了断!以总统刚放完“狠话”就遭火箭弹袭击,紧急避难;以财长:将吞并黎巴嫩南部

伊朗公布停战条件:47年了,必须做个了断!以总统刚放完“狠话”就遭火箭弹袭击,紧急避难;以财长:将吞并黎巴嫩南部

每日经济新闻
2026-03-24 17:25:09
50岁之后,有性生活与没有性生活,差别竟如此之大?看完涨知识了

50岁之后,有性生活与没有性生活,差别竟如此之大?看完涨知识了

健康科普365
2026-03-24 19:25:09
72年毛主席会见叶剑英,提及邓小平回京,叶剑英:我只有一个要求

72年毛主席会见叶剑英,提及邓小平回京,叶剑英:我只有一个要求

大运河时空
2026-03-24 17:45:03
长期不住的房子,物业费能少交吗?民法典早说了,别再交冤枉钱!

长期不住的房子,物业费能少交吗?民法典早说了,别再交冤枉钱!

老特有话说
2026-03-11 14:47:30
比3年前主场杭州更强,中国游泳女将有望亚运会包揽全部金牌

比3年前主场杭州更强,中国游泳女将有望亚运会包揽全部金牌

体娱一家亲
2026-03-24 23:09:49
英媒曾爆料:法航母在南海追中国潜艇?结果遇到中国40艘军舰懵了

英媒曾爆料:法航母在南海追中国潜艇?结果遇到中国40艘军舰懵了

趣文说娱
2026-03-23 19:25:56
炸穿阿瓦士!美以联手端掉伊朗革命卫队总部,现场夷成白地

炸穿阿瓦士!美以联手端掉伊朗革命卫队总部,现场夷成白地

老马拉车莫少装
2026-03-23 13:00:44
张凌赫一觉醒来“天塌了”!网友:“怎么了?我的粉底液大将军”

张凌赫一觉醒来“天塌了”!网友:“怎么了?我的粉底液大将军”

小娱乐悠悠
2026-03-23 09:14:55
打脸时刻!ESPN赛季前预测战绩被翻出:勇士63胜领跑全联盟

打脸时刻!ESPN赛季前预测战绩被翻出:勇士63胜领跑全联盟

罗说NBA
2026-03-24 06:52:51
名记:保罗-乔治的25场禁赛执行完毕,他将于今日复出

名记:保罗-乔治的25场禁赛执行完毕,他将于今日复出

懂球帝
2026-03-25 00:43:40
伊朗向以色列发动新一轮导弹袭击

伊朗向以色列发动新一轮导弹袭击

新华社
2026-03-24 11:37:50
世体:阿韦洛亚在马德里德比中穿一件LV夹克,售价高达3900欧

世体:阿韦洛亚在马德里德比中穿一件LV夹克,售价高达3900欧

懂球帝
2026-03-23 21:41:08
哈佛物理教授疯了:我让AI写论文,结果两周干完博士一年工作!已发顶刊

哈佛物理教授疯了:我让AI写论文,结果两周干完博士一年工作!已发顶刊

新智元
2026-03-24 17:28:46
刚刚,V形大反弹!伊朗,传出大消息!

刚刚,V形大反弹!伊朗,传出大消息!

数据宝
2026-03-24 18:45:30
全世界都被特朗普耍了?打击伊朗只是幌子,真实目的终于浮出水面

全世界都被特朗普耍了?打击伊朗只是幌子,真实目的终于浮出水面

夕阳渡史人
2026-01-30 09:47:08
周正毅时隔5年首回应“寿宴风波”!筹办人不是他,否认巨额赔偿

周正毅时隔5年首回应“寿宴风波”!筹办人不是他,否认巨额赔偿

卷史
2026-03-24 22:18:03
长春路虎哥老底被扒光!比恶意别停更加嚣张,这次谁也救不了他

长春路虎哥老底被扒光!比恶意别停更加嚣张,这次谁也救不了他

奇思妙想草叶君
2026-03-24 13:32:42
2026-03-25 01:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12588文章数 142592关注度
往期回顾 全部

科技要闻

年仅41岁,教育名师张雪峰猝然离世

头条要闻

张雪峰因心源性猝死抢救无效去世 终年41岁

头条要闻

张雪峰因心源性猝死抢救无效去世 终年41岁

体育要闻

NBA最强左手射手,是个右撇子

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

特朗普再TACO 可以押注伊朗局势降级?

汽车要闻

尚界Z7双车预售22.98万起 问界M6预售26.98万起

态度原创

教育
数码
旅游
时尚
游戏

教育要闻

吉林省在小学阶段全面推行 每周一天“无书面作业日”

数码要闻

荣耀平板PC应用新增剪映专业版App,支持大屏多轨剪辑等功能

旅游要闻

2025年哈萨克斯坦入境游客持续增长 中国为第四大来源国

豪门梦破碎后,她居然还能爆红?

余霜管泽元官宣怀孕!“小队新成员” 来了

无障碍浏览 进入关怀版