网易首页 > 网易号 > 正文 申请入驻

多模态大语言模型空间智能新探索:单图或一句话,生成3D建模代码

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文的主要作者来自上海交通大学电子信息与电气工程学院 i-WiN 中心团队,团队负责人是上海交通大学讲席教授关新平。本文的第一作者为上海交通大学博士生王思宇,研究方向涉及多模态大模型、大模型的可靠生成及其工业应用。本文的通讯作者和主要指导老师为i-WiN中心陈彩莲教授、乐心怡副教授和许齐敏副研究员。

计算机辅助设计(CAD)已经成为许多行业设计、绘图和建模的标准方法。如今,几乎每一个制造出来的物体都是从参数化 CAD 建模开始的。CAD 构造序列是 CAD 模型表示的一种类型,不同于 Mesh 类型的三角网格、B-rep 格式的点、线、面表示,它被描述为一系列建模操作,包括确定草图 3D 起点和 3D 草图平面方向、绘制 2D 草图、将草图拉伸成 3D 实体形状的完整参数和过程,以 JSON 代码格式储存和表示。这类表示方法与专业建模工程师构建 CAD 模型的过程最为近似,可以直接被导入 AutoDesk、 ProE 等建模软件。构建这些 CAD 模型需要领域专业知识和空间推理能力,也需要较高的学习成本。

图 1. CAD 建模代码示意图

作为空间智能的关键能力之一,空间建模能力对 MLLM 提出了严峻的挑战。尽管 MLLM 在生成 2D 网页布局代码等方面展现出了卓越的性能,这类方法在 3D 建模领域仍然存在问题,比如生成 4 个平行于车底方向车轮的小车。这是因为 MLLM 在推理 3D 草图角度和 3D 空间位置时受限于大语言模型的 1D 推理惯性,难以理解复杂数字背后真正的空间含义。

图 2. 原始多模态大模型 3D 建模效果差原因分析

近期,来自上海交通大学的 i-WiN 研究团队提出了专门用于 CAD 建模的多模态大语言模型 CAD-GPT,结合专门设计的 3D 建模空间定位机制,将 3D 参数映射到 1D 语言信息维度,提高了 MLLM 的空间推理能力,实现了基于单张图片或一句话描述的精准 CAD 建模构造序列生成。该项研究以《CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs》为题,被 AAAI 2025 接收。

  • 论文标题:CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs
  • 论文地址:https://arxiv.org/abs/2412.19663
  • 项目地址:https://OpenIWIN.github.io/CAD-GPT/

方法介绍

3D 建模空间定位机制

我们把关键的 3D、2D 建模参数定义为大语言模型可以理解的建模语言,便于大模型理解和生成。具体来说,设计了 3 个系列的定位 token 来代替 3D 草图平面起点坐标、3D 草图平面角度和 2D 草图曲线坐标的参数。通过将全局空间 3D 坐标、草图平面 3D 旋转角度的特征展开到一维语言特征空间,将它们转换为两类不同的 1D 位置 tokens。此外,2D 草图被离散化并转换为特殊的 2D token。这些 token 被合并到原始 LLM 词表中。同时,纳入了 3 类适配 3 种 token 的自定义可学习的位置嵌入,以弥合语言和空间位置之间的差距。

数据集构建

基于 DeepCAD 数据集,生成了 160k 固定视角渲染的 CAD 模型图像和 18k 相应的自然语言描述数据集,构建专门用于训练多模态大语言模型的 CAD 建模数据集,便于后续其他工作训练大模型生成 CAD 模型建模序列。

训练策略与细节

我们采用 LLaVA - 1.5 7B 版本作为基础模型。训练包括两个阶段:首先在 image2CAD 任务上进行训练,然后在 text2CAD 任务上降低学习率进行微调。此外,因 CAD 建模序列长度较长,我们基于外推法,通过超参调整,扩展 LLM 的窗口长度到 8192。

图 3. CAD-GPT 原理框架图

实验效果展示

图 4. CAD-GPT 生成的各种 CAD 模型展示

图 4 中的模型展示了包含精准语义草图生成能力(如心形和字母 “E”)、带有类别的 CAD 生成能力(如桌子、椅子和钥匙)、空间推理能力(如桌子和相互垂直的圆柱体),以及生成不同尺寸的相同模型的能力(如三个有两个圆孔的不同尺寸连接器)。

基于单张图片的生成效果

将 CAD-GPT 与三种代表性方法进行了比较。第一个是 DeepCAD,它演示了 CAD 建模中的先进生成技术。第二个是 GPT-4,代表了闭源多模态大型模型的前沿。第三个是 Qwen2-VL-Max,这是领先的开源多模态大型模型之一。相比之下,CAD-GPT 产生的输出既准确又美观。

图 5. 基于图片的 CAD 生成效果对比

基于一句话描述生成效果展示

本文选择了两个有代表性的大型语言模型:领先的闭源模型 GPT-4 和最先进的开源模型 LLaMA-3.1(405B)。如图 6 所示,我们的模型始终生成高精度、美观的输出,并且展示出了与文本描述对应的语义信息。

图 6. 基于文本描述的 CAD 生成效果对比

消融实验

图 7 展示了是否添加 3D 建模空间定位机制训练模型的差异。如图所示,添加定位机制后,CAD-GPT 可以精准的推理空间角度、位置变化,以及生成准确的 2D 草图。

图 7. 消融实验效果展示

总结

本文提出 CAD-GPT,一种具有三维建模空间定位机制的多模态大模型,以提高空间推理能力。所提出模型擅长推断草图 3D 方向的变化、3D 空间位置的变化,并准确渲染 2D 草图。利用这些功能,CAD-GPT 在单张图像和文本输入条件下生成精确 CAD 模型方面表现出卓越的性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈家四兄弟分属国共两军,有人当将军有当元帅,可他们从没红过脸

陈家四兄弟分属国共两军,有人当将军有当元帅,可他们从没红过脸

莹莹的历史说
2026-06-14 00:31:52
全球拒接奥运,奥委会关注中国,中方回应2036台北见

全球拒接奥运,奥委会关注中国,中方回应2036台北见

烟雨洛神生
2026-06-23 22:54:59
北大武大赴泰招生每月补贴3500,国内孩子学费却在涨,引全民热议

北大武大赴泰招生每月补贴3500,国内孩子学费却在涨,引全民热议

今朝牛马
2026-06-23 17:27:37
特朗普:打赢委内瑞拉只用了48分钟,通过出售从那里运出的数百万桶石油赚了很多钱,完全收回战争成本,回报率28倍以上

特朗普:打赢委内瑞拉只用了48分钟,通过出售从那里运出的数百万桶石油赚了很多钱,完全收回战争成本,回报率28倍以上

极目新闻
2026-06-24 12:12:36
随着韩国0-1大爆冷,2组大结局,最新晋级形势大反转:7队出局!

随着韩国0-1大爆冷,2组大结局,最新晋级形势大反转:7队出局!

大秦壁虎白话体育
2026-06-25 11:06:32
录个综艺被缠12年!她吃剩的饭都发黑碳化了,那家人还当宝供着

录个综艺被缠12年!她吃剩的饭都发黑碳化了,那家人还当宝供着

吃青菜长高
2026-06-23 11:55:23
特朗普终于动了,称已经指示相关机构做好准备,迅速展开援助行动

特朗普终于动了,称已经指示相关机构做好准备,迅速展开援助行动

三叔的装备空间
2026-06-25 22:54:24
48%恐怖命中率!U17男篮两连胜欧洲劲旅 16岁新星令人期待?

48%恐怖命中率!U17男篮两连胜欧洲劲旅 16岁新星令人期待?

你看球呢
2026-06-25 11:51:45
莫雷托:阿尔瓦雷斯不想回英超也不想去巴黎,他只想加盟巴萨

莫雷托:阿尔瓦雷斯不想回英超也不想去巴黎,他只想加盟巴萨

懂球帝
2026-06-25 01:28:08
克宫:必须追究基辅政权的法律责任

克宫:必须追究基辅政权的法律责任

俄罗斯卫星通讯社
2026-06-25 15:17:19
荆轲是战国著名剑术家,与秦王一对一交手却挨了八剑,到底啥原因

荆轲是战国著名剑术家,与秦王一对一交手却挨了八剑,到底啥原因

小豫讲故事
2026-06-24 06:00:15
晚间利好!多家公司公告,签大单

晚间利好!多家公司公告,签大单

数据宝
2026-06-25 01:04:38
李炎哲点赞加盟广东流言!朱芳雨回购徐昕消息,杜锋续约年限曝光

李炎哲点赞加盟广东流言!朱芳雨回购徐昕消息,杜锋续约年限曝光

多特体育说
2026-06-25 10:56:15
到儿子家住睡沙发,阳台门一连三天半夜敞开,查明原因我迅速离开

到儿子家住睡沙发,阳台门一连三天半夜敞开,查明原因我迅速离开

惟来
2026-06-24 14:59:46
巴西胜苏格兰锁定小组第一!安切洛蒂5大高招太出彩 日本队要小心

巴西胜苏格兰锁定小组第一!安切洛蒂5大高招太出彩 日本队要小心

杨仔述
2026-06-25 08:42:34
恋情升温!她要求私密观看,他大方展示

恋情升温!她要求私密观看,他大方展示

热搜摘要官
2026-06-23 01:03:42
外国人对中国烟是怎么评价 看完网友讲述感觉这么多年烟都白抽了

外国人对中国烟是怎么评价 看完网友讲述感觉这么多年烟都白抽了

侃神评故事
2026-06-23 16:47:22
普京:乌克兰是前线撑不住才打俄本土

普京:乌克兰是前线撑不住才打俄本土

桂系007
2026-06-23 23:10:03
苹果官网Apple Store突然维护:iPhone可能要涨价了

苹果官网Apple Store突然维护:iPhone可能要涨价了

快科技
2026-06-25 21:16:21
违规向非高标农田项目放贷110亿,中国农业银行“玩大了”!

违规向非高标农田项目放贷110亿,中国农业银行“玩大了”!

新浪财经
2026-06-25 19:09:53
2026-06-25 23:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13360文章数 142682关注度
往期回顾 全部

科技要闻

存储成本压力山大!苹果罕见全球提价

头条要闻

男子徒手抓蛇被咬还淡定合影 结果历经4次抢救两进ICU

头条要闻

男子徒手抓蛇被咬还淡定合影 结果历经4次抢救两进ICU

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

艺术
教育
本地
公开课
军事航空

艺术要闻

税务局大楼能是这样?5个立方体扭40度,高171米!

教育要闻

暑假不补课,补“学习力”——为什么说暑假是ADHD孩子能力提升的最佳窗口?

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:现在到了关注朝鲜问题的时候了

无障碍浏览 进入关怀版