网易首页 > 网易号 > 正文 申请入驻

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文第一作者为上海科技大学信息学院硕士生徐京伟和忆生科技的王晨宇,指导老师为香港大学的马毅教授和高盛华教授。王晨宇毕业于上海科技大学并获得工学硕士学位。其所在的忆生科技由马毅教授于 23 年底创立,致力于打造完整、自主、自洽的机器智能系统。

该项目由忆生科技联合香港大学、上海科技大学共同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。

计算机辅助设计(Computer-Aided Design,简称 CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前的 CAD 软件普遍缺乏简易的交互工具,这在一定程度上限制了未曾接触过 CAD 的用户尝试和探索的可能性。对于 CAD 建模从业者而言,多模态大模型技术的快速发展尚未充分转化为 CAD 领域实际应用的便利性和效率提升。如果能够通过多模态交互工具有效优化建模流程,提升效率、节约时间与精力,不仅可以进一步释放专业用户的创造潜能,还将为相关产业的发展注入新的活力。

为应对这一挑战,项目团队构建了首个覆盖文本、图像和点云输入的多模态 CAD 数据集 Omni-CAD。该数据集致力于赋能多模态大语言模型,使其能够基于条件输入生成高质量的 CAD 模型。与此同时,针对 CAD 模型的拓扑质量、空间封闭性等核心属性,团队还设计了一系列创新的评估指标,为模型性能提供更全面的衡量标准。借助这一技术,用户只需输入简单的文本指令,或上传目标形状的图像,即可快速生成符合要求的 CAD 模型。这一突破不仅降低了非专业用户的使用门槛,激发了更多人参与 CAD 设计的兴趣,还为 CAD 建模从业者提供了高效可靠的工具支持。

  • 论文标题:CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM
  • 论文地址:https://arxiv.org/pdf/2411.04954
  • 项目主页:https://cad-mllm.github.io/

研究背景计算机辅助设计(CAD)技术通过数字化工具,帮助设计师创建、修改和优化复杂对象,广泛应用于工业设计与制造。但传统的流程较为复杂,对专业知识有较高要求,导致非专业用户难以参与设计。如何降低使用门槛,让非专业人士通过简单指令完成设计构想,已成为该领域亟待解决的挑战之一。尽管之前一些工作已经在探索 CAD 的生成任务,但这些方法抑或难以满足用户对交互设计的需求,抑或只能针对特定的输入进行生成,因此我们希望提供一个统一的框架能够处理不同或多种输入条件的 CAD 生成任务。

而另一方面,尽管多模态大模型(MLLMs)展现了跨模态生成的潜力,但在 CAD 领域依然面临挑战。尤其是在如何高效表征各种模态和 CAD 模型上,同时,数据集匮乏问题也一直是一大瓶颈。因此,我们提出了 CAD-MLLM,首个支持文本、图像和点云三种模态及其组合模态输入的以命令序列来表征的参数化 CAD 大模型,并搭配构建了一个超过 45 万条数据的多模态 CAD 数据集 Omni-CAD,推进该领域的研究。

技术创新

1. 首个支持多模态输入的参数化 CAD 生成多模态大模型

我们提出了一个能够同时处理文本、图像和点云,最多三种模态输入数据的模型。图像和点云输入首先通过一个冻结的编码器提取特征,经投影层对齐到大语言模型(LLM)的特征空间。随后,将各种模态的特征进行整合,并利用低秩适应(LoRA)对 LLM 进行微调,实现基于多模态输入数据的精确 CAD 模型生成。

2. 首个多模态 CAD 数据集

为了支持模型训练,我们设计了一套全面的数据构造和标注管道,构建了包含 45 万条的多模态 CAD 模型数据集 Omni-CAD。每条数据包含对应的 CAD 模型构造命令序列,以及文本描述、8 个不同视角的图像(下图随机挑其中 4 个视角展示)以及点云数据,极大地填补了 CAD 多模态数据资源的空白,也有助于推动 CAD 生成领域的进一步发展。

3. 评估指标

在评估指标上,之前的工作更多聚焦在模型的重建质量和结构保真度上,而我们针对 CAD 模型的特性,基于最终生成的 CAD 模型的拓扑质量和空间封闭性,创新性地提出了四种量化指标。其中,Segment Error(SegE)检测 CAD 模型节点连接分段的准确性,Dangling Edge Length (DangEL) 评估悬边的比例来衡量生成模型流形的保真度,Self-Intersection Ratio (SIR) 检测生成模型中的自相交面问题。而 Flux Enclosure Error (FluxEE) 则通过高斯散度原理,计算常矢量场穿过生成表面的通量,评估模型的空间封闭性。

性能评估

1. 基于点云的 CAD 模型生成性能

我们与多个点云重建或者基于点云生成的基准工作进行比较,评测结果展示出我们的方法在重建精度上表现出色。而在拓扑完整性的评估上,我们模型生成的 CAD 模型大多数生成结果都能保持严格的流形结构,没有出现悬边,具有较高的拓扑完整性。相比之下,基准模型在重建结果中往往存在许多悬空边缘(如图中蓝线所示)。

2. 鲁棒性测评

在基于点云生成 CAD 模型的比较实验中,我们针对两种受干扰的输入数据的情况进行了测评:添加噪声的点云数据及部分点缺失的点云数据。在从测试集中随机挑选的 1000 个样本上,使用 Chamfer Distance 来衡量生成结果,在两种情况下,CAD-MLLM 的性能均优于基线工作,特别是在一些极端条件下,依然展现出了良好的性能。

3. 多模态数据训练必要性测评

我们通过三个实际场景来展示多模态数据训练对于模型生成能力的辅助提升,1)裁剪的点云数据;2)带有噪声的点云数据;3)双视角图像输入。以上三种情况,单一模态数据的训练,会由于细节丢失或者视角限制使得输入信息的不准确,进而导致生成结果的不完整或者不精准,而加入完整的模型的文本描述,可有效弥补未观测到的部分,生成更为完整、精确的 CAD 模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
尼日利亚发生大规模绑架事件 超150人被绑架

尼日利亚发生大规模绑架事件 超150人被绑架

财联社
2026-04-05 03:43:07
全力营救F-15飞行员,川普不一样,谁制造了美军神话?

全力营救F-15飞行员,川普不一样,谁制造了美军神话?

移光幻影
2026-04-04 13:26:02
随着拜仁3-2,勒沃库森6-3,美因茨2-1,德甲最新积分榜出炉

随着拜仁3-2,勒沃库森6-3,美因茨2-1,德甲最新积分榜出炉

侧身凌空斩
2026-04-05 00:24:18
伊朗:霍尔木兹海峡收费分5级 年收超千亿美元!

伊朗:霍尔木兹海峡收费分5级 年收超千亿美元!

新浪财经
2026-04-04 13:31:15
四川大学砍掉39个本科专业

四川大学砍掉39个本科专业

第一财经资讯
2026-04-03 20:33:57
1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

阿校谈史
2026-03-20 11:03:27
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
大结局要来了!伊朗憋了一个月的大招,终于放出来!不是核弹,却比核弹还狠!

大结局要来了!伊朗憋了一个月的大招,终于放出来!不是核弹,却比核弹还狠!

喀秋莎大世界
2026-04-03 22:17:35
火不过半年!网红城市轮番登场又凉凉,到底缺了啥硬实力?

火不过半年!网红城市轮番登场又凉凉,到底缺了啥硬实力?

青眼财经
2026-04-03 23:08:35
台湾老兵带妻子回大陆见原配,苦等50年相谈1小时,原配:无话说

台湾老兵带妻子回大陆见原配,苦等50年相谈1小时,原配:无话说

云霄纪史观
2026-04-03 16:15:36
伊朗布什尔核电站再遭袭,伊朗发动第94波打击;以军称伊朗发射集束弹头导弹,击中以中部多地致住宅受损

伊朗布什尔核电站再遭袭,伊朗发动第94波打击;以军称伊朗发射集束弹头导弹,击中以中部多地致住宅受损

每日经济新闻
2026-04-04 20:41:57
抽签后摩根曾说阿森纳抽到好签,被南安普顿官方“挖坟”

抽签后摩根曾说阿森纳抽到好签,被南安普顿官方“挖坟”

懂球帝
2026-04-05 06:53:42
1985年王景清探监江青,江青淡淡地说了句:李银桥夫妇办了件好事

1985年王景清探监江青,江青淡淡地说了句:李银桥夫妇办了件好事

鉴史录
2026-04-02 01:50:03
上海交通大学,宣布任免

上海交通大学,宣布任免

双一流高校
2026-04-05 00:10:52
霍英东二太冯坚妮95岁寿辰,四世同堂享福寿

霍英东二太冯坚妮95岁寿辰,四世同堂享福寿

风信子的花
2026-04-04 22:29:56
美军伊战以来最落魄的24小时:“攻击鹰”和“疣猪”坠毁,“黑鹰”受伤

美军伊战以来最落魄的24小时:“攻击鹰”和“疣猪”坠毁,“黑鹰”受伤

红星新闻
2026-04-04 13:19:21
比“缺芯”还严重?90%市场被美日垄断,中国连山寨版都造不出!

比“缺芯”还严重?90%市场被美日垄断,中国连山寨版都造不出!

南权先生
2026-04-04 05:15:03
皇马输球元凶找到了!3 大核心集体摆烂,巨星亲手送球队翻车

皇马输球元凶找到了!3 大核心集体摆烂,巨星亲手送球队翻车

奶盖熊本熊
2026-04-05 03:21:05
小宝与王某雷,谁探访花的数量更多?

小宝与王某雷,谁探访花的数量更多?

挪威森林
2026-01-31 12:15:26
拉锯战触发特殊赛制!王曼昱4-2力克日本削球名将 晋级世界杯四强

拉锯战触发特殊赛制!王曼昱4-2力克日本削球名将 晋级世界杯四强

小徐讲八卦
2026-04-05 06:04:32
2026-04-05 07:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12681文章数 142612关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

特朗普发布视频宣称“打死多名伊朗军事领导人”

头条要闻

特朗普发布视频宣称“打死多名伊朗军事领导人”

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

Q女士反击,否认逼宋宁峰张婉婷离婚

财经要闻

中微董事长,给半导体泼点冷水

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

时尚
手机
亲子
家居
游戏

别再穿大一码了!遮肉根本不是靠宽松

手机要闻

小米MIX系列主攻折叠屏赛道:这就是小米最顶级旗舰

亲子要闻

优生优育,从科学孕前准备开始

家居要闻

温馨多元 爱的具象化

好玩还上头!创新与传统并存的战棋黑马《永铃回响》值不值得玩?

无障碍浏览 进入关怀版