网易首页 > 网易号 > 正文 申请入驻

香港中文大学突破:让AI像真正的工程师一样设计机器

0
分享至

这项由香港中文大学(深圳)的张文谦、刘振和香港中文大学的刘伟阳共同领导的研究发表于2024年10月,感兴趣的读者可以通过arXiv:2510.14980v1查询完整论文。

想象一下,如果你能向AI描述"我需要一台能投掷石块的机器",然后AI就像一个真正的工程师一样,从零开始设计出一台工作正常的投石机——这不是科幻小说,而是这项研究正在探索的前沿领域。

从古希腊人制造安提基特拉机械装置预测日食,到达·芬奇设想飞行机器,人类一直通过设计和制造机器来推进文明。如今,大语言模型在许多认知任务上已经接近甚至超越人类表现,这让研究者们思考一个令人兴奋的问题:计算机模型能否像人类一样构思和创造复杂的机器来实现特定目标?

研究团队发现,现有的AI系统虽然能够合成3D形状和生成CAD模型,但真正的挑战在于创造复杂的组合结构——就像时钟由简单的齿轮和飞轮组合而成,但同样的元件以不同方式组合又能创造出完全不同的机器,比如缝纫机。这种"组合性"正是机器设计的核心:组合被功能需求塑造,而功能需求又通过组合来实现。

一、BesiegeField:AI的机器设计实验室

为了让AI学习机器设计,研究团队创建了一个名为BesiegeField的特殊环境,这就像为AI搭建了一个虚拟的工程师工作间。这个环境基于一款名为Besiege的物理建造游戏,玩家在游戏中需要用各种机械零件设计中世纪战争机器来完成摧毁城堡等任务。

BesiegeField提供了近80种不同的建造模块,从被动零件(如钻头和木料)到动力零件(如动力齿轮和轮子)应有尽有。机器的建造遵循简单而现实的规则:从一个起始块开始,通过将新零件依次连接到现有零件的可附着表面来构建机器,形成一个"建造树"。动力零件可以接收控制指令,让机器精确运行。在物理模拟过程中,系统会记录每个零件的完整状态信息,为AI提供反馈。

这个环境巧妙地平衡了现实世界的几何和物理特性、零件层面的语义意义,以及简单的组合规则。相比于积木堆叠环境(如乐高或我的世界),BesiegeField提供了现实的物理模拟和具有明确功能意义的零件。相比于CAD建模的复杂性,BesiegeField使用立方体式的建造规则,既支持现实物理,又保持了足够的抽象性,使得组合过程易于处理。

二、让AI当工程师:多智能体设计流程

研究团队设计了三种不同的AI工作流程来测试机器设计能力。第一种是单智能体设置,让一个AI代理独自完成整个设计任务。AI需要理解环境描述、可用机械零件、组装语法和功能需求,然后生成思维链来推理需要什么以及为什么需要,最后将抽象计划转化为具体的建造树。

然而,组合机器设计既需要低层次的空间推理,又需要高层次的构思,单个代理很难产生满意的机器。因此,研究团队设计了迭代编辑工作流程,包含三个主要角色:设计师负责根据需求产生初始计划,精炼师作为自我批评代理评估草案并提出多个修订候选方案,环境查询器运行机器模拟并总结环境反馈。

工作流程从设计师的草案开始,然后由检查员以抽象方式评估设计,接着由精炼师进行改进。设计会经历固定次数的迭代,每次包含一个查询器步骤和一个精炼师步骤。在精炼阶段,系统会生成多个候选方案并运行蒙特卡罗树搜索,选择最佳设计作为输出。

第三种方法是分层建造,灵感来自典型的人类设计过程。元设计师首先分析需求和约束,构建主要功能模块的高层蓝图及其相互连接。有了这个蓝图,系统采用自回归策略逐块建造机器:从第一个功能块开始,将任务分配给八个并行的建造代理,然后将有效设计平均分配给另外八个建造代理来构建第二个块,如此迭代直到整台机器组装完成。

三、AI设计师的考试:汽车与投石机挑战

为了测试AI的机器设计能力,研究团队选择了两个概念简单但具代表性的目标机器:汽车和投石机。这两个任务虽然都需要理解零件语义和结构语法,但重点不同。汽车建造主要测试静态关系推理,如确保零件方向正确、保持对称性和稳定性。相比之下,投石机建造挑战动态关系推理,零件必须随时间协调以产生因果机械效果。

两个任务都简单到只需要几个零件就能构建,可以在AI的上下文窗口内处理,但又足够复杂,需要明确推理建造策略和因果依赖关系。评估汽车和投石机的性能分别通过它们的行驶距离和投掷距离(即石头的移动距离)来衡量。

研究团队使用多个定量指标来评估智能体系统:文件有效率(生成的JSON文件能够成功解析为机器建造树的比例),空间有效率(生成的机器没有自碰撞的比例),机器有效率(同时满足文件和空间有效性的机器比例),以及平均和最大模拟分数(在环境中获得的平均和最高奖励)。

四、AI工程师的真实表现

研究结果显示,组合机器设计对AI来说确实是一个具有挑战性的任务,尽管并非不可解决。Gemini 2.5 Pro能够持续构建视觉上合理且性能不错的机器,但没有证据表明推理模型比非推理模型表现更好,这表明主要瓶颈在于AI有限的3D理解能力或上下文学习能力。

有趣的是,AI特别是推理模型仍然表现出一定的空间和物理推理能力,就像文本空间中的世界模型。然而,研究团队也识别出AI生成机器的常见失败模式:零件方向错误、零件位置错误(零件连接到错误的父级)、指令跟随失败(高层蓝图的元素没有被严格遵循),以及高层推理缺陷(AI无法识别正确的物理原理或基本组件)。

环境反馈被证明是有用的——代理接收的环境反馈越多,生成机器的整体性能通常越好。编辑历史也有助于减少创建有效机器时的失败尝试次数,这突出了基础模型更长上下文窗口对高效探索的重要性。

分层设计只有在蓝图抽象层推理可靠时才能改善平均性能,这从Gemini 2.5 Pro的表现可以看出。与直觉一致,分层设计作为更结构化和原则性的方法,通常会产生获得分数方差较小的结果。

五、通过强化学习提升AI设计能力

虽然智能体系统在组合机器设计方面显示出希望,但仅仅扩大系统规模不太可能是经济的解决方案,因为错误会快速累积。正如人类会内化经验一样,AI代理也应该将新知识整合到权重中。因此,研究团队探索了在BesiegeField中使用可验证奖励的强化学习来开发机器设计能力。

团队策划了一个小数据集来冷启动AI,方法是收集Besiege玩家社区的机器功能文本描述,并提示Gemini 2.5 Pro生成相应的机器。经过过滤无效生成后,他们获得了9,984个有效的机器-思维链配对。然后使用这个数据集对Qwen-2.5-14B-Instruct进行了12轮的监督微调。

强化学习实验采用了群体相对政策优化方法,使用LoRA参数化和混合精度训练来微调冷启动模型。研究团队评估了标准GRPO优势估计器和pass@k变体。每个实验在8个A100 GPU上运行400次迭代,每GPU批量大小为1,梯度累积为8,并应用强度为0.001的KL正则化。

结果显示,强化学习微调通常可以提高平均性能,主要通过增加机器有效性的百分比。同时,研究团队发现最大奖励在最佳设置中也有所增加。类似于许多其他RLVR设置的观察,即使有正则化,输出分布的熵也会快速下降。

六、从理想到现实:挑战与机遇

研究团队在实验过程中发现了一些有趣的现象。在微调过程中,模型通常会进行细节层面的调整,如移动零件位置,但保持相同的高层设计策略而不是探索替代策略。虽然这些策略往往是合理的,但模型很难找到能够使零件间顺畅协调的精确配置。这种精确性对于像投石机这样的复杂机制正常运行尤其重要。

不出所料,仅仅冷启动并不能让模型产生满意的设计,而在冷启动模型上进行微调比在基础模型上微调效果更好。Pass@k微调更可能发现有前景的机器设计,这对于最终关心最佳性能设计的情况尤其重要。

组合机器设计为AI能力引入了独特的需求。如果机器零件的空间放置不精确,设计可能无法正确运行——例如,如果齿轮未对齐,齿轮传动就无法传递旋转。由于设计过程通常是分层的,成功的AI必须能够准确地将高层蓝图转换为详细的几何设计。

机器设计涵盖概念层推理和详细规格说明,这种双重需求往往导致大型设计文档,需要通过文本表达的"视觉推理"形式,类似于AI应用于可缩放矢量图形和CAD模型中所研究的内容。多模态推理也很重要,因为有效的机器设计通常依赖于将文本描述与视觉或示意图表示相结合。

七、未来展望:AI工程师的进化之路

这项研究展现了AI在机器设计领域的巨大潜力,但也揭示了现有技术的局限性。当前最好的AI系统能够设计出功能性的机器,但距离人类工程师的创造力和精确度还有很大差距。特别是在需要精确空间推理和复杂物理理解的任务中,AI仍然面临挑战。

研究团队指出,与定理证明等任务不同(一个有效证明通常就足够了),设计领域通常需要生成多样化的候选解决方案集合。这种多样性对于产品差异化、适应不可预测的市场需求以及考虑现实世界测试和部署中的不确定性至关重要。因此,组合机器设计的AI模型应该更像生成模型而不是简单的奖励最大化器。

不过,这项研究的意义远不止于技术突破本身。在现实世界中,现代设计管道往往冗长且成本高昂,特别是在大规模项目中,每次迭代都需要大量资源。这些项目积累了大量文档和蓝图集合,使得追踪、检索或重用过去的设计工作变得困难。许多重要的专业知识都是在团队和世代之间非正式传递的,在许多情况下从未被完全记录并已被遗忘。

一个自动化的机器设计系统可以直接解决这些挑战。这样的系统不仅仅是模仿历史设计的模式,而应该具有智能体特性:能够探索指数级庞大的设计空间,利用先验知识为新需求和约束创造新颖设计,并通过反馈改进它们。

说到底,这项研究开启了一个令人兴奋的可能性:未来的AI不仅能理解和生成文本,还能像真正的工程师一样思考和创造。虽然我们距离AI完全取代人类设计师还很遥远,但这种技术可能会彻底改变设计流程,让工程师能够更快地探索设计空间,更容易地测试创新想法,最终推动整个工程领域的进步。对于普通人来说,这意味着未来我们可能会看到更多创新的产品和解决方案,因为AI能够帮助人类工程师突破传统思维的限制,探索前所未有的设计可能性。

Q&A

Q1:BesiegeField是什么?

A:BesiegeField是研究团队创建的AI机器设计训练环境,基于Besiege这款物理建造游戏开发。它提供了近80种机械零件,让AI能够像在虚拟工程师工作间一样学习设计和组装各种机器,并通过物理模拟测试机器的实际性能。

Q2:AI现在能独立设计出复杂机器吗?

A:目前还不能完全独立设计复杂机器。研究显示,最好的AI系统如Gemini 2.5 Pro能够设计出功能性的简单机器如汽车和投石机,但在需要精确空间推理和复杂物理理解的任务中仍面临挑战,距离人类工程师的创造力和精确度还有很大差距。

Q3:这项研究对普通人有什么实际意义?

A:这项研究可能会彻底改变未来的产品设计流程。虽然AI不会完全取代人类设计师,但能帮助工程师更快地探索设计方案,更容易测试创新想法。对普通人来说,这意味着未来可能会看到更多创新产品和解决方案,因为AI帮助突破了传统设计思维的限制。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2次!刻进DNA的恐惧!他被文班防到不敢投!

2次!刻进DNA的恐惧!他被文班防到不敢投!

柚子说球
2026-06-02 22:34:15
上海vs广厦总决赛G5时间已定!CCTV5直播,苏群指出上海一大隐患

上海vs广厦总决赛G5时间已定!CCTV5直播,苏群指出上海一大隐患

刘哥谈体育
2026-06-03 09:26:33
北欧海盗来了,哈兰德发布维京装束风格自拍为世界杯出征造势

北欧海盗来了,哈兰德发布维京装束风格自拍为世界杯出征造势

懂球帝
2026-06-02 20:28:06
“你儿子已经黑棘皮了”,家长晒半夜吃生西葫芦,过来人无奈提醒

“你儿子已经黑棘皮了”,家长晒半夜吃生西葫芦,过来人无奈提醒

熙熙说教
2026-06-02 19:10:18
U19国足被非洲球队横扫带来启示:业余球员赶紧转职业,职业球员尽量去欧洲

U19国足被非洲球队横扫带来启示:业余球员赶紧转职业,职业球员尽量去欧洲

文汇报
2026-06-03 04:12:09
珠峰一半在中国,一半在尼泊尔,为何全世界都默认是中国领地?

珠峰一半在中国,一半在尼泊尔,为何全世界都默认是中国领地?

抽象派大师
2026-06-01 02:00:38
饥荒饿死1/3人口、2.5万精英被处决:5月31日哈萨克在纪念什么

饥荒饿死1/3人口、2.5万精英被处决:5月31日哈萨克在纪念什么

卷史
2026-06-01 11:19:40
温州一男子瞒着家中待产妻子,下载“同城交友”App,客服声称“需完成刷单任务才能解锁约会权限”,累计被骗15.48万,其中15万为男子网贷

温州一男子瞒着家中待产妻子,下载“同城交友”App,客服声称“需完成刷单任务才能解锁约会权限”,累计被骗15.48万,其中15万为男子网贷

三湘都市报
2026-06-03 10:09:10
她是王洪文亲信,曾任上海市委书记,1982年被判了17年

她是王洪文亲信,曾任上海市委书记,1982年被判了17年

鉴史录
2026-06-02 15:15:51
越南:若晚五天撤退,谅山的守兵将被全部消灭,最后是啥结果

越南:若晚五天撤退,谅山的守兵将被全部消灭,最后是啥结果

磊子讲史
2026-01-22 10:53:33
俄乌网被禁言,就想知道谁给了它挑衅甚至辱骂中国网民的底气?

俄乌网被禁言,就想知道谁给了它挑衅甚至辱骂中国网民的底气?

壹家言
2026-06-02 11:25:28
总决赛前瞻:如果尼克斯夺冠,将彻底颠覆我对NBA的认知!

总决赛前瞻:如果尼克斯夺冠,将彻底颠覆我对NBA的认知!

野球帝
2026-06-03 11:41:24
上海一女子吐槽老公:每天在家躺着工资却比自己高倍

上海一女子吐槽老公:每天在家躺着工资却比自己高倍

周哥一影视
2026-06-03 09:26:02
疯狂的黄俄计划:80万东北土地、2千万东北人民,沙俄全想要?

疯狂的黄俄计划:80万东北土地、2千万东北人民,沙俄全想要?

鹤羽说个事
2026-05-28 23:03:03
文班今年10月球鞋合约到期!新合同金额引热议:空白支票随便填?

文班今年10月球鞋合约到期!新合同金额引热议:空白支票随便填?

罗说NBA
2026-06-03 08:59:19
杭州人吃了60年,新丰小吃,去年亏损近400万。大肉包、虾肉馄饨、喉口包子为什么卖不动了?

杭州人吃了60年,新丰小吃,去年亏损近400万。大肉包、虾肉馄饨、喉口包子为什么卖不动了?

都市快报橙柿互动
2026-06-02 22:47:52
马思纯自曝:“我现在很接受我的样子,我的丰满是我的优势”

马思纯自曝:“我现在很接受我的样子,我的丰满是我的优势”

韩小娱
2026-06-03 09:25:43
西安貌美女孩被前男友杀害,媒体的一句嫉妒无法触及犯罪本质

西安貌美女孩被前男友杀害,媒体的一句嫉妒无法触及犯罪本质

林中木白
2026-06-03 10:17:01
61球封神!凯恩叫板金球奖:除了梅西和C罗,没人踏进过这片领域

61球封神!凯恩叫板金球奖:除了梅西和C罗,没人踏进过这片领域

体育闲话说
2026-06-03 08:47:14
曝火箭也想挖雷霆墙角!两投手已成斯通目标:美媒模拟方案出卡皇

曝火箭也想挖雷霆墙角!两投手已成斯通目标:美媒模拟方案出卡皇

颜小白的篮球梦
2026-06-03 11:41:02
2026-06-03 12:20:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8614文章数 564关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

受贿数额特别巨大 内蒙古自治区政府原主席王莉霞被诉

头条要闻

受贿数额特别巨大 内蒙古自治区政府原主席王莉霞被诉

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

2030年之前 莲花还来得及

态度原创

家居
旅游
亲子
艺术
军事航空

家居要闻

江畔轻奢 观云大宅

旅游要闻

重庆这条老街,入选十大旅游街区却不在主城,还把摩天轮修在屋顶

亲子要闻

夏天给孩子开空调的正确步骤

艺术要闻

二十年前割麦的场景

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版