网易首页 > 网易号 > 正文 申请入驻

西湖大学解锁AI新角色:基建工程师,火箭桥梁都能造!

0
分享至

“让人类能够逐渐飞向太空并殖民太空一直是我的梦想。未来的人类,能否给 AI 任何一个目标,AI 就能设计并制造出满足这个功能的机器?例如火箭、飞船、火星车等?”近日,西湖大学特聘研究员吴泰霖表示。为了更加接近这个目标,他和团队提出一款名为 BuildArena 的基准测试,能让大模型智能体直接根据类似于“造一个机器使得其飞得越高越好”目标,在物理仿真环境中从零开始设计、搭建并运行火箭、车辆与桥梁等机械结构。

吴泰霖告诉 DeepTech,在火箭任务中,少部分模型能够单体建造或分步组装出推重比大于 1 的、构造对称的、可垂直升空的多引擎火箭;


图 | 火箭模型(建造过程:Grok 4)(来源:https://github.com)

在交通任务中,面对“移动一个货物”这样的模糊指令,模型能自主构建出符合运输货物尺寸的具备差速转向的多轮车辆;


图 | 车辆模型(建造过程:Kimi-K2)(来源:https://github.co)

在桥梁任务中,模型能够建造出满足跨度要求的桥梁结构,并展现出了桁架结构等现实中存在的力学结构。


图 | 桥梁模型(建造过程:Grok 4)(来源:https://github.com)

据介绍,BuildArena 的初衷旨在推动 AI 智能体技术在工程建设领域的发展,让 AI 开始在物理世界进行建造,而不仅仅是对话。基于 BuildArena 该团队首次实现了“从自然语言、到设计方案、到工程图纸、到三维结构”的完整闭环,并在实时仿真环境中完成了验证,即已能独立建造出可以运行的车辆、火箭和桥梁。据他们所知,这是第一个让大模型能够通过自然语言指令来执行三维结构建造、并能在物理约束环境中评估其性能的基准测试。该团队在一篇博客中写道,BuildArena 是第一个为语言驱动的工程建设所设计的物理一致的交互式基准,也是第一个在统一框架之内可以全面解决空间推理、三维构建、实现以构建为目标的规划、实现物理模拟和交互环境的基准测试。


(来源:https://github.com/AI4Science-WestlakeU/BuildArena/)

据介绍,BuildArena 累计包含四个核心组件。

第一个核心组件是开源的三维空间几何计算库,这款三维空间几何计算库能够通过自然语言结构与构建空间进行交互,确保基于语言的操作与物理结果之间的一致性。对于 BuildArena 来说,建造——在本质上是一个迭代的过程:既需要逐步组装结构,还需要让每个组件与现有组件连接,更需要持续地验证物理可行性。

第二个核心组件是基准工作流程,它受启发于人类工程学实践,由“计划器”“起草人”“审阅者”“建造者”“指导”这五个专门的实体协同工作。基准工作流程可被分为三个阶段:规划阶段、草案评审循环阶段、构建指导循环阶段,最终能够生成与仿真兼容的构建结果。

第三个核心组件是基于模拟的评估,所构建的结果会在 Besiege 物理模拟器中采用特定任务协议进行评估。需要说明的是,Besiege 是一款流行的建造沙盒游戏,具有逼真的物理模拟能力,并已被多次证明符合人类的物理直觉。研究中,本次团队对于每个任务对都会进行 64 次采样以便确保可靠性,所涉及的评估指标涵盖性能和成本等。

第四个核心组件是任务套件,它分为基础版和可定制版。在相关论文之中,研究人员列举了几个有代表性的工程任务类别,每个工程任务类别都包含简单、中等、困难等三个等级。

实验中,该团队希望回答以下两个问题:首先,BuildArena 能否作为测试大模型建造能力的有效基准?其次,现有主流模型在 BuildArena 框架内的表现如何?为此,在 BuildArena 上该团队评估了八个模型,它们分别是 GPT-4o、Claude-4、Grok-4、Gemini-2.0、DeepSeek-3.1、Qwen-3、Kimi-K2 和 Seed-1.6,评估涵盖了三个任务类别和三个难度等级,每个任务类别在三个难度级别之下的成功率取不同模型表现的平均值。

吴泰霖回忆称:在交通任务中,在一些建造结果之中模型加入了水炮,试图使用其推力驱动载具或实现转向;有的模型在载具上安装了两组移动方向正交的轮子,以期实现斜向移动。在桥梁任务中,部分模型舍弃了桥梁构造而是使用单个柱状结构实现支撑;或在桥梁和地面搭接的边缘添加车轮,并明确指出“利用车轮的自动刹车阻尼来稳定桥梁和地面的连接”。而在火箭任务中,出现了模型将四台发动机竖向十字形放置成飞船形状的尝试。“虽然发动机本身由于建造错误火炬没有加热到水炮,不过这些初步证明大模型具备一定的创意能力,同时多数建造结果都比较符合人类常规预期。”他表示。


(来源:https://github.com/AI4Science-WestlakeU/BuildArena/)

通过研究,他们得到以下发现:

首先,大模型完全可以进行语言驱动的三维构建,上述 8 款大模型均能完成多个难度级别的构建任务,这证明大模型可以将自然语言转化为物理上可行的三维结构。

其次,不同模型的性能差异较大。Grok-4 的整体性能最强,在精度和鲁棒性方面表现最为出色。其他多数模型都能很好地处理量级和模糊性,但是在精度和组合性上表现不佳。

再次,大模型展现出创造性地解决问题的能力。当明确性约束被放宽的时候,大模型能够提出非常规的解决方案,例如提出了打造用于运输任务的推进动力载体的方案,以及提出了利用自动制动方法进行稳定的轮式桥梁结构。

另外,可以捕获现实世界的工程知识。大模型构建的结构反映了现实世界的实践,例如桥梁中的钢桁架和车辆中的差速转向等,这表明从文本中学习的结构概念带有隐含的空间信息。

此外,多数大模型仍然存在重大限制。在分层组装任务和高精度任务中,多数大模型的成功率出现急剧下降。除了 Grok-4 之外,大多数模型在最高难度级别下完全失败,这表明多数大模型在组合构建和精确空间对齐方面依然存在一定挑战。

最后,更多 tokens 不等于更好的性能。本次研究的成本分析表明,大规模推理并不能保证高性能。最佳构建结果一般只消耗适量的 tokens,而多次失败的尝试则会导致大量 tokens 的使用。当超过能力阈值之后,额外的推理成本并不会转化为更好的结果。


图 | 吴泰霖(来源:吴泰霖)

众所周知,现实中工程设计需考虑材料强度、空气动力学等复杂物理约束。那么,目前的仿真环境是否足以覆盖这些现实复杂性?对此,吴泰霖告诉 DeepTech:“我们所提出的是一个 pipeline,而并不追求工业级仿真精度,仿真部分主要用于验证结构的性能表现。”

他继续说道,在建造环节,他们引入了严格的 Physics-Aligned 约束机制,其遵循一个最基础但关键的物理原则:任何部件之间不允许重叠或空间冲突。每一次连接操作都会经过几何与碰撞检测,若发生冲突则会被系统拒绝,并即时返回反馈。这一约束使语言模型的构造行为始终保持“物理可行性”,并让其在连续反馈中学习空间推理。因此,BuildArena 这种 Physics-Aligned 建造流程可以被直接迁移到更高精度的仿真或现实验证环境中。仿真精度影响的是性能评估,但建造逻辑本身是通用且严格受物理约束的。当然,现实世界的物理约束会更加复杂,这也是 BuildArena 未来的提升方向之一。

实验结果显示,目前现有的大模型在工程能力等六个重要维度还有很大的提升空间。目前大语言模型关于世界的知识如此多,却不能充分了解现实世界是如何建造的。总的来说,他们为“语言”与“物理”架设了桥梁,第一次让大模型走向“AI 工程师”角色的探索。BuildArena 的首要意义就是填补目前尚无能为工程建设 LLM agents 发展进步提供落脚点的空白,给社区提供了一个能够检验 AI 工程师并且提供 insight 的试验田。未来,他们希望可以更进一步完善 BuildArena 的通用性和易用性,争取做到让每一个人只需改变最开始的目标,就能设计并建造出能够满足相关功能的机器。

另据悉,吴泰霖 2012 年于北京大学获得学士学位,2019 年获得美国麻省理工学院博士学位,后在美国斯坦福大学从事博士后研究。2023 年,吴泰霖正式加入西湖大学并创建西湖大学人工智能与科学仿真发现实验室。其研究方向为 AI for Science,具体研究生成模型及与能源和生命科学中仿真和控制的深度结合。

参考资料:

项目主页 build-arena.github.io

代码仓库 github.com/AI4Science-WestlakeU/BuildArena

文章链接 github.com/AI4Science-WestlakeU/BuildArena/blob/main/BuildArena.pdf

人物主页 https://www.westlake.edu.cn/faculty/tailin-wu.html

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赵心童卫冕首战即陷"魔咒":21人试过,0人成功

赵心童卫冕首战即陷"魔咒":21人试过,0人成功

篮坛第一线
2026-04-10 12:08:11
开路虎加油逃单后续:正脸曝光已死,身份被扒还是惯犯,警方介入

开路虎加油逃单后续:正脸曝光已死,身份被扒还是惯犯,警方介入

潮鹿逐梦
2026-04-10 12:03:49
CBA11队正式锁定季后赛!6队争第3,6队争第12,广东赛程轻松

CBA11队正式锁定季后赛!6队争第3,6队争第12,广东赛程轻松

老吴说体育
2026-04-10 23:34:42
王浅秋发声!郑丽文收获满满,获一边倒力挺,卢秀燕改口有深意!

王浅秋发声!郑丽文收获满满,获一边倒力挺,卢秀燕改口有深意!

相思赋予谁a
2026-04-09 15:15:33
西蒙尼再次证明:他就是所有英超豪门都该抢的顶级主帅

西蒙尼再次证明:他就是所有英超豪门都该抢的顶级主帅

夜白侃球
2026-04-10 09:14:49
打破越南历史惯例,苏林时代权力格局已定,对中国意味着什么?

打破越南历史惯例,苏林时代权力格局已定,对中国意味着什么?

湘评中外
2026-04-10 17:16:52
52岁北京炒股冠军只做"涨停回调",从20万做到360万,从未被套过

52岁北京炒股冠军只做"涨停回调",从20万做到360万,从未被套过

股经纵横谈
2026-04-02 17:03:19
川普“分而治之”大师课:伊朗已无中央政府,停火只是表象

川普“分而治之”大师课:伊朗已无中央政府,停火只是表象

斌闻天下
2026-04-10 06:50:03
全是演员!事发上海闹市区,网友怒了:太缺德!

全是演员!事发上海闹市区,网友怒了:太缺德!

深圳晚报
2026-04-09 23:07:22
江苏一男子称还款5年一直未见合同,提前还款才发现房贷利率从3.8%变成8.7%,银行客服:正抓紧核实,会妥善处理

江苏一男子称还款5年一直未见合同,提前还款才发现房贷利率从3.8%变成8.7%,银行客服:正抓紧核实,会妥善处理

大象新闻
2026-04-10 20:44:05
郑丽文直言不讳:中国就是我们的国家,解放军就是我们的坚强后盾

郑丽文直言不讳:中国就是我们的国家,解放军就是我们的坚强后盾

小熊看国际
2026-04-10 12:29:18
共和党人承认:由于特朗普发起的战争,几乎坐实了中期选举会落败

共和党人承认:由于特朗普发起的战争,几乎坐实了中期选举会落败

明天后天大后天
2026-04-11 01:49:20
天生坏种?女子用自己名字开卤菜店,被索赔50万!说她店名侵权

天生坏种?女子用自己名字开卤菜店,被索赔50万!说她店名侵权

阿纂看事
2026-04-10 16:42:33
4月10日俄乌:“无人机防线”夺回主动权

4月10日俄乌:“无人机防线”夺回主动权

山河路口
2026-04-10 18:17:42
莫言:告诉你一个基本不会得罪人的方法,那就是当别人找你帮忙时,你一定要痛痛快快地拒绝,犹犹豫豫地同意

莫言:告诉你一个基本不会得罪人的方法,那就是当别人找你帮忙时,你一定要痛痛快快地拒绝,犹犹豫豫地同意

每日一首古诗词
2026-04-09 06:06:47
退圈女星自曝,被注射不明物质,不听话就头疼,秦岚也被牵连其中

退圈女星自曝,被注射不明物质,不听话就头疼,秦岚也被牵连其中

阿纂看事
2026-04-10 14:27:16
全红婵群内被骂果断报警!周继红霸气护犊:管你是谁依法办!

全红婵群内被骂果断报警!周继红霸气护犊:管你是谁依法办!

不似少年游
2026-04-09 17:13:43
抢在郑丽文返台前,解放军定调统一,长鹰8升空,航程超三千公里

抢在郑丽文返台前,解放军定调统一,长鹰8升空,航程超三千公里

影孖看世界
2026-04-10 23:09:08
比亚迪再掀价格战:8.98万续航2110km,合资车彻底慌了

比亚迪再掀价格战:8.98万续航2110km,合资车彻底慌了

华庭讲美食
2026-04-10 17:03:23
广东大胜横扫吉林升第四:奎因29+7+7 杜润旺20+4三分赛季新高

广东大胜横扫吉林升第四:奎因29+7+7 杜润旺20+4三分赛季新高

醉卧浮生
2026-04-10 21:09:24
2026-04-11 04:00:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16563文章数 514859关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

李强主持召开经济形势专家和企业家座谈会

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

教育
本地
时尚
手机
公开课

教育要闻

2026年最具“性价比”的4个专业,本科就业率高,考研容易上岸!

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

今日热点:陈添祥长文道歉;夏克立曾给前经纪人传上厕所照片……

手机要闻

OPPO Find X9s Pro配色公布,全面登陆“锁屏岛”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版