网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

大模型转行土木工程！首个「打灰人」评估基准：检验读、改工程图纸能力

2025-07-18 06:27:15　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：LRST

【新智元导读】首个工程自动化任务评估基准DrafterBench，可用于测试大语言模型在土木工程图纸修改任务中的表现。通过模拟真实工程命令，全面考察模型的结构化数据理解、工具调用、指令跟随和批判性推理能力，研究结果发现当前主流大模型虽有一定能力，但整体水平仍不足以满足工程一线需求。

在AI竞速的今天，大语言模型（LLM）早已不满足只在象牙塔里「背书解题」。

当GPT-4o刷题通过物理奥赛、DeepSeek熟练搭建网站之后，LLM必须直面一个更现实的问题：

这些号称「专家级」的大模型，能不能真的下工地？能不能帮工程打工人减负？在钢筋水泥的图纸世界里，它们是得力助手，还是纸上谈兵？

答案尚未揭晓，但DrafterBench迈出了评估的第一步。

来自加拿大麦吉尔大学AIS实验室的研究团队与加州大学圣芭芭拉分校（UCSB）合作，正式推出面向工程自动化任务的大模型评估基准——DrafterBench。

这是首个针对「一线工程图纸修改任务」设计的大规模评测套件，旨在验证和揭示现有LLMs能否胜任土木工程等领域中真实的「打工任务」。

论文链接：https://arxiv.org/abs/2507.11527

代码链接：https://github.com/Eason-Li-AIS/DrafterBench

数据链接：https://huggingface.co/datasets/Eason666/DrafterBench

为什么需要DrafterBench？

工程图纸修改，是土木工程、建筑设计等领域最耗时间、最高频的任务之一，也是自动化改造迫切程度极高的一环。

每天成千上万的一线工程师、制图员在重复地处理「改一根梁的位置」「把这根管道直径加粗一点」「为这个构件增加标注」这类十分琐碎但又关系重大的任务。

这类工作往往工作量大、标准高、容错低，但技术门槛不高，对工作者在「任务理解、细节处理、任务链配合」方面的综合执行力要求极强。

于是研究团队提出问题：

如果大模型能读懂图纸指令，调用工具链，精确修改图元，它就不只是「写PPT的高手」，更是「工程打工人福音」。

DrafterBench怎么做的？

DrafterBench以图纸修改为核心任务，在20个真实项目中收集并设计了1920个高质量任务，涵盖12类指令类型，模拟了各种难度、不同风格的真实工程命令。

DrafterBench不仅让模型「按部就班」，而是全面考察以下四大任务能力维度。

结构化数据理解能力：模型是否能从不同风格语句中准确提取出关键细节；

工具调用能力：模型能否组合多个工具形成有效的操作链，并正确调用顺序与参数；

指令跟随能力：面对一条包含多个修改目标的长指令，是否能做到任务不漏项、执行不断链；

批判性推理能力：模型能否识别指令中的信息缺失、不合理内容，并尝试补全模糊的细节、完成修正。

这不是纸面作文，是工程实战。

DrafterBench如何评估模型？

在DrafterBench中，模型要以「代码调用工具」的方式完成任务。

这些工具涵盖图元编辑、标注调整、绘图逻辑等，彼此之间还有输入输出依赖，形成一个「工程任务链」。

但问题来了：

工具调用是否正确？是否合理组合？

中间步骤是否成功传递？是否使用了冗余或错误命令？

直接看图纸输出无法判断。因此DrafterBench设计了一整套对偶工具系统（Dual function system）。

所有工具都有一份「替身」，不实际修改图纸，但记录调用顺序、参数值、变量状态，并以结构化JSON形式输出，清晰还原模型「行动路径」。

DrafterBench不只看模型有没有答对，而是看它「为什么答错，哪一步出错，错在哪里」。

模型表现如何? 喜忧参半！

DrafterBench评测了主流SOTA大语言模型，分别为：OpenAI GPT-4o / o1系列、Claude 3.5 Sonnet、Deepseek-V3-685B、Qwen2.5-72B-Instruct、以及LLaMA3-70B-Instruct。

综合来看，这些模型表现都达到一定水准，得分普遍超过65分。

其中，OpenAI o1以79.9的综合分领跑，Claude3.5 Sonnet和Deepseek-V3-685B表现也非常接近，分别为73.79和73.09。

这说明当前主流大模型具备一定的工程任务处理能力，尤其在简单指令执行上表现稳定。

但与此同时，模型整体水平仍远未达到工业一线对执行精度、流程完整性的实际要求。

更重要的是，不同模型在四大能力维度上呈现出显著差异。

比如，在结构化数据理解任务中，模型整体表现稳定，对语言风格的鲁棒性较强。

但在工具调用方面，准确率波动明显，平均可达9个百分点。对于指令跟随能力，部分模型表现出较强的任务承载能力，如OpenAI o1和Claude3.5 Sonnet抗噪声能力较好，能保持基本的任务完整性。

而在批判性推理任务中，模型间能力分化尤为显著。

OpenAI o1在识别指令中信息缺失、筛选关键信息方面表现突出，而Qwen2.5则在细节补充上更具优势。

其余模型则在这两个维度中存在大幅度波动，表现不一。

研究团队进一步使用自动化错误分析工具，对每一个任务的失败原因进行结构化溯源。

结果表明，模型常见错误类型包括参数定义不清、变量传递失败、函数调用结构错乱、工具选择偏差以及多工具组合逻辑混乱。

更关键的是，即便多个步骤执行正确，只要某一关键环节出现偏差，就会导致最终图纸修改失败。

这也解释了为何多数模型的单项能力准确率维持在60%左右，但整体目标修改完成度却显著偏低，仅在40%左右。

结论与展望

这些评估结果说明，尽管当前的大模型已有一定能力拆解复杂任务结构、调用工程工具，但它们仍难以稳健掌握完整任务链的所有细节，对实际场景的适应能力尚不足以支撑工程一线需求。

如果说过去的大模型评测多数还停留在「会不会」，那么DrafterBench的贡献在于首次让模型接受了「干不干得好」的落地考核。

工程现场需要的是高容错、强判断、懂规则、能执行的助手，而DrafterBench正是在为这一目标提供数据支持与路径验证。

接下来，研究团队还将扩展任务类型至图纸校审、规范检测、施工日志智能生成等更多工程应用场景，持续拓展模型能力边界。

你有模型，DrafterBench有任务。

看看你的模型，能不能真在图纸上动真格。

参考资料：

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

这个AI能自己造AI，十几分钟写完代码，一天交付可用模型

DeepTech深科技 2026-03-26 13:20:36
0 跟贴 0
全球顶尖大模型一夜惨遭血洗！最难测试人类拿满分，AI第一名得0.2%分

新智元 2026-03-26 18:14:12
4 跟贴 4

在线等：如何优雅地分走鹅厂这600+万？

量子位 2026-03-26 16:24:03
0 跟贴 0

大模型的下半场，属于拥有云+AI全栈引擎的玩家

量子位 2026-01-30 03:29:45
0 跟贴 0
华为、商汤等873家机构遭AI顶会“封杀”，中国学界怒了

智东西 2026-03-26 20:49:23
15 跟贴 15

AP2O-Coder 让大模型拥有「错题本」，像人类一样按题型高效刷题

机器之心Pro 2026-01-14 15:07:07
0 跟贴 0

00后小孩哥10天AI编程，陈天桥24小时砸3000万！靠大四作业当上CEO

36氪 2026-03-08 17:24:08
0 跟贴 0
Sora 2意外停摆，这个国产视频生成创业团队，直接「开源」三连击

机器之心Pro 2026-03-26 14:27:52
0 跟贴 0

Harness发威！Claude被榨干的秘诀公开了

智东西 2026-03-26 20:57:04
0 跟贴 0
北京人形发布开源开放生态计划，打造具身智能生态标杆

智东西 2026-03-26 20:57:04
0 跟贴 0
机器人着力展示“打工”技能灵巧手厂商关注度提升｜2026中关村论坛年会观察

每日经济新闻 2026-03-26 22:16:09
0 跟贴 0
App删除安卓用户照片美团派专员一对一恢复数据

经济观察报 2026-03-26 11:20:24
90 跟贴 90
CMU开源首份Agentic Search日志数据，把Agent拆开给你看

机器之心Pro 2026-02-09 12:05:13
0 跟贴 0
紫光股份：公司具备支撑超大规模智算中心建设与大模型产业化落地的综合能力

每日经济新闻 2026-03-26 17:49:49
0 跟贴 0
纽约时报：许多美国官员从未去过中国应该去中国看看

环球网资讯 2026-03-26 00:05:09
1939 跟贴 1939
女生买了个新桌子，但想起来男朋友学的是机械工程，于是

理想之声 2026-03-25 15:14:03
0 跟贴 0
坦克拉玛干大漠新天路，沙漠2700公里环线铁路中国工程再创奇迹！

鲍向露 2026-03-26 05:41:34
0 跟贴 0
从工业体系看常规战争中东大为何难被战胜的底层逻辑

Boba奔波儿灞 2026-03-26 01:16:42
0 跟贴 0
船过闸门船嫂熟练应对，看似平淡无奇，背后却是百年技术的沉淀！

趣笑小行星 2026-03-26 09:41:30
1 跟贴 1
于东来：30岁开始吃药，CT拍了上百次，身体出什么问题都不足为奇，哪天说没就没了

每日经济新闻 2026-03-25 23:58:31
725 跟贴 725
这位女生的投篮技术真是太厉害了

爱笑无厘头 2026-03-26 10:28:55
8 跟贴 8
“根本不敢上路”！深圳男子买全新百万豪车，修了15次还是坏的！很多车主受害

南方都市报 2026-03-26 09:26:45
52 跟贴 52
一天蒸发6200亿！谷歌算法黑科技击溃存储股，华尔街痛批市场“不懂技术”

每日经济新闻 2026-03-26 19:00:13
6 跟贴 6
张少康辞去广东省人民政府副省长职务

新快报新闻 2026-03-26 11:50:03
48 跟贴 48
裁员潮下的工程人普遍都不想找工作了！

黯泉 2026-03-26 18:41:24
4 跟贴 4
这就是许老板，在湖南最大的工程，总投资50亿占地2800亩

逗趣联盟 2026-03-23 10:23:28
2 跟贴 2
五年级数学中点模型求阴影部分面积

天天数理学习分享 2026-03-22 13:47:40
4 跟贴 4
10元/斤，最近这一口“鲜货”正肥！杭州一摊主：一天上百斤不够卖

环球网资讯 2026-03-25 13:22:33
432 跟贴 432
收评：沪指跌1.09% 全市场成交额不足2万亿元

证券时报 2026-03-26 15:22:10
471 跟贴 471
中原消费金融为催收“买”借款人手机号码三大运营商均中标或涉买卖个人信息惹争议

信网 2026-03-26 19:12:37
23 跟贴 23
生死12分钟！广东一男子踢球时心脏骤停一群医生冲上前接力心肺复苏救回一命

闪电新闻 2026-03-26 11:46:05
84 跟贴 84
逐帧拆解，维尼修斯的内切逻辑！

动感丸子 2026-03-24 13:12:48
3 跟贴 3
美媒称美考虑将援助乌克兰的武器转至中东

新华社 2026-03-26 20:05:17
685 跟贴 685
千万粉丝大V，微博账号被禁止关注

第一财经资讯 2026-03-26 12:19:47
1 跟贴 1
跳槽3个月背债102万，大厂竞业协议埋了多少雷

灰度测试中 2026-03-26 12:07:05
1 跟贴 1
火车站“老师儿！出租车在这乘坐”标语引热议，网友称一看就是山东济南，车站工作人员：在当地这是尊称

极目新闻 2026-03-26 12:06:40
116 跟贴 116
广东一男子买啤酒抽中电动车大奖，将中奖二维码发网上询问后被他人扫走核销，网友：“这下又上了一课”

洪观新闻 2026-03-26 10:56:49
0 跟贴 0
法系在华销冠车型降价20%，车名叫凡尔赛

第一财经资讯 2026-03-26 10:16:14
97 跟贴 97
浙江绍兴｜甘浙特高压工程浙江段进入核心电气设备安装阶段

新华社 2026-03-26 22:19:58
0 跟贴 0
好作文是改出来的

水寒说语文 2026-03-26 10:49:03
0 跟贴 0

张雪峰亲手把自己送上了死路

名人苟或

2026-03-25 06:02:57

中原消费金融为催收“买”借款人手机号码三大运营商均中标或涉买卖个人信息惹争议

中原消费金融为催收“买”借款人手机号码三大运营商均中标或涉买卖个人信息惹争议

信网

2026-03-26 19:12:37

A股，尾盘传来一个“重磅信号”，周五，或将迎来大变盘！

A股，尾盘传来一个“重磅信号”，周五，或将迎来大变盘！

夜深爱杂谈

2026-03-26 20:09:32

特变电工：公司输变电产线基本处于满负荷生产状态，公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

特变电工：公司输变电产线基本处于满负荷生产状态，公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

每日经济新闻

2026-03-26 19:25:48

A股第二高价股源杰科技启动“A+H” 一年内股价涨超1000%

A股第二高价股源杰科技启动“A+H” 一年内股价涨超1000%

蓝鲸新闻

2026-03-26 16:18:08

痛心！张雪峰女儿哭成泪人！再多的财富也无法填补父爱的空缺

痛心！张雪峰女儿哭成泪人！再多的财富也无法填补父爱的空缺

魔都姐姐杂谈

2026-03-26 20:54:38

石油危机一旦爆发，房子、现金、股票、黄金谁最危险？

石油危机一旦爆发，房子、现金、股票、黄金谁最危险？

蜉蝣说

2026-03-26 16:52:10

我在立陶宛住了半年，回来后整个人对波罗的海三国的认知完全变了

我在立陶宛住了半年，回来后整个人对波罗的海三国的认知完全变了

阅尽天下大事

2026-03-26 13:16:28

学医后才知道，高血压最危险信号，不是头晕，而是频繁出现4症状

学医后才知道，高血压最危险信号，不是头晕，而是频繁出现4症状

医学科普汇

2026-03-26 19:55:03

稳居西部第二！马刺三大年轻核心，已成联盟无解难题！

稳居西部第二！马刺三大年轻核心，已成联盟无解难题！

田先生篮球

2026-03-26 14:23:29

日本公布中国游客免税店2月份消费数据，真的是打脸了！

日本公布中国游客免税店2月份消费数据，真的是打脸了！

消失的电波

2026-03-26 15:20:44

正脸曝光！强闯我使馆的村田晃大3月15日刚晋升，所持刀具刃长约18厘米

正脸曝光！强闯我使馆的村田晃大3月15日刚晋升，所持刀具刃长约18厘米

中国网

2026-03-26 14:01:45

张雪峰的病，速效救心丸能救吗？

张雪峰的病，速效救心丸能救吗？

中国新闻周刊

2026-03-25 16:23:30

女子空置房2个月用水1961吨，费用近1.2万元，“水管封死水表仍走字”，水务公司拒回应

女子空置房2个月用水1961吨，费用近1.2万元，“水管封死水表仍走字”，水务公司拒回应

观威海

2026-03-26 10:39:05

20亿美元还不够！中企对巴拿马索赔涨价，巴政府内部已经乱套了

20亿美元还不够！中企对巴拿马索赔涨价，巴政府内部已经乱套了

悄悄史话

2026-03-26 14:09:05

还有谁！杨瀚森100%命中率！20+9+5打出完美一战！

还有谁！杨瀚森100%命中率！20+9+5打出完美一战！

柚子说球

2026-03-26 13:07:05

山姆曲奇礼盒紧急下架！监管部门：已立案

山姆曲奇礼盒紧急下架！监管部门：已立案

中国品牌

2026-03-26 19:00:21

突然崩了！很多人以为手机坏了！官方紧急回应

突然崩了！很多人以为手机坏了！官方紧急回应

蓬勃新闻

2026-03-25 20:00:43

惊呆了！网传某妇产医院一少妇哭求医生，改她儿子的血型鉴定书…

惊呆了！网传某妇产医院一少妇哭求医生，改她儿子的血型鉴定书…

火山詩话

2026-03-26 11:40:00

伊朗政府信息委员会主席：15点停战协议是特朗普的“又一个谎言”

伊朗政府信息委员会主席：15点停战协议是特朗普的“又一个谎言”

新京报

2026-03-25 21:29:45

AI产业主平台领航智能+时代

14821文章数 66721关注度

往期回顾全部

科技要闻

美团发布外卖大战后成绩单：亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了，然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声！称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普？一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

教育

游戏

手机

时尚

艺术要闻

哪一座桥不是风景？

教育要闻

骂人没有杀伤力？那不是白忙活吗？

50万销量达成！这款IGN 9分独游走红官方发推庆贺

手机要闻

OPPO K15 Pro 系列定档，岚影呼吸灯搭配金属中框

这些才是适合春季的穿搭！不沉闷、不单调，大方靓丽又减龄

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版