网易首页 > 网易号 > 正文 申请入驻

大模型转行土木工程!首个「打灰人」评估基准:检验读、改工程图纸能力

0
分享至

新智元报道

编辑:LRST

【新智元导读】首个工程自动化任务评估基准DrafterBench,可用于测试大语言模型在土木工程图纸修改任务中的表现。通过模拟真实工程命令,全面考察模型的结构化数据理解、工具调用、指令跟随和批判性推理能力,研究结果发现当前主流大模型虽有一定能力,但整体水平仍不足以满足工程一线需求。

在AI竞速的今天,大语言模型(LLM)早已不满足只在象牙塔里「背书解题」。

当GPT-4o刷题通过物理奥赛、DeepSeek熟练搭建网站之后,LLM必须直面一个更现实的问题:

这些号称「专家级」的大模型,能不能真的下工地?能不能帮工程打工人减负?在钢筋水泥的图纸世界里,它们是得力助手,还是纸上谈兵?

答案尚未揭晓,但DrafterBench迈出了评估的第一步。

来自加拿大麦吉尔大学AIS实验室的研究团队与加州大学圣芭芭拉分校(UCSB)合作,正式推出面向工程自动化任务的大模型评估基准——DrafterBench

这是首个针对「一线工程图纸修改任务」设计的大规模评测套件,旨在验证和揭示现有LLMs能否胜任土木工程等领域中真实的「打工任务」。

论文链接:https://arxiv.org/abs/2507.11527

代码链接:https://github.com/Eason-Li-AIS/DrafterBench

数据链接:https://huggingface.co/datasets/Eason666/DrafterBench

为什么需要DrafterBench?

工程图纸修改,是土木工程、建筑设计等领域最耗时间、最高频的任务之一,也是自动化改造迫切程度极高的一环。

每天成千上万的一线工程师、制图员在重复地处理「改一根梁的位置」「把这根管道直径加粗一点」「为这个构件增加标注」这类十分琐碎但又关系重大的任务。

这类工作往往工作量大、标准高、容错低,但技术门槛不高,对工作者在「任务理解、细节处理、任务链配合」方面的综合执行力要求极强。

于是研究团队提出问题:

如果大模型能读懂图纸指令,调用工具链,精确修改图元,它就不只是「写PPT的高手」,更是「工程打工人福音」

DrafterBench怎么做的?

DrafterBench以图纸修改为核心任务,在20个真实项目中收集并设计了1920个高质量任务,涵盖12类指令类型,模拟了各种难度、不同风格的真实工程命令

DrafterBench不仅让模型「按部就班」,而是全面考察以下四大任务能力维度。

结构化数据理解能力:模型是否能从不同风格语句中准确提取出关键细节;

工具调用能力:模型能否组合多个工具形成有效的操作链,并正确调用顺序与参数;

指令跟随能力:面对一条包含多个修改目标的长指令,是否能做到任务不漏项、执行不断链;

批判性推理能力:模型能否识别指令中的信息缺失、不合理内容,并尝试补全模糊的细节、完成修正。

这不是纸面作文,是工程实战。

DrafterBench如何评估模型?

在DrafterBench中,模型要以「代码调用工具」的方式完成任务。

这些工具涵盖图元编辑、标注调整、绘图逻辑等,彼此之间还有输入输出依赖,形成一个「工程任务链」。

但问题来了:

工具调用是否正确?是否合理组合?

中间步骤是否成功传递?是否使用了冗余或错误命令?

直接看图纸输出无法判断。因此DrafterBench设计了一整套对偶工具系统(Dual function system)。

所有工具都有一份「替身」,不实际修改图纸,但记录调用顺序、参数值、变量状态,并以结构化JSON形式输出,清晰还原模型「行动路径」。

DrafterBench不只看模型有没有答对,而是看它「为什么答错,哪一步出错,错在哪里」。

模型表现如何? 喜忧参半!

DrafterBench评测了主流SOTA大语言模型,分别为:OpenAI GPT-4o / o1系列、Claude 3.5 Sonnet、Deepseek-V3-685B、Qwen2.5-72B-Instruct、以及LLaMA3-70B-Instruct。

综合来看,这些模型表现都达到一定水准,得分普遍超过65分

其中,OpenAI o1以79.9的综合分领跑,Claude3.5 Sonnet和Deepseek-V3-685B表现也非常接近,分别为73.79和73.09。

这说明当前主流大模型具备一定的工程任务处理能力,尤其在简单指令执行上表现稳定。

但与此同时,模型整体水平仍远未达到工业一线对执行精度、流程完整性的实际要求。

更重要的是,不同模型在四大能力维度上呈现出显著差异。

比如,在结构化数据理解任务中,模型整体表现稳定,对语言风格的鲁棒性较强。

但在工具调用方面,准确率波动明显,平均可达9个百分点。对于指令跟随能力,部分模型表现出较强的任务承载能力,如OpenAI o1和Claude3.5 Sonnet抗噪声能力较好,能保持基本的任务完整性。

而在批判性推理任务中,模型间能力分化尤为显著。

OpenAI o1在识别指令中信息缺失、筛选关键信息方面表现突出,而Qwen2.5则在细节补充上更具优势。

其余模型则在这两个维度中存在大幅度波动,表现不一。

研究团队进一步使用自动化错误分析工具,对每一个任务的失败原因进行结构化溯源。

结果表明,模型常见错误类型包括参数定义不清、变量传递失败、函数调用结构错乱、工具选择偏差以及多工具组合逻辑混乱。

更关键的是,即便多个步骤执行正确,只要某一关键环节出现偏差,就会导致最终图纸修改失败。

这也解释了为何多数模型的单项能力准确率维持在60%左右,但整体目标修改完成度却显著偏低,仅在40%左右。

结论与展望

这些评估结果说明,尽管当前的大模型已有一定能力拆解复杂任务结构、调用工程工具,但它们仍难以稳健掌握完整任务链的所有细节,对实际场景的适应能力尚不足以支撑工程一线需求。

如果说过去的大模型评测多数还停留在「会不会」,那么DrafterBench的贡献在于首次让模型接受了「干不干得好」的落地考核。

工程现场需要的是高容错、强判断、懂规则、能执行的助手,而DrafterBench正是在为这一目标提供数据支持与路径验证。

接下来,研究团队还将扩展任务类型至图纸校审、规范检测、施工日志智能生成等更多工程应用场景,持续拓展模型能力边界。

你有模型,DrafterBench有任务。

看看你的模型,能不能真在图纸上动真格。

参考资料:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马斯克证实,对俄罗斯使用星链的限制取得成效,将进一步提供支持

马斯克证实,对俄罗斯使用星链的限制取得成效,将进一步提供支持

山河路口
2026-02-01 18:31:19
华尔街为啥铁了心打爆黄金多头?

华尔街为啥铁了心打爆黄金多头?

公子豹
2026-02-01 13:33:10
2月1日俄乌:马斯克终于出手了

2月1日俄乌:马斯克终于出手了

山河路口
2026-02-01 18:23:05
官媒对刀郎的称呼变了,五字之差释放强烈信号,那英确实没说错

官媒对刀郎的称呼变了,五字之差释放强烈信号,那英确实没说错

格斗联盟
2026-02-01 09:13:23
“极度抑郁,无颜面对所有同事员工”,深圳一公司年会取消!留几手发文

“极度抑郁,无颜面对所有同事员工”,深圳一公司年会取消!留几手发文

南方都市报
2026-02-01 12:50:46
乌克兰战场再现士兵向机器人投降,俄罗斯严厉谴责美国对古巴封锁

乌克兰战场再现士兵向机器人投降,俄罗斯严厉谴责美国对古巴封锁

史政先锋
2026-02-01 19:11:54
新势力车企2026年1月成绩单:半数销量环比降4成,小米超越零跑登顶

新势力车企2026年1月成绩单:半数销量环比降4成,小米超越零跑登顶

红星资本局
2026-02-01 21:43:04
放35天春节假只是小意思,全网打工人羡慕的“神仙公司”老板:把一半利润给员工

放35天春节假只是小意思,全网打工人羡慕的“神仙公司”老板:把一半利润给员工

环球网资讯
2026-01-19 07:20:37
2.5吨白银建造!地标建筑“永兴银楼”被拍卖,其中1.75吨银折算1204.7万元,每克6.88元,委托方:不能拆除

2.5吨白银建造!地标建筑“永兴银楼”被拍卖,其中1.75吨银折算1204.7万元,每克6.88元,委托方:不能拆除

大风新闻
2026-02-01 19:13:17
为啥么千万不要低估一个人的恶?网友:你最亲近的越知道往哪捅刀

为啥么千万不要低估一个人的恶?网友:你最亲近的越知道往哪捅刀

带你感受人间冷暖
2026-01-12 00:15:06
男人切记:搞定女人的“千古定律”,只有一条,屡试不爽!

男人切记:搞定女人的“千古定律”,只有一条,屡试不爽!

云端小院
2026-01-31 08:59:12
女子称退150多元大衣时不慎寄走奔驰钥匙,“配一把6000元”!网店工作人员:若看到会给她

女子称退150多元大衣时不慎寄走奔驰钥匙,“配一把6000元”!网店工作人员:若看到会给她

极目新闻
2026-02-01 10:11:45
朝鲜宣布:这是建国以来首次重大决策!

朝鲜宣布:这是建国以来首次重大决策!

IN朝鲜
2026-02-01 15:23:30
牢A命中,被一窝端16人都是女留学生

牢A命中,被一窝端16人都是女留学生

雪中风车
2026-01-28 13:23:54
既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

安安说
2026-02-01 14:01:51
细节令人发指!爱泼斯坦在厨房追逐女孩,安德鲁跪伏在女性身上,马斯克问“最疯狂的派对”……

细节令人发指!爱泼斯坦在厨房追逐女孩,安德鲁跪伏在女性身上,马斯克问“最疯狂的派对”……

新民周刊
2026-02-01 15:53:41
狱中离世14年后获无罪,当事人律师发声

狱中离世14年后获无罪,当事人律师发声

澎湃新闻
2026-02-01 11:55:05
四川泸州“花坛埋尸案”背后:一对父子被撕裂的28年

四川泸州“花坛埋尸案”背后:一对父子被撕裂的28年

潇湘晨报
2026-02-01 16:07:16
明朝锦衣卫的灭亡:大小头目全部遇难,一天之内便被消灭殆尽!

明朝锦衣卫的灭亡:大小头目全部遇难,一天之内便被消灭殆尽!

铭记历史呀
2026-01-31 23:08:25
老外看不下去了!吐槽国产手机抄袭iPhone:为了像苹果 3个摄像头里有1个是假的

老外看不下去了!吐槽国产手机抄袭iPhone:为了像苹果 3个摄像头里有1个是假的

快科技
2026-02-01 11:55:44
2026-02-02 05:16:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14457文章数 66560关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

手机
家居
健康
艺术
军事航空

手机要闻

消息称一加16长焦镜头将升级至2亿像素,有望支持长焦微距功能

家居要闻

蓝调空舍 自由与个性

耳石症分类型,症状大不同

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版