网易首页 > 网易号 > 正文 申请入驻

从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

0
分享至

新智元报道

编辑:LRST

【新智元导读】大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。浙江大学、新加坡管理大学、加拿大渥太华大学等机构的研究团队,首次对291个用于评估LLMs在软件工程任务中的Benchmark进行了系统综述,为AI4SE社区绘制了一份详尽的「基准地图」与方法指南。

近年来,ChatGPT、Llama等大语言模型在软件工程领域的能力突飞猛进,从需求分析、代码生成到测试与维护几乎无所不能。但一个核心问题是:我们如何客观评估这些模型在不同软件工程任务中的表现?

在SE领域,Benchmark既是分数卡,让不同模型在同一标准下比拼;也是方向盘,引导技术改进与未来研究方向。

然而,现有LLM-SE Benchmark存在三大痛点:

  • 零散分布:缺乏覆盖全流程的软件工程任务Benchmark综述

  • 构建方式各异:评估指标、数据来源五花八门,难以横向比较

  • 研究空白:此前从未有系统文献综述全面汇总软件工程相关的大语言模型Benchmark

这使得开发者和研究者在选择评估方法时常陷入「信息孤岛」,甚至可能被不全面的评估结果误导。

为填补这一空白,来自浙江大学、新加坡管理大学、渥太华大学等机构的团队开展了一项系统文献综述,首次全面梳理了291个用于评估大语言模型在软件工程任务中的Benchmark,并从任务覆盖、语言分布、构建方式到未来趋势进行了深入分析。

论文链接:https://arxiv.org/pdf/2505.08903

图1 综述框架总览

研究聚焦三大核心问题:

  • 现有LLM-SE Benchmark有哪些?

  • 它们是如何构建的?

  • 它们面临哪些挑战与改进机会?

为了确保全面、系统,研究人员开展「地毯式搜索」:

数据来源:覆盖IEEE Xplore、ACM DL、ScienceDirect、Springer Link等八大数据库;

  • 补充检索采用前向与后向的「滚雪球」检索,确保重要Benchmark不遗漏;

  • 严格筛选设置包含与排除标准,剔除与LLM-SE无关或信息不全的Benchmark;

  • 质量评估从描述清晰度、SE相关性、方法严谨性、可复现性、学术影响五个维度打分;

  • 最终成果汇总291个在2025年6月前发表的Benchmark,按任务、语言、构建方式等多维度分类分析。

六大任务全覆盖

Benchmark演化脉络清晰

图2 Benchmark年份分布

统计显示,自2022年起Benchmark数量快速增长,2023和2024年分别新增近70个,增长势头迅猛。

图3 Benchmark语言分布

Python在评估Benchmark中一骑绝尘,主要用于代码生成与推荐类任务;Java、C++、C语言在质量分析与维护任务中占有重要地位;Go、PHP、Ruby等小众语言的Benchmark仍然稀缺。

图4 Benchmark任务分布

任务分布(六大类)

  • 需求与设计(25个):需求获取、分类、冲突检测、规格化与验证;

  • 编码辅助(124个):代码生成、补全、摘要、多语言迁移(占比超40%,最多);

  • 软件测试(25个):测试生成、GUI测试、断言生成、自动修复;

  • AIOps(6个):日志生成与解析;

  • 软件维护(13个):代码审查、克隆检测、代码重构;

  • 质量管理(111个):缺陷检测、漏洞识别、修复建议(占比38%)。

其中「编码辅助」任务相关Benchmark数量最多,占比超过40%,其次是质量管理类任务,占比达38%。

现实挑战

Benchmark还远远不够用!

研究指出,当前Benchmark建设存在五大瓶颈:

  • 任务定义模糊、评价不一致缺乏统一标准,难以横向对比;

  • 规模受限、计算成本高多数数据集规模偏小,覆盖不了复杂系统;

  • 泛化能力不足Benchmark表现好,真实场景却「水土不服」;

  • 更新滞后难以及时跟进新技术与框架;

  • 数据隐私限制真实企业数据难以共享,影响高质量Benchmark建设。

未来机会

Benchmark建设仍是「蓝海」

团队提出了五大改进方向:

  • 多维评估引入准确率、可维护性、效率、安全性、可解释性等指标;

  • 跨语言、跨任务统一评估框架,提升通用性;

  • 贴近真实场景引入真实项目数据,提高落地性;

  • 人类反馈与伦理考量纳入有害性检测、隐私风险等维度;

  • 动态可扩展平台支持任务扩展、新模型接入与持续测评。

总结

Benchmark是推动LLM落地的「发动机」

正如作者所言——当前LLM在软件工程中的应用正处于「黄金发展期」,但真正能驱动其走向工业落地、提升工程可信度的,是那些更真实、更多维、更动态的Benchmark体系

这项研究不仅填补了LLM软件工程评估的综述空白,也为AI4SE研究者、开发者和企业提供了清晰的「下一步方向」。

如果说模型是「马达」,Benchmark就是「方向盘」。谁能把握住它,谁就能在AI软件工程的未来之路上走得更远。

参考资料:

https://arxiv.org/pdf/2505.08903

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湖人2比0!詹姆斯32胜0负!杜兰特9次失误葬送火箭

湖人2比0!詹姆斯32胜0负!杜兰特9次失误葬送火箭

篮球教学论坛
2026-04-22 13:56:30
全欧看不懂的豪赌!带队降级的孔帕尼,把拜仁焊成了欧洲头号噩梦

全欧看不懂的豪赌!带队降级的孔帕尼,把拜仁焊成了欧洲头号噩梦

老骾体育解说
2026-04-15 21:21:31
黄大发等涉黑案一审宣判:黄大发等12人组织、领导、参加黑社会性质组织,判处黄大发死刑,其他11名被告人分别判处13年至2年2个月不等刑罚

黄大发等涉黑案一审宣判:黄大发等12人组织、领导、参加黑社会性质组织,判处黄大发死刑,其他11名被告人分别判处13年至2年2个月不等刑罚

扬子晚报
2026-04-21 15:07:17
伊朗“宫斗”分出胜负?12小时就改口要谈判,改革派重新占据上风

伊朗“宫斗”分出胜负?12小时就改口要谈判,改革派重新占据上风

民间胡扯老哥
2026-04-22 05:07:48
华为Pura 90全系亮相,这次“扛”住了价格,却扛不住争议

华为Pura 90全系亮相,这次“扛”住了价格,却扛不住争议

于见专栏
2026-04-21 19:45:15
闺蜜大婚我随了5000,她回礼雨伞,看见伞柄刻着地址和6个数字

闺蜜大婚我随了5000,她回礼雨伞,看见伞柄刻着地址和6个数字

磊子讲史
2026-01-23 16:54:49
瓜帅:我早就说过孔帕尼迟早会当曼城主帅,确信曼城在他心中

瓜帅:我早就说过孔帕尼迟早会当曼城主帅,确信曼城在他心中

懂球帝
2026-04-22 06:23:06
中央明确了!社保最低缴费年限要提高,70、80后得早做准备

中央明确了!社保最低缴费年限要提高,70、80后得早做准备

云鹏叙事
2026-04-12 16:36:39
1946年孔二小姐穿短裙逛公园却被龙三公子调戏,双方立即拔枪火拼

1946年孔二小姐穿短裙逛公园却被龙三公子调戏,双方立即拔枪火拼

睡前讲故事
2026-04-21 11:33:01
等等党胜利!明日9款车正式上市:9分钟闪充、纯电905km…全来了

等等党胜利!明日9款车正式上市:9分钟闪充、纯电905km…全来了

生活魔术专家
2026-04-22 00:34:05
拜鬼结束,高市离开神社,中国发起第四波反击,解放军或增派航母

拜鬼结束,高市离开神社,中国发起第四波反击,解放军或增派航母

Ck的蜜糖
2026-04-21 18:23:36
再下一城!詹姆斯carry全场,记者:时光老人在他面前都黯淡无光

再下一城!詹姆斯carry全场,记者:时光老人在他面前都黯淡无光

体育见习官
2026-04-22 13:37:51
赵心童即便卫冕成功也成不了世界第1!特鲁姆普:大热必死你小心

赵心童即便卫冕成功也成不了世界第1!特鲁姆普:大热必死你小心

风过乡
2026-04-22 13:16:46
有一说一,哈登真的是联盟每支球队都梦寐以求的“球场指挥官”!

有一说一,哈登真的是联盟每支球队都梦寐以求的“球场指挥官”!

田先生篮球
2026-04-21 22:01:52
2026年5月,运势转旺!遇事有人帮,过日子总能赚到钱的3大生肖

2026年5月,运势转旺!遇事有人帮,过日子总能赚到钱的3大生肖

毅谈生肖
2026-04-22 10:45:35
卢拉:赶紧给特朗普颁个奖吧!这样就世界太平了

卢拉:赶紧给特朗普颁个奖吧!这样就世界太平了

看看新闻Knews
2026-04-22 09:12:06
日本9偶像「脱衣玩野球拳」离谱处分出炉!女偶像遭开铡 男偶像全没事

日本9偶像「脱衣玩野球拳」离谱处分出炉!女偶像遭开铡 男偶像全没事

ETtoday星光云
2026-04-20 15:00:12
16GB+1TB,小米“降价很猛”的一款旗舰手机,从5499元跌至3133元

16GB+1TB,小米“降价很猛”的一款旗舰手机,从5499元跌至3133元

小柱解说游戏
2026-04-22 13:54:55
李荣浩户外直播钓鱼手机落水,10万多名观众在线目睹手机“溺水”,此前称要靠手机导航离开山区,最新回应:人没事,手机捞回来了

李荣浩户外直播钓鱼手机落水,10万多名观众在线目睹手机“溺水”,此前称要靠手机导航离开山区,最新回应:人没事,手机捞回来了

山西晚报
2026-04-22 11:50:05
沉默1天,中国准时发声,“高市下岗”传遍全境,石破茂判断没错

沉默1天,中国准时发声,“高市下岗”传遍全境,石破茂判断没错

阿芒娱乐说
2026-04-21 17:31:29
2026-04-22 14:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15037文章数 66797关注度
往期回顾 全部

科技要闻

凌晨突发!ChatGPT Images 2.0发布

头条要闻

KTV服务员被指强奸14岁女生 官方通报

头条要闻

KTV服务员被指强奸14岁女生 官方通报

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

复婚无望!baby黄晓明陪小海绵零交流

财经要闻

伊朗拒绝出席 特朗普宣布延长停火期限

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

艺术
教育
家居
健康
时尚

艺术要闻

无花不风景

教育要闻

2026 成都新初高中大爆发!七中 、 树德、 西川、北二外领衔,9 月集体亮相!

家居要闻

极简绘梦 克制和谐

干细胞抗衰4大误区,90%的人都中招

顶流复工,已判若两人

无障碍浏览 进入关怀版