网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭

2025-09-22 17:13:27　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子

【新智元导读】编程大考，全球顶尖LLM夺金，真无敌了？最难编码基准SWE-Bench Pro出世，汇集了平均超100行代码的难题。没想到，最能打的LLM纷纷溃败，GPT-5仅拿下23.3%高分。

继IMO 2025登顶后，谷歌、OpenAI的模型，再一次拿下了ICPC金牌。

ICPC，被公认为全球最具挑战的大学生编程竞赛之一。

OpenAI和谷歌不仅解决了全部12题，还在人类选手中位列第一，难道AI编程真能所向披靡了吗？

最新一项基准测试，直接打脸了全世界的顶尖模型。

它就是SWE-Bench Pro，专为评估AI编程智能体而生的新一代基准测试，直面真实企业级工程任务。

相较于前代SWE-Bench，Pro版本升级带来了三大突破：

任务难度全面提升
抗数据污染能力更强
无限逼近真实代码库

这一版，堪称编码中的「最后人类考试」。在实际测试（公开集）中，顶尖模型几乎溃败。

GPT-5虽拿下了第一，但成绩仅有23.3%，Claude Opus 4.1以22.7%得分位居第二。

其他模型更是没有一个能打的，得分全部低于15%。

这意味着，在更贴近真实世界的编程任务中，LLM的长程编码能力仍是短板。

最新21页技术论文，详细公开了SWE-Bench Pro设计细节。

论文地址：https://static.scale.com/uploads/654197dc94d34f66c0f5184e/SWEAP_Eval_Scale%20%289%29.pdf

编码界，需要一场硬核考试

过去，SWE-Bench等基准成为了评估LLM在软件工程中的重要标准。

这些测试中，通常要求AI基于完整代码库和自然语言描述，生成代码Patch。

就拿SWE-Bench Verified来说，顶尖LLM已实现超70%成功率，听起来确实非常厉害。

但这也暴露了一个问题：

未来6至12个月内，现有基准或许会「饱和」，无法再去有效衡量AI的进步。

由此，Scale AI正式发布了SWE-Bench Pro。

它提供了一个更真实、更具挑战的「考场」，直击痛点解决现有基准的缺陷。

数据污染，与现实脱节

当前，已有的编码基准测试，存在两大缺陷。

一方面，数据污染风险高。很多基准基于开源GitHub仓库构建，但这些仓库，尤其是MIT、Apache许可的项目，很容易被LLM训练数据「爬虫」。

由此一来，AI在测试时存在「作弊」的可能，或许它早就见过类似的难题。

另一方面，现有基准的任务太过简单，达不到「工业级别」。

还以SWE-Bench Verified举例，500道题中，竟有161道只需改1-2行代码。

这在实验室里可行，但到了企业环境中，往往涉及跨多个文件、数百行代码的复杂修改。

这样的基准，根本无法反映AI在真实开发场景中的表现。

编码考试不是AI智能体的最终目的，但一个更硬核基准，才能真实评估LLM是否真正符合工业级应用的标准。

SWE-Bench Pro：超100行代码难题

在SWE-Bench Pro设计中，一共包含1865个经人工验证与增强的问题，细分了三类子集——公开集、商业集、保留集。

论文中，研究团队介绍了SWE-Bench Pro的三大贡献：

1. 巧妙收集设计，降低数据污染风险

SWE-Bench Pro创新数据收集策略，避开了污染陷阱。

（1）仅采用强著佐权许可证（GPL）的代码库构建公开集（11个代码库）和保留集（12个代码库）；

（2）从真实初创企业获取商业代码以构建商业集（18个代码库），从而捕捉企业级问题。

• 公开集：在HuggingFace公开发布731个实例，并在本文中报告相关统计数据和模型表现。这些实例源自采用著佐权（copyleft）许可证的公开代码库。

• 商业集：来自初创企业代码库的276个商业集问题。这是唯一包含初创企业专有代码库的集合，因法律限制无法公开。

• 保留集：保留了858个与公共集结构镜像但采用不同代码库的问题集。

2. 任务升级，更具挑战、多样，更贴近工业

为了确保任务复杂度，Scale AI排除了1-10行代码「小修小补」的任务，只保留需要多文件、实质性修改的问题。

参考解决方案平均涉及4.1个文件、107.4行代码，所有任务至少改10行，超100项任务需改超100行。

除了复杂度外，选的代码库都是活跃维护的，覆盖了消费级App、B2B服务和开发者工具平台等多个领域。

而且，每个代码库贡献了50-100个实例（上限100），避免了对单一库的依赖。

3.人机协同验证，确保任务可解

有了以上难题还不够，最后一步，还需要确保它们是可解的。

为此，SWE-Bench Pro又引入了一个以人为中心的增强验证流程，分为三阶段人机协同流程。

一方面，它能澄清模糊信息，补充缺失的上下文；另一方面，通过约束解决方案空间，保持灵活同时避免假阴性。

Claude企业级第一

仅拿下17.8%「最高分」

不同顶尖模型，在SWE-Bench Pro上的表现如下表1所示。

以Pass@1作为问题解决率指标，GPT-5与Claude Opus 4.1分别以23.3%和22.7%解决率领先。

早期代际模型，比如DeepSeek Qwen-3 32B、GPT-4o表现明显落后，分别仅为3.4%和3.9%。

此外，公开集和商业集存在显著的性能差距。

最佳模型在商业集的得分均低于20%，从侧面印证了，企业级代码库处理的挑战性。

总的来说，LLM在公开集的通过率≤23.3%，在商业集≤17.8%，远远低于SWE-Bench Verified的70%以上。

这背后的原因，究竟是什么？

不擅长的语言，也会影响性能

从编程语言维度来看，AI性能分化明显。

在Go和Python任务中，大多数模型解决率较高，有些甚至超过30%。

相较之下，JavaScript（JS）与TypeScript（TS）则表现波动较大，根据模型不同，解决率从0%到超过30%不等。

不仅如此，代码仓库维度多样，有些仓库，所有模型解决率都低于10%。

有一些，还能达到50%。

仓库的复杂度、文档质量，或是问题类型等，也成了LLM在编码任务中影响性能的因素。

可以看到，Claude Opus 4.1、GPT-5在多数仓库和编程语言中，都能保持稳定高性能。

失败原因，多种多样

接下来，研究人员又让GPT-5作为「法官」，去对不同模型的故障进行分析。

具体步骤是，先手动构建常见故障分类桶，然后筛选未解决实例，收集最后20轮交互轨迹，向GPT-5提供提示，让其推理并分类故障。

结果显示，顶尖模型的失败原因，覆盖了各种情况。

Claude Opus 4.1：卡在了语义理解，错误解决方案占比35.9%，语法错误24.2%，技术执行力强，但问题理解、算法准确性有待提升。
GPT-5：工具使用差异明显，但错误解决方案较少。
Claude Sonnet 4：上下文溢出（35.6%）和无限文件读取行为（17.0%）是主因，暴露了上下文管理和导航策略的局限。
Gemini 2.5：工具错误（38.8%）、语法错误（30.5%）和错误解决方案（18.0%，多维度挑战并存
Qwen-3 32B：工具错误率最高（42.0%）

总言之，SWE-Bench Pro是一个全新抗污染、工业真实的基准，能够成为未来LLM编码能力一大标尺。

一作介绍

Xiang Deng

Xiang Deng现任Scale AI研究工程师，专注于LLM的编程与智能体研发。

他曾获得了俄亥俄州立大学的博士学位，以及中国科学技术大学计算机科学学士学位。

Jeff Da

Jeff Da现任Scale AI研究科学家，专注于强化学习、智能体与训练后优化方向。

他曾在艾伦人工智能研究所和华盛顿大学，主要从事推理能力评估、多模态学习等方向的研究。

彩蛋

有趣的是，在首席AI官Alexandr Wang评论区下方，所有人更关心的是MSL内幕消息。

Alexandr剧透，即将有更多新内容分享。

参考资料：

https://x.com/vbingliu/status/1969460781495566611

ScaleAI/SWE-bench_Pro · Datasets at Hugging Face

https://x.com/alexandr_wang/status/1969805196462358919

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

如何为LLM智能体编写工具？Anthropic官方教程来了

机器之心Pro 2025-09-12 21:50:08
0 跟贴 0
AI不会让你成为10倍工程师

量子位 2025-08-11 10:02:45
3 跟贴 3

刚刚，华为AI推理大招开源，时延降90%，吞吐提22倍，上下文10倍级扩展

智东西 2025-11-05 17:53:14
4 跟贴 4

从风口黑马到“断供现场”，Trae背靠字节也挡不住“红线”锁喉

钛媒体APP 2025-11-05 17:53:06
55 跟贴 55
Codeforces难题不够刷？谢赛宁等造了AI出题机，能生成原创编程题

机器之心Pro 2025-10-20 14:17:05
0 跟贴 0

当AI学会作弊：比坏更可怕的是坏还聪明

机器之心Pro 2025-08-29 18:45:31
0 跟贴 0

陶哲轩，用AI爆改科研范式

新智元 2025-11-05 17:09:23
0 跟贴 0
让AI生成视频「又长又快」：Rolling Forcing实现分钟级实时生成

机器之心Pro 2025-11-05 13:42:31
0 跟贴 0

「不仅会想，还能准确去做」VLA-R1把「推理+行动」带进真实世界

机器之心Pro 2025-10-27 19:12:41
0 跟贴 0
你刷到的视频是真的么？用物理规律拆穿Sora谎言

机器之心Pro 2025-11-05 16:27:02
0 跟贴 0
AI实盘投资哪家强？专访Nof1人工智能负责人：表现最佳的都是开源模型

每日经济新闻 2025-11-05 23:20:06
0 跟贴 0
对话式AI，等待下一次「万亿时刻」

36氪 2025-11-05 17:45:32
0 跟贴 0
亚马逊与Perplexity打起来了！互联网平台与智能体水火不容？

雷科技 2025-11-05 21:29:34
0 跟贴 0
模型不用微调，靠上下文就能自我进化？

机器之心Pro 2025-10-11 20:20:59
0 跟贴 0
造福or替代程序员？实测阿里新模型

虎嗅APP 2025-07-23 22:42:47
13 跟贴 13
为什么程序员喜欢在代码里面写脏话？

beebee 2025-08-12 11:11:07
4 跟贴 4
LLaVA-OneVision-1.5开源，8B模型预训练只需4天、1.6万美元

机器之心Pro 2025-10-13 18:37:02
0 跟贴 0
轻量高效，即插即用：Video-RAG为长视频理解带来新范式

机器之心Pro 2025-10-20 18:23:17
0 跟贴 0
男子通过模型讲解自建房结构，“圈梁构造柱楼板马牙槎”，网友：楼板才是砖混结构的灵魂

鹤壁焦点 2025-11-03 16:34:57
365 跟贴 365
cTrder交易软件量化开发

老K聊交易 2025-11-05 04:40:12
0 跟贴 0
我以前还纳闷呢，为啥镜像里看不到摄影机，原来是这样的

生活有易看点 2025-11-03 16:08:33
4 跟贴 4
1斤豆芽卖28.8元？网友直呼“吃不起”，知名餐饮品牌回应

都市快报橙柿互动 2025-11-02 16:20:16
8623 跟贴 8623
乌克兰公布“罕见”作战画面！外媒：乌特种部队乘“黑鹰”直升机突袭波克罗夫斯克

环球网资讯 2025-11-05 16:09:59
8634 跟贴 8634
大模型公司不搞浏览器搞Agent，实测找到原因了

量子位 2025-10-31 16:54:34
2 跟贴 2
佐赫兰·马姆达尼成为美国纽约市史上首位印度裔市长

央视新闻客户端 2025-11-05 11:23:28
9780 跟贴 9780
我，22岁，用AI帮4万学生备考，拿到赵长鹏投资

36氪 2025-11-04 19:17:09
4 跟贴 4
数学界无视「30年漏洞」，GPT-5一眼看穿！陶哲轩：AI科研革命开始了

新智元 2025-11-05 17:08:45
12 跟贴 12
备份文件的重要性，这下完犊子了吧？咖啡还是挺香的

星河看影视 2025-11-03 09:31:14
3 跟贴 3
三亚海滩“长满”了俄罗斯人！网友调侃：我在这里反而成了“老外”

封面新闻 2025-11-02 12:57:02
148 跟贴 148
世界和平全靠这款软件了

肥罗爱追剧 2025-11-04 08:20:44
1 跟贴 1
地球级AI智能体爆诞！谷歌地球开外挂，一夜为20亿人洪水预警

新智元 2025-11-05 19:52:11
0 跟贴 0
从此，请叫“贝爵爷”！贝克汉姆获封英国王室最高爵士头衔

封面新闻 2025-11-05 16:29:05
521 跟贴 521
富家花重金，买下泰森11的拳头模型，有钱就是豪横

欢乐梦工厂 2025-11-04 11:55:45
1 跟贴 1
国务院公告后搜索暴涨3倍上海人立马出手：怕抢不到

极目新闻 2025-11-05 15:06:20
569 跟贴 569
VFMTok: Visual Foundation Models驱动的Tokenizer时代来临

机器之心Pro 2025-10-28 18:00:47
1 跟贴 1
当深圳00后也来抄底：内地客赴港买房，十年砸下8000亿

南方都市报 2025-11-05 13:54:46
440 跟贴 440
大转弯！特朗普再提名马斯克盟友任NASA局长，曾斥2亿美元完成首次商业太空行走

红星新闻 2025-11-05 13:16:38
390 跟贴 390
村庄设环保监测点，发通知限制燃油车进村？河南新乡当地回应：注意到石墩堵路，正核查

大风新闻 2025-11-05 14:48:02
1376 跟贴 1376
成都一处凶宅以起拍价26.6万元拍卖，市场价约160万元，已有70人报名

极目新闻 2025-11-05 12:35:31
1148 跟贴 1148
从数据分析到战术决策，SAP AI 重塑电竞新逻辑

新浪财经 2025-11-05 10:52:23
1 跟贴 1

小米通话将于12月3日停止服务

小米通话将于12月3日停止服务

极目新闻

2025-11-05 21:05:11

许家印干的最虎的一件事就是填海造陆，花费上千亿搞个海南海花岛

许家印干的最虎的一件事就是填海造陆，花费上千亿搞个海南海花岛

探史

2025-11-04 18:54:50

民进党当局称大陆未来可能全球通缉“台独”顽固分子，国台办回应

民进党当局称大陆未来可能全球通缉“台独”顽固分子，国台办回应

极目新闻

2025-11-05 11:32:07

伟大1-0！亚洲球队逆袭：欧冠历史首胜仅建队11年现场万人狂欢

伟大1-0！亚洲球队逆袭：欧冠历史首胜仅建队11年现场万人狂欢

侃球熊弟

2025-11-06 03:41:47

“父亲偷看女儿洗澡”后续：爸爸揭露真相，女孩追悔莫及

“父亲偷看女儿洗澡”后续：爸爸揭露真相，女孩追悔莫及

观世记

2025-11-05 20:19:25

新闻多一度丨神二十推迟返回空间碎片影响有多大？

新闻多一度丨神二十推迟返回空间碎片影响有多大？

新京报

2025-11-05 18:11:09

买淀粉肠的学生，抢钥匙的校长，撒谎的通报

买淀粉肠的学生，抢钥匙的校长，撒谎的通报

空瓶子

2025-11-04 18:18:24

知名男演员，传来喜讯！

鲁中晨报

2025-11-06 07:03:11

不顾美欧反对，中方邀请俄总理访华，普京有个好消息要告诉中国

不顾美欧反对，中方邀请俄总理访华，普京有个好消息要告诉中国

第一军情

2025-11-05 15:40:03

纽约迎来新市长：90后、印度裔、穆斯林、民主社会主义者、特朗普的“噩梦”

纽约迎来新市长：90后、印度裔、穆斯林、民主社会主义者、特朗普的“噩梦”

上观新闻

2025-11-05 17:59:14

向全世界展示，中国是如何救援空间站宇航员的，美俄都没有这能力

向全世界展示，中国是如何救援空间站宇航员的，美俄都没有这能力

讲者普拉斯

2025-11-05 20:51:42

网红户晨风被封禁，央视披露详情：以“苹果人安卓人”恶意制造对立，收割流量牟利，突破监管红线

网红户晨风被封禁，央视披露详情：以“苹果人安卓人”恶意制造对立，收割流量牟利，突破监管红线

极目新闻

2025-11-05 16:40:03

杭州网红“大逃亡”，网红之都跌落神坛！

杭州网红“大逃亡”，网红之都跌落神坛！

财经三分钟pro

2025-11-05 13:58:59

国足选帅如同儿戏，足协说了不算惨遭打脸！不可抗的因素选邵佳一

国足选帅如同儿戏，足协说了不算惨遭打脸！不可抗的因素选邵佳一

中国足球的那些事儿

2025-11-05 19:46:13

管不住下半身！网传长沙某三甲医院医生不雅视频曝光，引发关注…

管不住下半身！网传长沙某三甲医院医生不雅视频曝光，引发关注…

火山诗话

2025-11-05 17:31:47

“臀大腰粗”的女生怎么穿好看？吊带背心搭深灰瑜伽裤，高雅自信

“臀大腰粗”的女生怎么穿好看？吊带背心搭深灰瑜伽裤，高雅自信

小乔古装汉服

2025-09-29 07:55:03

乌克兰公布“罕见”作战画面！外媒：乌特种部队乘“黑鹰”直升机突袭波克罗夫斯克

乌克兰公布“罕见”作战画面！外媒：乌特种部队乘“黑鹰”直升机突袭波克罗夫斯克

环球网资讯

2025-11-05 16:09:59

国乒教练调整内幕揭晓，王励勤弃用两位功臣？改革力度超出预期

国乒教练调整内幕揭晓，王励勤弃用两位功臣？改革力度超出预期

海阔山遥YAO

2025-11-05 11:54:46

网友好奇，国外全球反诈论坛我们为什么不参加？评论区一言难尽

网友好奇，国外全球反诈论坛我们为什么不参加？评论区一言难尽

眼光很亮

2025-11-05 10:40:13

秦雯编剧电视剧被央视撤档，此前王家卫秦雯私密录音曝光惹争议

秦雯编剧电视剧被央视撤档，此前王家卫秦雯私密录音曝光惹争议

鲁中晨报

2025-11-05 11:31:09

AI产业主平台领航智能+时代

13794文章数 66238关注度

往期回顾全部

科技要闻

何小鹏连发四大黑科技！人形机器人走猫步上台

头条要闻

外媒：中方强硬抨击荷兰安世半导体僵局持续发酵

头条要闻

外媒：中方强硬抨击荷兰安世半导体僵局持续发酵

体育要闻

赢下皇马，会是利物浦的转折点吗？

娱乐要闻

港星林尚武突发心脏病去世

财经要闻

事关加快建设金融强国中央金融办发声

汽车要闻

智己LS9入局"9系"混战全尺寸SUV市场迎来新变量

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

数码

旅游

手机

艺术

家居

数码要闻

小米POCO X1平板现身Geekbench 搭载骁龙7+ Gen 3

旅游要闻

外媒：中国“深蓝梦想”科考推动科普研学旅游

手机要闻

荣耀两款神秘新机被曝光：双2亿方案来袭，明年见！

艺术要闻

Michal Lukasiewicz：木刻般的绘画

家居要闻

别样府院畅享诗意生活

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版