网易首页 > 网易号 > 正文 申请入驻

GPT-5仅23.3%,全球AI集体挂科!地狱级编程考试,夺金神话破灭

0
分享至


新智元报道

编辑:桃子

【新智元导读】编程大考,全球顶尖LLM夺金,真无敌了?最难编码基准SWE-Bench Pro出世,汇集了平均超100行代码的难题。没想到,最能打的LLM纷纷溃败,GPT-5仅拿下23.3%高分。

继IMO 2025登顶后,谷歌、OpenAI的模型,再一次拿下了ICPC金牌。

ICPC,被公认为全球最具挑战的大学生编程竞赛之一。

OpenAI和谷歌不仅解决了全部12题,还在人类选手中位列第一,难道AI编程真能所向披靡了吗?


最新一项基准测试,直接打脸了全世界的顶尖模型。


它就是SWE-Bench Pro,专为评估AI编程智能体而生的新一代基准测试,直面真实企业级工程任务。

相较于前代SWE-Bench,Pro版本升级带来了三大突破:

  • 任务难度全面提升

  • 抗数据污染能力更强

  • 无限逼近真实代码库


这一版,堪称编码中的「最后人类考试」。在实际测试(公开集)中,顶尖模型几乎溃败。

GPT-5虽拿下了第一,但成绩仅有23.3%,Claude Opus 4.1以22.7%得分位居第二。

其他模型更是没有一个能打的,得分全部低于15%。


这意味着,在更贴近真实世界的编程任务中,LLM的长程编码能力仍是短板。

最新21页技术论文,详细公开了SWE-Bench Pro设计细节。


论文地址:https://static.scale.com/uploads/654197dc94d34f66c0f5184e/SWEAP_Eval_Scale%20%289%29.pdf

编码界,需要一场硬核考试

过去,SWE-Bench等基准成为了评估LLM在软件工程中的重要标准。

这些测试中,通常要求AI基于完整代码库和自然语言描述,生成代码Patch。

就拿SWE-Bench Verified来说,顶尖LLM已实现超70%成功率,听起来确实非常厉害。


但这也暴露了一个问题:

未来6至12个月内,现有基准或许会「饱和」,无法再去有效衡量AI的进步。

由此,Scale AI正式发布了SWE-Bench Pro。

它提供了一个更真实、更具挑战的「考场」,直击痛点解决现有基准的缺陷。


数据污染,与现实脱节

当前,已有的编码基准测试,存在两大缺陷。

一方面,数据污染风险高。很多基准基于开源GitHub仓库构建,但这些仓库,尤其是MIT、Apache许可的项目,很容易被LLM训练数据「爬虫」。

由此一来,AI在测试时存在「作弊」的可能,或许它早就见过类似的难题。

另一方面,现有基准的任务太过简单,达不到「工业级别」。


还以SWE-Bench Verified举例,500道题中,竟有161道只需改1-2行代码。

这在实验室里可行,但到了企业环境中,往往涉及跨多个文件、数百行代码的复杂修改。

这样的基准,根本无法反映AI在真实开发场景中的表现。

编码考试不是AI智能体的最终目的,但一个更硬核基准,才能真实评估LLM是否真正符合工业级应用的标准。

SWE-Bench Pro:超100行代码难题

在SWE-Bench Pro设计中,一共包含1865个经人工验证与增强的问题,细分了三类子集——公开集、商业集、保留集。

论文中,研究团队介绍了SWE-Bench Pro的三大贡献:

1. 巧妙收集设计,降低数据污染风险

SWE-Bench Pro创新数据收集策略,避开了污染陷阱。

(1)仅采用强著佐权许可证(GPL)的代码库构建公开集(11个代码库)和保留集(12个代码库);

(2)从真实初创企业获取商业代码以构建商业集(18个代码库),从而捕捉企业级问题。


• 公开集:在HuggingFace公开发布731个实例,并在本文中报告相关统计数据和模型表现。这些实例源自采用著佐权(copyleft)许可证的公开代码库。

• 商业集:来自初创企业代码库的276个商业集问题。这是唯一包含初创企业专有代码库的集合,因法律限制无法公开。

• 保留集:保留了858个与公共集结构镜像但采用不同代码库的问题集。


2. 任务升级,更具挑战、多样,更贴近工业

为了确保任务复杂度,Scale AI排除了1-10行代码「小修小补」的任务,只保留需要多文件、实质性修改的问题。

参考解决方案平均涉及4.1个文件、107.4行代码,所有任务至少改10行,超100项任务需改超100行。


除了复杂度外,选的代码库都是活跃维护的,覆盖了消费级App、B2B服务和开发者工具平台等多个领域。

而且,每个代码库贡献了50-100个实例(上限100),避免了对单一库的依赖。

3.人机协同验证,确保任务可解

有了以上难题还不够,最后一步,还需要确保它们是可解的。

为此,SWE-Bench Pro又引入了一个以人为中心的增强验证流程,分为三阶段人机协同流程。

一方面,它能澄清模糊信息,补充缺失的上下文;另一方面,通过约束解决方案空间,保持灵活同时避免假阴性。

Claude企业级第一

仅拿下17.8%「最高分」

不同顶尖模型,在SWE-Bench Pro上的表现如下表1所示。

以Pass@1作为问题解决率指标,GPT-5与Claude Opus 4.1分别以23.3%和22.7%解决率领先。

早期代际模型,比如DeepSeek Qwen-3 32B、GPT-4o表现明显落后,分别仅为3.4%和3.9%。


此外,公开集和商业集存在显著的性能差距。

最佳模型在商业集的得分均低于20%,从侧面印证了,企业级代码库处理的挑战性。


总的来说,LLM在公开集的通过率≤23.3%,在商业集≤17.8%,远远低于SWE-Bench Verified的70%以上。

这背后的原因,究竟是什么?

不擅长的语言,也会影响性能

从编程语言维度来看,AI性能分化明显。

在Go和Python任务中,大多数模型解决率较高,有些甚至超过30%。

相较之下,JavaScript(JS)与TypeScript(TS)则表现波动较大,根据模型不同,解决率从0%到超过30%不等。


不仅如此,代码仓库维度多样,有些仓库,所有模型解决率都低于10%。

有一些,还能达到50%。

仓库的复杂度、文档质量,或是问题类型等,也成了LLM在编码任务中影响性能的因素。

可以看到,Claude Opus 4.1、GPT-5在多数仓库和编程语言中,都能保持稳定高性能。


失败原因,多种多样

接下来,研究人员又让GPT-5作为「法官」,去对不同模型的故障进行分析。

具体步骤是,先手动构建常见故障分类桶,然后筛选未解决实例,收集最后20轮交互轨迹,向GPT-5提供提示,让其推理并分类故障。


结果显示,顶尖模型的失败原因,覆盖了各种情况。

  • Claude Opus 4.1:卡在了语义理解,错误解决方案占比35.9%,语法错误24.2%,技术执行力强,但问题理解、算法准确性有待提升。

  • GPT-5:工具使用差异明显,但错误解决方案较少。

  • Claude Sonnet 4:上下文溢出(35.6%)和无限文件读取行为(17.0%)是主因,暴露了上下文管理和导航策略的局限。

  • Gemini 2.5:工具错误(38.8%)、语法错误(30.5%)和错误解决方案(18.0%,多维度挑战并存

  • Qwen-3 32B:工具错误率最高(42.0%)


总言之,SWE-Bench Pro是一个全新抗污染、工业真实的基准,能够成为未来LLM编码能力一大标尺。

一作介绍

Xiang Deng


Xiang Deng现任Scale AI研究工程师,专注于LLM的编程与智能体研发。

他曾获得了俄亥俄州立大学的博士学位,以及中国科学技术大学计算机科学学士学位。

Jeff Da


Jeff Da现任Scale AI研究科学家,专注于强化学习、智能体与训练后优化方向。

他曾在艾伦人工智能研究所和华盛顿大学,主要从事推理能力评估、多模态学习等方向的研究。

彩蛋

有趣的是,在首席AI官Alexandr Wang评论区下方,所有人更关心的是MSL内幕消息。

Alexandr剧透,即将有更多新内容分享。



参考资料:

https://x.com/vbingliu/status/1969460781495566611

ScaleAI/SWE-bench_Pro · Datasets at Hugging Face

https://x.com/alexandr_wang/status/1969805196462358919

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小米通话将于12月3日停止服务

小米通话将于12月3日停止服务

极目新闻
2025-11-05 21:05:11
许家印干的最虎的一件事就是填海造陆,花费上千亿搞个海南海花岛

许家印干的最虎的一件事就是填海造陆,花费上千亿搞个海南海花岛

探史
2025-11-04 18:54:50
民进党当局称大陆未来可能全球通缉“台独”顽固分子,国台办回应

民进党当局称大陆未来可能全球通缉“台独”顽固分子,国台办回应

极目新闻
2025-11-05 11:32:07
伟大1-0!亚洲球队逆袭:欧冠历史首胜 仅建队11年 现场万人狂欢

伟大1-0!亚洲球队逆袭:欧冠历史首胜 仅建队11年 现场万人狂欢

侃球熊弟
2025-11-06 03:41:47
“父亲偷看女儿洗澡”后续:爸爸揭露真相,女孩追悔莫及

“父亲偷看女儿洗澡”后续:爸爸揭露真相,女孩追悔莫及

观世记
2025-11-05 20:19:25
新闻多一度丨神二十推迟返回 空间碎片影响有多大?

新闻多一度丨神二十推迟返回 空间碎片影响有多大?

新京报
2025-11-05 18:11:09
买淀粉肠的学生,抢钥匙的校长,撒谎的通报

买淀粉肠的学生,抢钥匙的校长,撒谎的通报

空瓶子
2025-11-04 18:18:24
知名男演员,传来喜讯!

知名男演员,传来喜讯!

鲁中晨报
2025-11-06 07:03:11
不顾美欧反对,中方邀请俄总理访华,普京有个好消息要告诉中国

不顾美欧反对,中方邀请俄总理访华,普京有个好消息要告诉中国

第一军情
2025-11-05 15:40:03
纽约迎来新市长:90后、印度裔、穆斯林、民主社会主义者、特朗普的“噩梦”

纽约迎来新市长:90后、印度裔、穆斯林、民主社会主义者、特朗普的“噩梦”

上观新闻
2025-11-05 17:59:14
向全世界展示,中国是如何救援空间站宇航员的,美俄都没有这能力

向全世界展示,中国是如何救援空间站宇航员的,美俄都没有这能力

讲者普拉斯
2025-11-05 20:51:42
网红户晨风被封禁,央视披露详情:以“苹果人安卓人”恶意制造对立,收割流量牟利,突破监管红线

网红户晨风被封禁,央视披露详情:以“苹果人安卓人”恶意制造对立,收割流量牟利,突破监管红线

极目新闻
2025-11-05 16:40:03
杭州网红“大逃亡”,网红之都跌落神坛!

杭州网红“大逃亡”,网红之都跌落神坛!

财经三分钟pro
2025-11-05 13:58:59
国足选帅如同儿戏,足协说了不算惨遭打脸!不可抗的因素选邵佳一

国足选帅如同儿戏,足协说了不算惨遭打脸!不可抗的因素选邵佳一

中国足球的那些事儿
2025-11-05 19:46:13
管不住下半身!网传长沙某三甲医院医生不雅视频曝光,引发关注…

管不住下半身!网传长沙某三甲医院医生不雅视频曝光,引发关注…

火山诗话
2025-11-05 17:31:47
“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

小乔古装汉服
2025-09-29 07:55:03
乌克兰公布“罕见”作战画面!外媒:乌特种部队乘“黑鹰”直升机突袭波克罗夫斯克

乌克兰公布“罕见”作战画面!外媒:乌特种部队乘“黑鹰”直升机突袭波克罗夫斯克

环球网资讯
2025-11-05 16:09:59
国乒教练调整内幕揭晓,王励勤弃用两位功臣?改革力度超出预期

国乒教练调整内幕揭晓,王励勤弃用两位功臣?改革力度超出预期

海阔山遥YAO
2025-11-05 11:54:46
网友好奇,国外全球反诈论坛我们为什么不参加?评论区一言难尽

网友好奇,国外全球反诈论坛我们为什么不参加?评论区一言难尽

眼光很亮
2025-11-05 10:40:13
秦雯编剧电视剧被央视撤档,此前王家卫秦雯私密录音曝光惹争议

秦雯编剧电视剧被央视撤档,此前王家卫秦雯私密录音曝光惹争议

鲁中晨报
2025-11-05 11:31:09
2025-11-06 07:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13794文章数 66238关注度
往期回顾 全部

科技要闻

何小鹏连发四大黑科技!人形机器人走猫步上台

头条要闻

外媒:中方强硬抨击荷兰 安世半导体僵局持续发酵

头条要闻

外媒:中方强硬抨击荷兰 安世半导体僵局持续发酵

体育要闻

赢下皇马,会是利物浦的转折点吗?

娱乐要闻

港星林尚武突发心脏病去世

财经要闻

事关加快建设金融强国 中央金融办发声

汽车要闻

智己LS9入局"9系"混战 全尺寸SUV市场迎来新变量

态度原创

数码
旅游
手机
艺术
家居

数码要闻

小米POCO X1平板现身Geekbench 搭载骁龙7+ Gen 3

旅游要闻

外媒:中国“深蓝梦想”科考推动科普研学旅游

手机要闻

荣耀两款神秘新机被曝光:双2亿方案来袭,明年见!

艺术要闻

Michal Lukasiewicz:木刻般的绘画

家居要闻

别样府院 畅享诗意生活

无障碍浏览 进入关怀版