网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude：悄悄跳过最难的23道题

2025-08-20 09:50:19　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：定慧

【新智元导读】OpenAI在SWE-bench Verified编程测试中仅完成477道题却公布74.9%高分，对比之下，Anthropic的Claude完成全部500题。

几天前，OpenAI发布会上，奥特曼宣布GPT-5登顶了，号称代码能力全球第一。

但发布会上搞了一个大乌龙，52.8＞69.1=30.8？

于是，OpenAI那些年薪上亿的天才们做的一张表格火遍了全世界（左边）。

虽然这张表格一开始在OpenAI的官博中是准确的，但是当面向全世界直播竟然搞了这么大一个Bug。

抛开乌龙外，更重要的但是被人们忽视的一个事情是，GPT-5在SWE-bench Verified基准上取得的74.9%的通过率。

这个分数略高于Anthropic的Claude Opus 4.1的74.5%。

这一下子，就让GPT-5成为当前软件工程任务基准上的领先模型。

但等等，这分数…好像有点猫腻啊。

OpenAI并未运行SWE-bench Verified的全部500道测试任务，而是略去了其中无法运行的23个任务，仅基于477个任务计算得分。

SemiAnalysis专门发帖提到这个问题。

Anthropic专门在它的博客里也「内涵」了这个问题。

SWE-bench Verified总共500道题，GPT-5只做了477道，那23道题，它直接跳过了！

而对手Claude呢？老老实实，500道题一道没落。

这下，性质全变了。

当然OpenAI是承认这件事情的。

他们从GPT-4.1开始就在「备注」里说明了：OpenAI的基础设施无法运行这23道题目。（好奇啊，什么样的题目，OpenAI的天才们竟然说无法运行）

如果将这23道无法运行的题目按0分计入，GPT-4.1的得分将从54.6%降至52.1%。

由此推测，GPT-5的74.9%，若也将那23道题视作全错，其实际全500题通过率约为71.4%（74.9%×477/500，注意这是极度简化的计算）明显低于Claude Opus 4.1基于500道题取得的74.5%

需要强调的是，那23个被略去的任务并非对GPT-5「无关紧要」。

相反，它们大多是Verified集中最困难的一批问题。

据第三方分析，在Verified数据集的「耗时>4小时」级别的任务中，绝大多数模型都无法解决任何一道。

模型在需要超过1小时才能完成的「较难」问题上表现显著下降。

只有ClaudeSonnet4（非思考模式）、o3和GPT4.1能够完成部分超过4小时的任务（各占33%）。

这些极端困难任务对模型的综合能力是严峻考验。

如果GPT-5无法运行这些任务，那么从全面能力上说，它可能尚未真正超越Claude 4.1。

在Anthropic提供的信息中，Claude 4.1很可能也尝试了这些任务（Anthropic并未声称其模型跳过任何Verified任务），因此其74.5%分数包含了所有难题的考验。

而GPT-5的74.9%则是在剔除了这些「拦路虎」后的结果。

这种差异引发的主要争议点在于：评测分数的可比性和报告方法的透明性。

甚至，就连作为裁判的SWE-bench Verified数据集，也是OpenAI自己搞的。

SemiAnalysis认为，要想「公平」的对比模型之间的成绩，或许swebench.com上的SWE-bench官方排行榜可能是对当前模型在此基准测试中表现的最清晰描述。

没有「验证」子集，工具使用受限（仅限bash），大部分脚手架内容是开放可见的。

在此前提下的基准测试中，5月14日的Claude 4 Opus检查点（67.6）表现是要优于GPT-5（65）的。

接下来的问题就是，什么是SWE-bench，什么又是「验证」子集，为啥要额外搞一个SWE-bench Verified？

SWE-bench：AI界的「程序员高考」

SWE-bench你可以把它想象成AI界的「程序员高考」。

考的，全是真实世界的代码难题。

想拿高分？不仅要修复bug。还不能引入新bug，这标准简直不要太严格。

曾几何时，AI们分数也就二三十分，惨不忍睹。

比如截至2024年8月5日，根据SWE-bench的排行榜，编码智能体在SWE-bench上最高得分20%。

在SWE-bench Lite上得分能稍微好点，达到43%。

但是现在的AI厉害了，基本上前十的模型都能超过50分。

OpenAI觉得SWE-bench太难了，一些任务甚至压根没法解决，从而没法很好的评估模型的能力。

简单介绍下SWE-bench

SWE-bench测试集中的每个样本均来自GitHub上12个开源Python存储库中的已解决GitHub问题。

每个样本都有一个相关的拉取请求（PR），其中包含解决方案代码和单元测试以验证代码的正确性。

这些单元测试在PR中的解决方案代码添加之前会失败，但添加之后会通过，因此被称为FAIL_TO_PASS测试。

每个样本还具有相关的PASS_TO_PASS测试，这些测试在PR合并前后都会通过，用于检查PR是否破坏了代码库中现有且不相关的功能。

对于SWE-bench中的每个样本，智能体将获得来自GitHub issue的原始文本，即问题描述，并可以访问代码库。

据此，智能体必须编辑代码库中的文件以解决问题。测试用例不会展示给智能体。

模型提出的修改编辑通过运行FAIL_TO_PASS和PASS_TO_PASS测试进行评估。

如果FAIL_TO_PASS测试通过，表明该模型解决了问题。

如果PASS_TO_PASS测试通过，则表明该编辑没有意外破坏代码库中不相关的部分。

只有当这两组测试全部通过后，该编辑才能彻底解决原始GitHub问题。

这就是上面所说的：不仅要修复bug，还不能引入新bug。

SWE-bench Verified：一个人工选出来的子集

SWE-bench Verified是SWE-bench基准的一个人类校验子集，于2024年8月由OpenAI与SWE-bench作者合作发布。

OpenAI与93名精通Python的软件开发人员合作，手动筛选SWE-bench样本的质量。

首先，给SWE-bench测试集的1699个随机样本「打分」。

四个分数：

0：问题描述清晰，对于成功解决所需的条件也很明确。
1：关于这个问题还有一些空白需要填写，但对于成功解决方案所需的内容，存在一种合理的解读方式。
2：该问题描述含糊，存在歧义空间，尚不清楚一个成功的解决方案应具备哪些特征。
3：在没有更多信息的情况下，几乎无法理解你需要做什么。

得分为2和3分的直接抛弃不要，只留0和1分的题目。

虽然这种方法会导致样本移除的误报率较高，但有助于提高对最终数据集样本质量的信心。

然后从0和1分的题目中再随机抽取500道，这就是最终的SWE-bench Verified。

说回分数，Claude考的是「全科」，OpenAI考的是「精选版」。

这成绩，怎么能直接比？数字背后的故事，更值得玩味。

在发布会图表画错的乌龙以外，这个被「掩盖」的事实似乎并没有引起太多人的注意。

甚至，我们可以阴谋论的猜测一下，OpenAI是不是故意而为之，用这个小小的乌龙，来掩盖SWE-Bench的分数？

毕竟，要想隐瞒一个真相，最好的做法不是否认它，而是用一个更大的「真相」去转移所有人的注意力。

参考资料：

https://x.com/SemiAnalysis_/status/1955028150217478177

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

Kimi发布史上最大开源模型！参数高达2.8T，离GPT-5.6只差半步？

DeepTech深科技 2026-07-17 11:03:36
4 跟贴 4
前端工程师最不想看到的开源项目出现了，一行命令克隆任意网站

量子位 2026-06-28 15:53:49
151 跟贴 151

烧掉16万美金，狂飙100万行代码！Bun之父用Claude重写底层

新智元 2026-07-17 14:59:07
0 跟贴 0

Claude Code 源码泄露了，有人用Python复刻了一个极简版

机器之心Pro 2026-04-02 11:30:10
0 跟贴 0
用推理步骤的「语义冗余」给LRM过度思考踩刹车

机器之心Pro 2026-07-16 10:08:58
0 跟贴 0

OpenAI训练了一个专门攻击AI的模型，只为让GPT更安全

DeepTech深科技 2026-07-16 21:06:46
1 跟贴 1

阿杜颠倒黑白，给自己增加戏码，直播间都是看笑话的

越桥说体育 2026-07-17 01:49:09
41 跟贴 41
武契奇称支持乌领土主权完整俄议员：他要对得起良心

澎湃新闻 2026-07-17 21:28:17
40913 跟贴 40913

关于AI手机，大模型厂商终于开窍了？当智能体开始影响现实，安全如何保证

图灵的猫 2026-07-17 14:09:04
0 跟贴 0
Claude官方教学4种循环自动干活！

新智元 2026-07-17 00:02:45
0 跟贴 0
WAIC首日，无论你是否来了，都应该知道这些变化

钛媒体APP 2026-07-17 23:02:26
0 跟贴 0
星尘智能甩出20+超难家务自主，具身模型圈：不要再卷了

机器之心Pro 2026-07-18 00:57:04
0 跟贴 0
Claude Code与Cowork负责人：智能体时代，团队怎么管、人怎么活

机器之心Pro 2026-07-04 16:17:43
0 跟贴 0
直播完他头也不回地走了，当时给我有种要退圈的感觉了

郭慧晨 2026-07-14 03:20:36
1 跟贴 1
旗舰模型仅对手半价，奥特曼喊出再降75%：DeepSeek逼出的价格战

摸鱼算法 2026-07-18 02:54:32
1 跟贴 1
郭正亮直播时读网友留言上火了，吃大哥骂大哥，这么硬气破口大骂

新鲜热点 2026-07-17 14:35:10
1 跟贴 1
800万人围观！虾爹给Agent套上循环，让它自己跑起来！

机器之心Pro 2026-06-17 12:13:35
0 跟贴 0
00后小孩哥10天AI编程，陈天桥24小时砸3000万！靠大四作业当上CEO

36氪 2026-03-08 17:24:08
29 跟贴 29
从Token Capital到企业认知主权：别把大脑交给大模型公司！

新智元 2026-07-18 00:49:18
0 跟贴 0
斑马被狼群追捕，三两下跳过鳄鱼池，狼群不幸的被全军覆没

小贝动物汇 2026-07-17 16:05:13
1 跟贴 1
早报｜苹果上调Apple Music价格/小米SU7虚假碰撞测评博主被判一年八个月/努比亚、阶跃星辰智能体手机亮相WAIC

爱范儿 2026-07-18 08:55:26
0 跟贴 0
OpenAI华人研究员投身AI制药，估值20亿美元

生物世界 2026-07-17 21:19:06
0 跟贴 0
夏日景区女孩听见题目举手抢答，结果没想到NPC套路直接愣住，网友：好一个猝不及防啊

先锋音乐 2026-07-16 09:29:50
0 跟贴 0
7.14 德国跳过欧盟找中国谈判？特朗普关税战砸了美国自己！

小椰子专栏呀 2026-07-16 02:05:30
3 跟贴 3
智能体从「单兵作战」到「精锐团队」 -1

机器之心Pro 2026-04-28 16:55:35
0 跟贴 0
FreeStyle来了！从社区LoRA中挖掘风格与内容，让双参考图像生成更可控

机器之心Pro 2026-07-17 18:35:22
0 跟贴 0
统计学20年悬案 GPT-5.6 90分钟破解

新智元 2026-07-16 09:24:47
84 跟贴 84
计算机学生必做的7个AI项目

薛定谔的BUG 2026-07-15 05:16:03
0 跟贴 0
五百手机同时直播，现场网红身价，起步就是几十万

美妙一箩筐 2026-07-16 14:55:00
0 跟贴 0
气象台不敢报40℃？中国气象局回应

红网 2026-07-18 01:23:24
68 跟贴 68
鹿晗范志毅直播全程cut（两人的互动聊天太搞笑了）

何夕夕与书 2026-07-14 00:31:40
15 跟贴 15
做事的，为什么斗不过那些做人的？

记忆承载 2026-07-16 11:25:52
4 跟贴 4
机器人开始“造车”了！世界人工智能大会现场“秀绝活”

究竟视频 2026-07-18 00:42:02
0 跟贴 0
上海宣布：启用重大活动模式，连续4天！黄浦江两岸，上演专属光影展演

上观新闻 2026-07-17 17:25:00
21 跟贴 21
程序员面试背了十年的八股文，被DeepSeek废了

字母榜 2026-07-13 17:28:42
0 跟贴 0
美食逆袭：直播后粉丝流失，吃货如何华丽逆转

尘埃落定w 2026-07-17 00:38:04
0 跟贴 0
财务人员给文件进行装订，这是专属于财务人的拼豆，网友：财务人狠狠地共情了

星沙时报 2026-07-16 11:44:46
1 跟贴 1
让你的龙虾秒变电影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
包菜新吃法：家常拿手菜，脆嫩爽口胜过荤腥

长星寄明月 2026-07-17 14:37:11
0 跟贴 0

库明加谈判陷入僵局！湖人最新交易预案曝光，瞄准热火6400万潜力锋线

库明加谈判陷入僵局！湖人最新交易预案曝光，瞄准热火6400万潜力锋线

夜白侃球

2026-07-18 09:51:36

三个亿的南锣鼓巷老宅，为何让父子反目成仇？

三个亿的南锣鼓巷老宅，为何让父子反目成仇？

天气观察站

2026-07-18 00:13:16

82：0通过！日本议会罕见联手：阻止高市早苗改动无核三原则

82：0通过！日本议会罕见联手：阻止高市早苗改动无核三原则

坠入二次元的海洋

2026-07-18 06:37:52

徐增平曾为我国购买瓦良格号，花了一个多亿，如今他过得怎么样？

徐增平曾为我国购买瓦良格号，花了一个多亿，如今他过得怎么样？

你是我心中最美星空

2026-07-17 23:25:27

考入北京电子科技学院，过来人的真实感受

考入北京电子科技学院，过来人的真实感受

鬼菜生活

2026-07-18 04:32:44

日本赛：魔鬼客场痛击东道主！凤凰组合2-0晋级决赛，国羽剑指3连冠

日本赛：魔鬼客场痛击东道主！凤凰组合2-0晋级决赛，国羽剑指3连冠

钉钉陌上花开

2026-07-18 09:50:16

为什么都在唱衰高层住宅？网友：自然规律人越多出神人的概率越大

为什么都在唱衰高层住宅？网友：自然规律人越多出神人的概率越大

另子维爱读史

2026-07-17 19:27:03

43死320伤！伊朗发起“斩首行动”，美不想打了？特朗普转变态度

43死320伤！伊朗发起“斩首行动”，美不想打了？特朗普转变态度

闻香阁

2026-07-18 00:18:03

腾格尔现状：住北京别墅，66岁彻底戒酒，把老来得子儿子宠成宝

腾格尔现状：住北京别墅，66岁彻底戒酒，把老来得子儿子宠成宝

秋姐居

2026-07-16 19:19:23

联赛3连平！蓉城手握巨大优势，为何主帅反复呼吁球迷包容

联赛3连平！蓉城手握巨大优势，为何主帅反复呼吁球迷包容

工从昊懂球阿靖

2026-07-18 08:54:39

死刑！刚出拘留所5天，广西男捅死21岁双胞胎妹妹，重伤姐姐！

死刑！刚出拘留所5天，广西男捅死21岁双胞胎妹妹，重伤姐姐！

听心堂

2026-07-17 16:37:14

李讷离婚后没有钱，毛主席心疼得落泪：张耀祠，给大娃娃送8000块

李讷离婚后没有钱，毛主席心疼得落泪：张耀祠，给大娃娃送8000块

明月清风阁

2026-07-17 19:20:07

哈兰德不结婚怕分家产？挪威法律：结婚才更危险

哈兰德不结婚怕分家产？挪威法律：结婚才更危险

华庭讲美食

2026-07-16 14:38:28

迪马利亚：他是打进困难进球的人还有为每个人自己的梦想而战

迪马利亚：他是打进困难进球的人还有为每个人自己的梦想而战

懂球帝

2026-07-17 21:07:08

冀南一县因成为京城近郊，把用了近800年的劣名，换成了吉祥名

冀南一县因成为京城近郊，把用了近800年的劣名，换成了吉祥名

小陆搞笑日常

2026-07-18 05:32:06

监狱退休女警：女犯人难熬的不是白天干活，是夜里铁门落锁那一刻

监狱退休女警：女犯人难熬的不是白天干活，是夜里铁门落锁那一刻

千秋文化

2026-07-17 19:08:35

高盛：将中际旭创目标价从1187元大幅上调至2581元

高盛：将中际旭创目标价从1187元大幅上调至2581元

金融界

2026-07-17 19:45:21

三方重磅交易曝光：湖人零损失拿下克莱，独行侠如愿得到杜兰特

三方重磅交易曝光：湖人零损失拿下克莱，独行侠如愿得到杜兰特

夜白侃球

2026-07-18 10:03:27

阿根廷总统：标语事件顶多罚款3万，会收复马岛

阿根廷总统：标语事件顶多罚款3万，会收复马岛

体坛周报

2026-07-17 17:21:11

3死！湖南平江突发悲剧！一家电动车门店燃起大火，系人为纵火，死者信息被披露，更多细节流出

3死！湖南平江突发悲剧！一家电动车门店燃起大火，系人为纵火，死者信息被披露，更多细节流出

火山詩话

2026-07-17 20:46:35

AI产业主平台领航智能+时代

15716文章数 66959关注度

往期回顾全部

科技要闻

WAIC2026看什么？这份"不迷路"攻略请收好

头条要闻

美军连续七晚空袭伊朗伊朗称将进入"全面进攻"阶段

头条要闻

美军连续七晚空袭伊朗伊朗称将进入"全面进攻"阶段

体育要闻

30亿欧对决，世界杯季军战毫无意义？

娱乐要闻

曲婉婷自爆患癌！全网喊“苍天绕过谁”

财经要闻

股民当街砍博主！韩国股市终极大屠杀

汽车要闻

把中国超跑卖到英国，比亚迪正在被世界看见

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

时尚

本地

手机

公开课

军事航空

她突然去世，震动香港娱乐圈

本地新闻

十年了，为什么鬼怪CP还能让人美美嗑上？

手机要闻

Apple Music美国区订阅价格上调家庭方案涨幅明显

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

伊朗议长：这是一场“生存之战”

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版