网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

GPT-5编程成绩有猫腻！自删23道测试题，关键基准还是自己提的

2025-08-12 13:12:51　来源: 量子位

北京举报

0

分享至

白交发自凹非寺
量子位 | 公众号 QbitAI

别急着用GPT-5编程了，可能它能力没有你想象中那么强。

有人发现，官方测试编程能力用的SWE-bench Verified，但货不对板，只用了477个问题。

什么意思呢？我们知道，SWE-bench是评估模型/智能体自主编程能力的一个通用且常用的指标。而SWE-bench Verified作为它的子集，本来一共有500个问题。

现在相当于OpenAI自行省略的那23个问题，自己搞了个子集的“子集”来评估模型能力。

而如果这些题默认零分，那么得分实际上是比Claude Opus 4.1还要低的。因为现在仅有0.4%的差距。

OpenAI这种自行忽略23道题的操作，已经不是第一次了。

早在GPT-4.1发布时就信誓旦旦地说，之所以忽略是因为这些问题的解决方案无法在他们的基础设施运行。

离谱了朋友们！要知道SWE-bench Verified这个OpenAI自己提的，理由也是因为SWE-bench无法系统评估模型的编程能力，所以决定自己再提炼一个子集。

现在又因为测试题无法正常运行，所以自行又搞了个子集的“子集”。

本来以为GPT-5直播里出现图表错误已经够离谱了，结果现在告诉我这里面的成绩可能还有假？

OpenAI一直省略23个问题

已经开始有网友发现，GPT-5能力并不比Claude 4.1 Opus好多少。

现在来看，这个官方给的结果或许根本没有参考价值。

网友们除了自行忽略部分测试题，“伪造了结果”这一发现外，还发现，他们是将具有最大思维努力的GPT-5与没有扩展思维仅靠原始模型输出的Opus 4.1进行比较。这种比较实际上没有参考意义。

而他们之所以只使用477个问题来测试，理由也跟GPT-4.1发布时一样，因为他们内部的基础设施运行不了剩下的23个问题。

今年4月份发布GPT-4.1时，在同一基准仅使用477个问题下得得分在54.6%。

当时官方还指出，如果保守地将这些问题的得分定为 0，那么54.6%的得分就变成了52.1%。即便是这样，这个数值放在当时也是最高的。

而Anthropic这边，其实也已经发现了OpenAI这个操作。

就在Claude Opus 4.1发布公布编程成绩之时，在文章的末尾有这么一句话。

对于Claude 4系列模型，他们继续使用相同的简单框架，该框架仅为模型配备了两种工具——一个Bash工具和一个通过字符串替换进行文件编辑的工具，并且不再包含Claude 3.7 Sonnet中使用的第三个“规划工具”。

并在最后注明：在所有Claude 4模型中，他们报告的分数基于完整的500个问题。OpenAI模型的得分基于477道问题的子集进行报告。

基准还是OpenAI自己提的

如果说，SWE-bench Verified还是OpenAI自己提的基准，那这件事就更离谱了。

这不就相当于自己搬起石头砸自己的脚啦嘛。

当时啊还是因为类似的原因——他们测试发现SWE-bench的一些任务可能难以解决甚至无法解决，导致SWE-bench无法系统性评估模型的自主编程能力。

于是乎，他们决定与SWE-bench的作者合作，决定弄出个新版本，希望能够提供更准确的评估。

他们共同发起了一项人工注释活动，共有93位资深程序员参与进来，以筛选SWE-bench测试集每个样本，从而获得适当范围的单元测试和明确指定的问题描述。

他们随机抽取了1699个样本，然后基于统一标准来进行标注。

比如，问题描述是否明确？每个注释都有一个标签，范围从 [0, 1, 2, 3]，严重程度依次递增。

标签0和1 表示轻微；标签2和3表示严重，表示样本在某些方面存在缺陷，应予以丢弃。

此外，我们还会评估每个示例的难度，方法是让注释者估算开发人员确定并实现解决方案所需的时间。

最终得到了500个经过验证的样本，并且按照难度对数据集进行细分。“简单”子集包含196个小于15分钟的修复任务，而“困难”子集包含 45 个大于 1 小时的任务。

结果现在这个子集又被OpenAI缩减了。

One More Thing

不过，还是有个总榜单或许值得参考，就是那个最原始的SWE-bench。

在这个榜单中，Claude 4 Opus还是占据着领先位置。

GPT-5也已经发过好一阵了，不知道你有没有这样类似的编程体验呀？欢迎在评论区与我们分享。

参考链接：
[1]https://www.swebench.com/
[2]https://openai.com/index/introducing-gpt-5/
[3]https://www.anthropic.com/news/claude-opus-4-1
[4]https://x.com/SemiAnalysis_/status/1955028150217478177
[5]https://x.com/DavidOndrej1/status/1954158161721487482

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

10个Agent一键组队：并行智能体协作，端到端交付从24h缩减到4h！

新智元 2025-10-04 13:15:17
5 跟贴 5
大模型公司不搞浏览器搞Agent，实测找到原因了

量子位 2025-10-31 16:54:34
2 跟贴 2

VinciCoder：多模态统一代码生成框架和视觉反馈强化学习

机器之心Pro 2025-11-17 14:12:38
0 跟贴 0

首个完整开源的生成式推荐框架MiniOneRec，轻量复现工业级OneRec

机器之心Pro 2025-11-17 18:16:26
0 跟贴 0
成本0.3美元，耗时26分钟！CudaForge：颠覆性低成本CUDA优化框架

机器之心Pro 2025-11-17 18:45:03
0 跟贴 0

微信支持潮汕话语音转文字了

经济观察报 2025-11-16 17:25:04
42 跟贴 42

如何为LLM智能体编写工具？Anthropic官方教程来了

机器之心Pro 2025-09-12 21:50:08
0 跟贴 0
大模型碰到真难题了，测了500道，o3 Pro仅通过15%

机器之心Pro 2025-09-15 10:45:10
1 跟贴 1

没有KPI却全员加班，硅谷最卷AI公司曝光，厨师压力比程序员还大

阅微札记 2025-11-13 19:54:50
0 跟贴 0
AI能否「圣地巡礼」？多模态大模型全新评估基准VIR-Bench来了

机器之心Pro 2025-10-15 16:05:02
0 跟贴 0
辛弃疾的词

想去北极洲 2025-11-17 16:52:31
0 跟贴 0
从书桌、智能体到数字童书：儿童学习进入「全场景」时代

多鲸 2025-11-17 21:16:52
0 跟贴 0
就是个模型，有啥大惊小怪的

沙雕动画 2025-11-15 15:50:41
0 跟贴 0
GPT-4o准确率仅为24%！权威中文教育基准：知识+情商的双重考验

新智元 2025-11-14 12:43:45
1 跟贴 1
屈原的诗

想去北极洲 2025-11-17 19:22:12
0 跟贴 0
编程春风吹进山乡课堂，全国现存少儿编程相关企业超440家

牛刀财经 2025-11-14 11:50:42
0 跟贴 0
白居易的诗

想去北极洲 2025-11-17 16:00:13
0 跟贴 0
年过四十，体检重点关注5个指标

药师方健 2025-11-17 22:13:28
4 跟贴 4
交警回应放行奔丧摩托：执法既要讲规则也应保有温度

北京日报客户端 2025-11-17 11:36:12
12154 跟贴 12154
肝脏是否健康？看这四个关键指标

药师方健 2025-11-13 22:30:19
3 跟贴 3
山村的秘密：“地下水里有金子”，村民大肆盗采地下水，大户年入上百万

新京报 2025-11-17 07:57:25
5003 跟贴 5003
郑丽文硬刚民进党！谣言缠身反连会多国代表，蓝白合样本已亮相

防务新闻 2025-11-17 12:19:01
0 跟贴 0
媒体：中国又一电磁弹射舰试航可对日本形成合围之势

新民周刊 2025-11-17 09:09:38
3537 跟贴 3537
以判别式监督学习强化推理LLM，解决难度偏差和熵崩塌难题

机器之心Pro 2025-10-28 11:14:55
0 跟贴 0
学生网购40件演出服7天后成功退货商家：明显使用过

每日经济新闻 2025-11-17 16:51:08
3673 跟贴 3673
小扎再出奇招：Meta员工绩效，AI来评判

量子位 2025-11-17 22:14:13
0 跟贴 0
杭州29岁程序员失联超一个月，家属：他已失业半年，并且还失恋了

好词好文 2025-11-17 13:32:41
0 跟贴 0
叫板美团外卖、淘宝闪购！刘强东放大招，京东外卖独立APP上线

雷科技 2025-11-17 22:24:19
7 跟贴 7
女孩认真咨询半天编程，张雪峰以为她能上985，结果一问高考200分

夜炙尊 2025-11-17 07:51:10
0 跟贴 0
父亲辞职给多动症儿子办休学，从湖南徒步1千公里到山东：他发现自己原来也能这么厉害

潇湘晨报 2025-11-17 16:43:15
968 跟贴 968
没有智商全是数值

嗷嗷爱影视 2025-11-15 07:28:51
1 跟贴 1
阿里巴巴“千问”公测首日崩了，用户称“入口拥堵”，指令无响应，服务暂不可用

三湘都市报 2025-11-17 12:43:20
2441 跟贴 2441
男子不慎将万元华为手机掉火坑，手机功能还可以用

荔枝新闻 2025-11-17 18:39:50
56 跟贴 56
WithAnyone重磅开源：这可能是你见过最自然的AI合照模型

机器之心Pro 2025-11-17 13:10:12
0 跟贴 0
当AI学会作弊：比坏更可怕的是坏还聪明

机器之心Pro 2025-08-29 18:45:31
0 跟贴 0
初中几何问题专题直角三角形+中点模型，求解三角形的内角大小

唐老师小课堂 2025-11-17 13:03:22
0 跟贴 0
Epic首席执行官称虚幻6引擎将在2年半内推出

电玩迷 2025-11-17 11:29:45
1 跟贴 1
767三年级数学下册第一单元测试卷讲解――免费听（可打印）

我服子佩 2025-11-17 10:17:26
1 跟贴 1
南马“岛式穿越”获赞！网友：建议全国推广！

扬子晚报 2025-11-17 12:30:15
274 跟贴 274
你急它不急：GPT-5先判断，再决定「速答」还是「深想」

新智元 2025-11-17 14:14:53
0 跟贴 0

苹果官宣，新 Apple Store 来了！

苹果官宣，新 Apple Store 来了！

花果科技

2025-11-17 22:06:02

遭绝杀！利物浦1.3亿双星哭成泪人已无缘世界杯40年比国足还惨

遭绝杀！利物浦1.3亿双星哭成泪人已无缘世界杯40年比国足还惨

我爱英超

2025-11-17 07:45:51

国防部：已向美方提出严正交涉！

国防部：已向美方提出严正交涉！

新京报

2025-11-17 21:45:58

突传消息！知名男演员表演时突然倒地，抢救无效去世

突传消息！知名男演员表演时突然倒地，抢救无效去世

福建卫生报

2025-11-16 18:31:23

印军官：当中国武力解放台湾，印度不仅要夺取西藏，还要吞噬新疆

印军官：当中国武力解放台湾，印度不仅要夺取西藏，还要吞噬新疆

近史博览

2025-09-22 15:47:35

南昌籍演员邓超，冲上热搜！

动物奇奇怪怪

2025-11-17 00:30:11

白天陪玩晚上陪睡？明码标价8000一次！高端伴游沦为色情交易温床

白天陪玩晚上陪睡？明码标价8000一次！高端伴游沦为色情交易温床

阿纂看事

2025-08-29 15:46:57

2000年到2043年大学毕业人数天梯

2000年到2043年大学毕业人数天梯

微微热评

2025-11-13 09:58:24

山西长治反杀案新细节曝光：法院公布当晚视频，刀上DNA曝玄机，消失的剪刀成谜

山西长治反杀案新细节曝光：法院公布当晚视频，刀上DNA曝玄机，消失的剪刀成谜

冬天来旅游

2025-11-16 14:01:38

Shams：莫兰特右小腿一级拉伤，两周后再做评估

Shams：莫兰特右小腿一级拉伤，两周后再做评估

懂球帝

2025-11-18 02:45:06

2025年国内艾滋病数据三大指标报警，男同交友软件Blued全线下架

2025年国内艾滋病数据三大指标报警，男同交友软件Blued全线下架

道术意义

2025-11-16 07:33:56

中央定调未来5年，2026年养老金或将继续调整，企退能涨80元吗？

中央定调未来5年，2026年养老金或将继续调整，企退能涨80元吗？

甜柠聊史

2025-11-17 16:11:50

俄媒：一旦中美在台海开战，中方要是不能调动民间力量，将必败无疑！

俄媒：一旦中美在台海开战，中方要是不能调动民间力量，将必败无疑！

荷兰豆爱健康

2025-11-14 14:58:41

金一南曾发表观点：如果战争来了，一大批“办公室将军”将被淘汰

金一南曾发表观点：如果战争来了，一大批“办公室将军”将被淘汰

文史旺旺旺

2025-11-13 21:42:07

闻泰科技，扭转乾坤！

飞鲸投研

2025-11-11 18:52:27

一旦开启武统，大陆和台湾谁先垮？柯文哲：大陆恐怕撑不过两周。

一旦开启武统，大陆和台湾谁先垮？柯文哲：大陆恐怕撑不过两周。

明月文史

2025-10-10 12:23:09

为啥礼让行人变成必须让了？网友：礼让是宣传，必须让是法律规定

为啥礼让行人变成必须让了？网友：礼让是宣传，必须让是法律规定

解读热点事件

2025-10-25 00:20:03

葛曼棋退赛，陈妤颉11秒10夺金，创亚洲青年纪录，吃惊全场

葛曼棋退赛，陈妤颉11秒10夺金，创亚洲青年纪录，吃惊全场

犟种美食

2025-11-18 00:40:17

中年人失业后：你绝对想不到的真实现状！

中年人失业后：你绝对想不到的真实现状！

特约前排观众

2025-11-17 00:10:03

中国6G突传捷报！外媒感叹步步领先，全球试验网首次实现通智融合

中国6G突传捷报！外媒感叹步步领先，全球试验网首次实现通智融合

南宗历史

2025-11-17 08:43:13

追踪人工智能动态

11691文章数 176331关注度

往期回顾全部

科技要闻

京东外卖要“独立” 刘强东还宣战“点评”

头条要闻

该聊聊琉球问题了日本国内集体破大防

头条要闻

该聊聊琉球问题了日本国内集体破大防

体育要闻

当家球星受伤后，球迷乐翻了天？

娱乐要闻

金鸡奖是“照妖镜”，揭露人情冷暖？

财经要闻

高市早苗的算计，将让日本割肉5000亿

汽车要闻

新增CDC后变化大吗？试驾特斯拉model Y L

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

房产

教育

公开课

军事航空

旅游要闻

三亚发布“四张清单” 全场景守护旅游旺季玩海安全

房产要闻

首开狂卖6.68亿！海口这个顶级教育红盘，引爆海口楼市！

教育要闻

课后延时服务引发诸多矛盾，该考虑取消了！

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

韩国提议举行朝韩军事会谈

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版