网易首页 > 网易号 > 正文 申请入驻

GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

0
分享至

白交 发自 凹非寺
量子位 | 公众号 QbitAI

别急着用GPT-5编程了,可能它能力没有你想象中那么强。

有人发现,官方测试编程能力用的SWE-bench Verified,但货不对板,只用了477个问题。



什么意思呢?我们知道,SWE-bench是评估模型/智能体自主编程能力的一个通用且常用的指标。而SWE-bench Verified作为它的子集,本来一共有500个问题。

现在相当于OpenAI自行省略的那23个问题,自己搞了个子集的“子集”来评估模型能力。

而如果这些题默认零分,那么得分实际上是比Claude Opus 4.1还要低的。因为现在仅有0.4%的差距。



OpenAI这种自行忽略23道题的操作,已经不是第一次了。

早在GPT-4.1发布时就信誓旦旦地说,之所以忽略是因为这些问题的解决方案无法在他们的基础设施运行。



离谱了朋友们!要知道SWE-bench Verified这个OpenAI自己提的,理由也是因为SWE-bench无法系统评估模型的编程能力,所以决定自己再提炼一个子集。

现在又因为测试题无法正常运行,所以自行又搞了个子集的“子集”。

本来以为GPT-5直播里出现图表错误已经够离谱了,结果现在告诉我这里面的成绩可能还有假?



OpenAI一直省略23个问题

已经开始有网友发现,GPT-5能力并不比Claude 4.1 Opus好多少。

现在来看,这个官方给的结果或许根本没有参考价值。

网友们除了自行忽略部分测试题,“伪造了结果”这一发现外,还发现,他们是将具有最大思维努力的GPT-5与没有扩展思维仅靠原始模型输出的Opus 4.1进行比较。这种比较实际上没有参考意义。



而他们之所以只使用477个问题来测试,理由也跟GPT-4.1发布时一样,因为他们内部的基础设施运行不了剩下的23个问题。



今年4月份发布GPT-4.1时,在同一基准仅使用477个问题下得得分在54.6%。

当时官方还指出,如果保守地将这些问题的得分定为 0,那么54.6%的得分就变成了52.1%。即便是这样,这个数值放在当时也是最高的。



而Anthropic这边,其实也已经发现了OpenAI这个操作。

就在Claude Opus 4.1发布公布编程成绩之时,在文章的末尾有这么一句话。



对于Claude 4系列模型,他们继续使用相同的简单框架,该框架仅为模型配备了两种工具——一个Bash工具和一个通过字符串替换进行文件编辑的工具,并且不再包含Claude 3.7 Sonnet中使用的第三个“规划工具”。

并在最后注明:在所有Claude 4模型中,他们报告的分数基于完整的500个问题。OpenAI模型的得分基于477问题的子集进行报告



基准还是OpenAI自己提的

如果说,SWE-bench Verified还是OpenAI自己提的基准,那这件事就更离谱了。

这不就相当于自己搬起石头砸自己的脚啦嘛。



当时啊还是因为类似的原因——他们测试发现SWE-bench的一些任务可能难以解决甚至无法解决,导致SWE-bench无法系统性评估模型的自主编程能力。

于是乎,他们决定与SWE-bench的作者合作,决定弄出个新版本,希望能够提供更准确的评估。

他们共同发起了一项人工注释活动,共有93位资深程序员参与进来,以筛选SWE-bench测试集每个样本,从而获得适当范围的单元测试和明确指定的问题描述。

他们随机抽取了1699个样本,然后基于统一标准来进行标注。

比如,问题描述是否明确?每个注释都有一个标签,范围从 [0, 1, 2, 3],严重程度依次递增。

标签0和1 表示轻微;标签2和3表示严重,表示样本在某些方面存在缺陷,应予以丢弃。



此外,我们还会评估每个示例的难度,方法是让注释者估算开发人员确定并实现解决方案所需的时间。

最终得到了500个经过验证的样本,并且按照难度对数据集进行细分。“简单”子集包含196个小于15分钟的修复任务,而“困难”子集包含 45 个大于 1 小时的任务。

结果现在这个子集又被OpenAI缩减了。

One More Thing

不过,还是有个总榜单或许值得参考,就是那个最原始的SWE-bench。

在这个榜单中,Claude 4 Opus还是占据着领先位置。



GPT-5也已经发过好一阵了,不知道你有没有这样类似的编程体验呀?欢迎在评论区与我们分享。

参考链接:
[1]https://www.swebench.com/
[2]https://openai.com/index/introducing-gpt-5/
[3]https://www.anthropic.com/news/claude-opus-4-1
[4]https://x.com/SemiAnalysis_/status/1955028150217478177
[5]https://x.com/DavidOndrej1/status/1954158161721487482

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女单决赛堪比神仙打架,邓亚萍给出6字点评,最大赢家并非王曼昱

女单决赛堪比神仙打架,邓亚萍给出6字点评,最大赢家并非王曼昱

萌兰聊个球
2025-11-17 09:07:58
德国媒体哀叹:中美两强博弈,难道我们欧盟真就只配当棋子了吗?

德国媒体哀叹:中美两强博弈,难道我们欧盟真就只配当棋子了吗?

历史求知所
2025-11-16 13:55:08
放心,打不起来

放心,打不起来

基本常识
2025-11-16 23:57:22
震惊!杨兰兰案第四次庭审,惊爆全网

震惊!杨兰兰案第四次庭审,惊爆全网

热点菌本君
2025-11-16 17:48:30
乐视创始人欠122亿巨债跑美七年,400多名老员工让乐视起死回生。

乐视创始人欠122亿巨债跑美七年,400多名老员工让乐视起死回生。

百态人间
2025-11-05 05:35:03
湖南一婴儿一出生就15岁?4岁男孩和19岁双胞胎姐姐“同龄”,医生:冻胚理论上可无限期保存

湖南一婴儿一出生就15岁?4岁男孩和19岁双胞胎姐姐“同龄”,医生:冻胚理论上可无限期保存

极目新闻
2025-11-17 13:33:51
选择南渡的傅斯年,在去世16年后却祸及了在大陆的家人,令人唏嘘

选择南渡的傅斯年,在去世16年后却祸及了在大陆的家人,令人唏嘘

谈古论今历史有道
2025-11-13 17:40:03
不顾央视警告顶风作案,与刘涛传出绯闻的杨烁,究竟是谁给的底气

不顾央视警告顶风作案,与刘涛传出绯闻的杨烁,究竟是谁给的底气

芳芳历史烩
2025-09-24 20:13:19
“东宁忠诚伯冯锡范”这个称呼,问题有多严重?

“东宁忠诚伯冯锡范”这个称呼,问题有多严重?

名人苟或
2025-11-17 06:02:33
钱再多有什么用?57岁李克勤家丑曝光!一个败家子毁了全家

钱再多有什么用?57岁李克勤家丑曝光!一个败家子毁了全家

奥字侃剧
2025-11-14 18:17:50
释永信被正式批捕!挖出哪些不为人知的秘密?私下里他和谁在一起

释永信被正式批捕!挖出哪些不为人知的秘密?私下里他和谁在一起

刚哥说法365
2025-11-16 14:35:38
父亲分720万遗产没我的份,我要走父亲却说:我以后还得靠你照顾

父亲分720万遗产没我的份,我要走父亲却说:我以后还得靠你照顾

兰姐说故事
2025-09-30 17:10:15
泰国国王给中国送上大礼,想要的中国也给了,美国彻底失去东盟?

泰国国王给中国送上大礼,想要的中国也给了,美国彻底失去东盟?

近史博览
2025-11-16 23:15:27
剑桥学霸诞生!谢氏家族迎来高光时刻,三代逆袭:从戏子到科学家

剑桥学霸诞生!谢氏家族迎来高光时刻,三代逆袭:从戏子到科学家

荆楚寰宇文枢
2025-11-16 21:12:28
唏嘘!匈牙利遭读秒绝杀 连续10届无缘世界杯 8500万巨星瘫坐痛哭

唏嘘!匈牙利遭读秒绝杀 连续10届无缘世界杯 8500万巨星瘫坐痛哭

我爱英超
2025-11-17 01:11:30
刚刚,江苏下雪了!0℃,常州接下来……

刚刚,江苏下雪了!0℃,常州接下来……

中吴网
2025-11-17 13:17:02
夺舍换心都不靠谱,真相还看李嘉诚!

夺舍换心都不靠谱,真相还看李嘉诚!

BenSir本色说
2025-11-14 22:40:16
9-1,葡萄牙直通世界杯,C罗停赛,B费戴帽,内维斯3球+飙世界波

9-1,葡萄牙直通世界杯,C罗停赛,B费戴帽,内维斯3球+飙世界波

侧身凌空斩
2025-11-16 23:54:36
宇树机器人表演冲拳、踢腿等功夫时意外“翻车”摔倒,租赁店负责人:踩到了衣服,租一天七八千元

宇树机器人表演冲拳、踢腿等功夫时意外“翻车”摔倒,租赁店负责人:踩到了衣服,租一天七八千元

极目新闻
2025-11-17 09:37:57
0.8秒三分准绝杀!马卡47分爵士双加时险胜公牛 吉迪26+12+13

0.8秒三分准绝杀!马卡47分爵士双加时险胜公牛 吉迪26+12+13

醉卧浮生
2025-11-17 12:22:17
2025-11-17 16:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
11688文章数 176331关注度
往期回顾 全部

科技要闻

有了通义和夸克,阿里为何再推千问App?

头条要闻

台34个团体严正抗议:拒绝成为日本军国主义的牺牲品

头条要闻

台34个团体严正抗议:拒绝成为日本军国主义的牺牲品

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

二次封后的宋佳凭什么狂妄?

财经要闻

疯狂的"吸金村":村民大肆盗采地下水

汽车要闻

荣威M7+豆包大模型 用车机AI策划说车视频怎么样?

态度原创

房产
游戏
本地
旅游
公开课

房产要闻

首开狂卖6.68亿!海口这个顶级教育红盘,引爆海口楼市!

卡普空强调《生化危机9》可切换视角:各有各的好!

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

旅游要闻

安徽黄山:云涛卷翠 天地共成诗画

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版