网易首页 > 网易号 > 正文 申请入驻

GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

0
分享至

白交 发自 凹非寺
量子位 | 公众号 QbitAI

别急着用GPT-5编程了,可能它能力没有你想象中那么强。

有人发现,官方测试编程能力用的SWE-bench Verified,但货不对板,只用了477个问题。

什么意思呢?我们知道,SWE-bench是评估模型/智能体自主编程能力的一个通用且常用的指标。而SWE-bench Verified作为它的子集,本来一共有500个问题。

现在相当于OpenAI自行省略的那23个问题,自己搞了个子集的“子集”来评估模型能力。

而如果这些题默认零分,那么得分实际上是比Claude Opus 4.1还要低的。因为现在仅有0.4%的差距。

OpenAI这种自行忽略23道题的操作,已经不是第一次了。

早在GPT-4.1发布时就信誓旦旦地说,之所以忽略是因为这些问题的解决方案无法在他们的基础设施运行。

离谱了朋友们!要知道SWE-bench Verified这个OpenAI自己提的,理由也是因为SWE-bench无法系统评估模型的编程能力,所以决定自己再提炼一个子集。

现在又因为测试题无法正常运行,所以自行又搞了个子集的“子集”。

本来以为GPT-5直播里出现图表错误已经够离谱了,结果现在告诉我这里面的成绩可能还有假?

OpenAI一直省略23个问题

已经开始有网友发现,GPT-5能力并不比Claude 4.1 Opus好多少。

现在来看,这个官方给的结果或许根本没有参考价值。

网友们除了自行忽略部分测试题,“伪造了结果”这一发现外,还发现,他们是将具有最大思维努力的GPT-5与没有扩展思维仅靠原始模型输出的Opus 4.1进行比较。这种比较实际上没有参考意义。

而他们之所以只使用477个问题来测试,理由也跟GPT-4.1发布时一样,因为他们内部的基础设施运行不了剩下的23个问题。

今年4月份发布GPT-4.1时,在同一基准仅使用477个问题下得得分在54.6%。

当时官方还指出,如果保守地将这些问题的得分定为 0,那么54.6%的得分就变成了52.1%。即便是这样,这个数值放在当时也是最高的。

而Anthropic这边,其实也已经发现了OpenAI这个操作。

就在Claude Opus 4.1发布公布编程成绩之时,在文章的末尾有这么一句话。

对于Claude 4系列模型,他们继续使用相同的简单框架,该框架仅为模型配备了两种工具——一个Bash工具和一个通过字符串替换进行文件编辑的工具,并且不再包含Claude 3.7 Sonnet中使用的第三个“规划工具”。

并在最后注明:在所有Claude 4模型中,他们报告的分数基于完整的500个问题。OpenAI模型的得分基于477问题的子集进行报告

基准还是OpenAI自己提的

如果说,SWE-bench Verified还是OpenAI自己提的基准,那这件事就更离谱了。

这不就相当于自己搬起石头砸自己的脚啦嘛。

当时啊还是因为类似的原因——他们测试发现SWE-bench的一些任务可能难以解决甚至无法解决,导致SWE-bench无法系统性评估模型的自主编程能力。

于是乎,他们决定与SWE-bench的作者合作,决定弄出个新版本,希望能够提供更准确的评估。

他们共同发起了一项人工注释活动,共有93位资深程序员参与进来,以筛选SWE-bench测试集每个样本,从而获得适当范围的单元测试和明确指定的问题描述。

他们随机抽取了1699个样本,然后基于统一标准来进行标注。

比如,问题描述是否明确?每个注释都有一个标签,范围从 [0, 1, 2, 3],严重程度依次递增。

标签0和1 表示轻微;标签2和3表示严重,表示样本在某些方面存在缺陷,应予以丢弃。

此外,我们还会评估每个示例的难度,方法是让注释者估算开发人员确定并实现解决方案所需的时间。

最终得到了500个经过验证的样本,并且按照难度对数据集进行细分。“简单”子集包含196个小于15分钟的修复任务,而“困难”子集包含 45 个大于 1 小时的任务。

结果现在这个子集又被OpenAI缩减了。

One More Thing

不过,还是有个总榜单或许值得参考,就是那个最原始的SWE-bench。

在这个榜单中,Claude 4 Opus还是占据着领先位置。

GPT-5也已经发过好一阵了,不知道你有没有这样类似的编程体验呀?欢迎在评论区与我们分享。

参考链接:
[1]https://www.swebench.com/
[2]https://openai.com/index/introducing-gpt-5/
[3]https://www.anthropic.com/news/claude-opus-4-1
[4]https://x.com/SemiAnalysis_/status/1955028150217478177
[5]https://x.com/DavidOndrej1/status/1954158161721487482

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
请注意:伊朗的事情已经再无悬念,川普应已开始着手加拿大

请注意:伊朗的事情已经再无悬念,川普应已开始着手加拿大

邵旭峰域
2026-03-02 11:52:58
华为公告了26年首虎,出手很重,结果想到了,也没想到!

华为公告了26年首虎,出手很重,结果想到了,也没想到!

达文西看世界
2026-02-17 11:16:01
大快人心!俄S-400王牌指挥官被击毙,克里米亚防空网彻底破防

大快人心!俄S-400王牌指挥官被击毙,克里米亚防空网彻底破防

老马拉车莫少装
2026-02-27 23:57:03
不想打了!护卫舰被击沉,美军确认伤亡,特朗普:伊朗主动找我谈

不想打了!护卫舰被击沉,美军确认伤亡,特朗普:伊朗主动找我谈

可乐爱微笑
2026-03-02 05:57:33
贺希宁晒合影庆祝男篮胜利,胡明轩评论:乐邦詹士先生

贺希宁晒合影庆祝男篮胜利,胡明轩评论:乐邦詹士先生

懂球帝
2026-03-02 10:09:20
北朝最漫长的一天

北朝最漫长的一天

《中国国家历史》
2026-03-01 13:07:04
伊朗这个国家很有意思!过去一百多年伊朗三次站队,但都选错了边

伊朗这个国家很有意思!过去一百多年伊朗三次站队,但都选错了边

百态人间
2026-01-15 05:00:03
杨瀚森NBA生涯得分超越韩国第一人河升镇

杨瀚森NBA生涯得分超越韩国第一人河升镇

大眼瞄世界
2026-03-01 21:50:56
哈梅内伊一死,普京急召全体高层,防空系统全失灵,俄这次背大锅

哈梅内伊一死,普京急召全体高层,防空系统全失灵,俄这次背大锅

感恩每日相伴
2026-03-02 01:41:52
狂轰49+8+6+6抢断!火箭旧将爆发,2场得分超40,斯通底薪可签他

狂轰49+8+6+6抢断!火箭旧将爆发,2场得分超40,斯通底薪可签他

熊哥爱篮球
2026-03-02 12:19:43
1956年,钱学森赴国宴却找不到座位,毛主席:你的名字是我划掉的

1956年,钱学森赴国宴却找不到座位,毛主席:你的名字是我划掉的

流逝的沙
2024-07-29 11:14:23
排队15小时,等位2000桌,只为吃一条鱼!烤匠背后是真香还是局?

排队15小时,等位2000桌,只为吃一条鱼!烤匠背后是真香还是局?

毒sir财经
2026-03-01 16:56:11
凶残隔扣杨瀚森!库明加3场64分23板打丢9冠王饭碗,库里追悔莫及

凶残隔扣杨瀚森!库明加3场64分23板打丢9冠王饭碗,库里追悔莫及

嘴炮体坛
2026-03-02 10:30:26
为什么很多小康家庭到了中年会返贫? 网友:只要输一次,满盘皆输

为什么很多小康家庭到了中年会返贫? 网友:只要输一次,满盘皆输

另子维爱读史
2026-02-04 20:09:10
伊朗的援军到了!以色列再征兵10万,关键时刻,普京对中国做承诺

伊朗的援军到了!以色列再征兵10万,关键时刻,普京对中国做承诺

小小科普员
2026-03-02 13:36:23
2连胜男篮最新评分!3人满分4人优秀,有3人郭士强下次不能再带了

2连胜男篮最新评分!3人满分4人优秀,有3人郭士强下次不能再带了

后仰大风车
2026-03-01 20:26:16
伊朗强硬派被赶尽杀绝,亲美派总统安然无恙,顺利接掌大权

伊朗强硬派被赶尽杀绝,亲美派总统安然无恙,顺利接掌大权

石江月
2026-03-02 13:13:41
哈梅内伊接班人真狠人,一夜打遍中东美军:打出半个世纪最强战绩

哈梅内伊接班人真狠人,一夜打遍中东美军:打出半个世纪最强战绩

好贤观史记
2026-03-02 13:11:24
刚刚,中国AI打破医疗天花板!杭州团队再放大招,顶尖“三甲医生”人人可用!

刚刚,中国AI打破医疗天花板!杭州团队再放大招,顶尖“三甲医生”人人可用!

智药局
2026-03-01 18:49:37
现在低价卖掉房子的人,都将后悔?楼市传来3个消息,获网友支持

现在低价卖掉房子的人,都将后悔?楼市传来3个消息,获网友支持

专业聊房君
2026-03-01 16:44:08
2026-03-02 14:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
12212文章数 176399关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

体育要闻

卡里克主场5连胜!队史第2人通过最大考验

娱乐要闻

美伊以冲突爆发,多位明星被困中东

财经要闻

中东局势影响如何?十大券商策略来了

汽车要闻

预售11.28万起 狐全新阿尔法S5标配宁德时代

态度原创

时尚
亲子
教育
健康
军事航空

从每天只睡4小时到8小时:一个失眠者的自救指南

亲子要闻

新型家庭“诈骗”案例,专门针对人类幼崽的红包

教育要闻

拜托,请尽量不要和孩子分享这些

转头就晕的耳石症,能开车上班吗?

军事要闻

美军动用新型武器:山寨伊朗的

无障碍浏览 进入关怀版