网易首页 > 网易号 > 正文 申请入驻

GPT-5 测试被质疑作弊,故意避开难题刷高分?图表「生成」还得看 OpenAI

0
分享至

人不能同时踩两个坑,但 OpenAI 做到了。

GPT-5 发布会上,OpenAI 因为一张比例失调的图表被全网群嘲。后续他们火速更新图表,目前已经调整好了比例。


表面上看,GPT-5 在 SWE-bench Verified 测试中拿下 74.9% 的成绩,似乎压了 Claude 一头,但知名分析机构 SemiAnalysis 却发现这图表里还藏着别的猫腻。


(左为新版图表,右为旧版出错图表)

给吃瓜的朋友先科普一下,SWE-bench Verified 是什么?

简单说,这是个专门测试 AI 写代码能力的考卷,里面有 500 道实战题。每道题都来自 GitHub 上的真实 bug,主要是 Python 项目——Django、matplotlib、scikit-learn 等。

AI 要像真正的开发者一样提交 Pull Request 来修复 bug,还得通过所有测试用例。

尽管模型可能存在只是「记住」了仓库代码的情况,而不是真的具备广泛的编程推理能力,但 业内仍普遍认为,这是最接近真实开发场景的 AI 测试之一。


Anthropic 很实诚。8 月 6 日发布 Claude Opus 4.1 时,他们明确表示:所有 Claude 4 系列的成绩都是老老实实做完 500 道题算出来的,Claude Opus 4.1 得了 74.5%。

OpenAI 呢?74.9% 的成绩看着更高,但仔细一瞧——他们只做了 477 道题。

少了整整 23 道。


于是,SemiAnalysis 直接开始算账:500 道题考 74.9%,大概答对了 374.5 道。但 OpenAI 在标注里白纸黑字写着——他们只跑了 477 道题。那 23 道哪儿去了?OpenAI 的解释是:「这些题在我们现有的基础设施上无法运行。」

有意思的是,OpenAI 很敞亮,至少说了是 477 道题。但又不是很敞亮——别家都是 500 道题的标准套餐,你少做 23 道,还把分数挂在最显眼的地方比较,这就有点微妙了。

而这已经不是 OpenAI 第一次这么干了。

今年 4 月发布 GPT-4.1 时,OpenAI 就承认过这事儿。他们还做了个「保守估算」:如果把那 23 道没做的题都算 0 分,GPT-4.1 的成绩会从 54.6% 跌到 52.1%。


那问题来了,这 23 道题到底是题目本身有问题,还是技术上确实搞不定?更关键的是,这些题难不难?如果恰好都是难度较高或者能拉低整体表现的题目,那 GPT-5 和 Claude Opus 4.1 的对比就没那么公平了。

值得一提的是,SWE-bench Verified 这个测试集本身是由 OpenAI 在 2024 年推出。OpenAI 说,原始的 SWE-bench 数据集里有些题实在太难,几乎无法解决,会让 AI 的真实能力被低估。

为了让测试更合理,OpenAI 大手笔请了 93 名程序员,给 1699 道题目打分。评分标准是 0 到 3:

0 分:题目清晰,AI 能直接理解

1 分:需要额外解释

2 分:题目模糊,有多种理解方式

3 分:没有额外信息基本做不了

然后,OpenAI 把所有 2 分和 3 分题都扔了,只留下 0、1 分的题目。然后从中随机抽了 500 道,这 就是 SWE-bench Verified——一个经过「净化」的测试集。


这也就导致 OpenAI 既是裁判又是选手。他们制定规则,然后用自己定的规则来比赛。如果去 swebench.com 看原版排行榜,我们可能反而更清楚。

这里的测试环境更加「原汁原味」,此外,这个榜单对模型能用的外部工具有限制——只能用 bash 命令行,不能调用更多开发工具或额外服务;测试框架也都是公开的。


而在这个榜单上,5 月 14 日版本的 Claude 4 Opus 反而领先于 GPT-5。

说到「内部版本」和「公开版本」的差距,今天 OpenAI 又秀了一把肌肉。

他们的内部推理模型在 IOI 2025(国际信息学奥林匹克竞赛)上拿到 AI 组第一、人类总排名第 6。并且,这个模型跟上次拿 IMO 金牌的是同一个版本,没有专门针对 IOI 做额外训练。

成绩确实很强——5 小时、50 次提交、不联网的限制下还能拿金牌,算法推理和代码生成能力相当可怕。但问题又来了:这不是你能用到的 GPT-5,而是 OpenAI 内部的「实验室版本」,可能更大、更强、成本也更高。


所以你看,OpenAI 在营销上确实很会玩——SWE-bench 上少做 23 道题,但把分数放在最显眼的地方;IOI 上用内部模型拿金牌,但很容易让大家以为这就是 ChatGPT 的实力。


在 AI 竞赛白热化的今天,零点几个百分点的差距都能成为营销亮点。测试范围、题目选择、计分方式,每个细节都可能被放大镜审视。


当然,也有网友指出,为了一个基准测试上 2% 的差异吵得不可开交没啥意义,GPT-5 的价格比 Opus 便宜 10 倍,比 Sonnet 也便宜近 2 倍。或许对大多数用户来说,这才是真正的「硬指标」。

欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取,解锁更多 AI 新知

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山东省泰安市政协原副主席倪庆宾被“双开”

山东省泰安市政协原副主席倪庆宾被“双开”

界面新闻
2026-02-25 10:34:47
离谱!回国过春节,返美入境时H-b工作签证被吊销,遣返回国

离谱!回国过春节,返美入境时H-b工作签证被吊销,遣返回国

大洛杉矶LA
2026-02-25 06:37:36
AI会增加人类智商!清华大学专家:未来10年一周只需工作2天 工资还会变高

AI会增加人类智商!清华大学专家:未来10年一周只需工作2天 工资还会变高

快科技
2026-02-25 09:51:29
哈登0罚20分创队史最老纪录!骑士赛季首胜尼克斯 米切尔23分

哈登0罚20分创队史最老纪录!骑士赛季首胜尼克斯 米切尔23分

醉卧浮生
2026-02-25 11:14:21
2026年开始,房地产将迎来“抛售潮”?内行人:房价可能超乎想象

2026年开始,房地产将迎来“抛售潮”?内行人:房价可能超乎想象

猫叔东山再起
2026-02-25 08:30:06
女子高速堵车走国道偶遇10年没见过面的初恋,一眼认出对方车牌,确认后互相打招呼

女子高速堵车走国道偶遇10年没见过面的初恋,一眼认出对方车牌,确认后互相打招呼

大象新闻
2026-02-24 18:44:05
老人狂买26万元金条!扬州一金店员工暗中报警

老人狂买26万元金条!扬州一金店员工暗中报警

环球网资讯
2026-02-25 07:45:08
2月24日起,中国出口美国关税将从20%降至10%

2月24日起,中国出口美国关税将从20%降至10%

壹航运
2026-02-25 09:45:06
李亚鹏年初六到陈光标家做客!为陈环保送行,陈光标妻子罕见露脸

李亚鹏年初六到陈光标家做客!为陈环保送行,陈光标妻子罕见露脸

离离言几许
2026-02-22 23:36:16
女子坐动车因个人原因误车,改签失败后起诉铁路部门索赔,法院:未按时乘车,又未在有效期内办理改签导致车票失效,后果应自行承担

女子坐动车因个人原因误车,改签失败后起诉铁路部门索赔,法院:未按时乘车,又未在有效期内办理改签导致车票失效,后果应自行承担

潇湘晨报
2026-02-25 11:35:05
央视发声!重庆烤全羊疯狂宰客,官方曝光作案手段,老板麻烦大了

央视发声!重庆烤全羊疯狂宰客,官方曝光作案手段,老板麻烦大了

天天热点见闻
2026-02-25 05:42:55
战争风险不断升高!美军重兵集结中东,“数十年来最大规模”

战争风险不断升高!美军重兵集结中东,“数十年来最大规模”

环球网资讯
2026-02-25 06:53:10
苦等17年!南京知名烂尾地标,有望复活!

苦等17年!南京知名烂尾地标,有望复活!

科学发掘
2026-02-25 07:54:08
母亲刚过世,姨妈来电:你妈每月给我2500生活费得继续给,我笑了

母亲刚过世,姨妈来电:你妈每月给我2500生活费得继续给,我笑了

小影的娱乐
2026-02-24 20:06:50
郑丽文提统一方案!大陆破格批准,台海局势或迎重大转折

郑丽文提统一方案!大陆破格批准,台海局势或迎重大转折

林子说事
2026-02-25 04:59:54
宇树机器人去年只卖了5500多台,普通家庭基本没有买的

宇树机器人去年只卖了5500多台,普通家庭基本没有买的

爆角追踪
2026-02-25 10:08:50
默茨还没在北京入座,德国对华鹰派先摊牌了,中方恐将以1敌27国

默茨还没在北京入座,德国对华鹰派先摊牌了,中方恐将以1敌27国

奇奇圈
2026-02-25 09:24:46
离婚才几年,杨颖这是怎么了?

离婚才几年,杨颖这是怎么了?

文刀万
2026-02-24 17:40:03
紧急预警!81款耳机全沦陷,你戴的不是耳机,是“慢性毒药”?

紧急预警!81款耳机全沦陷,你戴的不是耳机,是“慢性毒药”?

戗词夺理
2026-02-23 15:20:41
河南二次通报平顶山事件,这对嚣张夫妻三天就被批捕了

河南二次通报平顶山事件,这对嚣张夫妻三天就被批捕了

林中木白
2026-02-25 09:08:10
2026-02-25 13:20:49
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6126文章数 26785关注度
往期回顾 全部

科技要闻

苹果MacBook Pro要加触摸屏了,还带灵动岛

头条要闻

牛弹琴:美伊大战若还不打 全世界都会看特朗普的笑话

头条要闻

牛弹琴:美伊大战若还不打 全世界都会看特朗普的笑话

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

撒贝宁到沈阳跑亲戚 老婆李白模特身材

财经要闻

春节档"开门黑" 电影票少卖了7000万张

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

旅游
时尚
健康
教育
本地

旅游要闻

非遗闹春年味浓 河南商城文旅喜迎“开门红”

普通人穿衣别太老气横秋!这些穿搭给你灵感,保暖耐看两不误

转头就晕的耳石症,能开车上班吗?

教育要闻

2026年湖南省内高职(专科)院校单招缴费、准考证打印时间汇总

本地新闻

津南好·四时总相宜

无障碍浏览 进入关怀版