网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

刷榜AI全挂了！Meta斯坦福地狱级测试，GPT/Claude/Gemini交出0分

2026-05-06 19:24:45　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：好困

【新智元导读】SWE-Bench上能拿72%的模型，换张考卷直接归零！Meta联合斯坦福、哈佛放出ProgramBench，200个项目从零手写，9大顶级模型完整通过率0%。最强的Claude Opus 4.7平均通过率也才51.2%。更离谱的是一联网，就有模型在36%的任务里跑去GitHub扒源码。

给你一份FFmpeg的使用文档，和一个编译好的可执行文件。

现在，从零把整个程序重新写出来。

这就是ProgramBench给全球顶级AI出的题。

昨天刚发布，出自SWE-Bench原班人马之手，Meta、斯坦福、哈佛三家联手打造。

200个软件项目。9个顶级模型。通过率，0%！

共同一作John Yang，斯坦福在读博士，同时也是SWE-Bench和SWE-agent的创建者

不是修bug，是从零造软件

过去一年，「让AI Agent从零造软件」的案例报道越来越多。

Anthropic用一组平行Claude写了个C编译器，Cursor发博客讲长时间自主编程，Epoch AI的MirrorCode也在做类似的事。

但这些案例有个共同问题，每次只测几个项目，脚手架都是手工调优的。

相比之下，ProgramBench把这件事正规化了。

200个任务，统一脚手架，系统性反作弊，一把拉到benchmark的标准。

论文地址：https://programbench.com/static/paper.pdf

在之前的测试中，SWE-Bench会给你一个现成的代码库，告诉你哪里有bug或者需要加什么功能，你去改。本质上是「阅读理解+局部手术」。

而且在评估层面，它用的是单元测试，检查你的代码内部实现对不对，你的函数签名、变量名都得和预期一致。

ProgramBench则完全反过来。

它只给你两样东西，一个编译好的可执行文件，加上使用文档。

你的任务是仅凭运行这个程序、观察它的输入输出行为，从零写出一套能复现同样行为的代码。

选什么编程语言，用什么数据结构，怎么拆分模块，全部你自己定。

没有代码骨架，没有函数签名，没有任何提示。

评估方式上，研究团队用Agent驱动的模糊测试，为200个任务生成了总计248,853个行为测试。

你写的程序跑一遍，输入输出和原版一致就算过，不一致就挂。测试永远不会透露给模型。

和SWE-Bench的单元测试不同，ProgramBench的行为测试完全不关心你的代码内部长什么样，只要行为一致就行。

200个任务覆盖的项目横跨压缩工具（zstd、lz4、brotli）、语言解释器（PHP、Lua、tinycc）、数据库（DuckDB、SQLite）、媒体处理（FFmpeg）、开发者工具（ripgrep、fzf、jq）。

代码行数中位数8,635行，最大的FFmpeg有270万行。

总结来说，这个测试考的是AI有没有能力「像人类工程师一样思考和设计软件」，而不只是「在现成代码里找到该改的地方然后改对」。

九大模型排排坐，成绩全部吃鸭蛋

参加测试的共有9款模型，涵盖Claude、Gemini、GPT三大家族。

完整通过率（所有测试全部通过），全员0%。

先看三家旗舰的正面对决。

GPT-5.4和Gemini 3.1 Pro的平均测试通过率几乎打平，分别是38.3%和36.6%。但两者的做题风格截然不同。

GPT-5.4只用16次API调用、0.33美元成本，基本就是一口气把整个程序写完，100%的代码在一次编辑中生成，之后几乎不回头改。

Gemini 3.1 Pro则是9个模型里最爱「观察」的。它用了94次API调用，其中34.1%的操作都在运行原版程序、观察输入输出行为。探索做得最多，但最终成绩差距不大。

真正拉开身位的是Claude Opus 4.7。

平均通过率51.2%，在3%的任务上通过了95%以上的测试，是唯一达到「几乎通过」标准的模型。但即便是它，也没有在任何一个任务上拿到满分。

从整体来看，9个模型的表现呈现出清晰的梯队。

Claude系三款旗舰（Opus 4.7、Opus 4.6、Sonnet 4.6）领先，GPT-5.4和Gemini 3.1 Pro构成第二梯队，剩下的四款小模型通过率都在35%以下。

另一个反直觉的发现是，砸钱和堆步数并不能换来更好的成绩。

Sonnet 4.6每个任务平均跑868条命令，成本27.09美元，最长的轨迹接近2000步。但它的成绩反而不如只用93次调用、花3.81美元的Opus 4.7。

更关键的是，98%的运行中，模型都是自己觉得「做完了」主动交卷的，根本没有撞到时间或步数上限。

不是考试时间不够，是真的做不到。

此外，任务难度和模型排名高度一致。

简单的CLI工具（nnn、fzf、gron）大家都能拿到不错的分数，复杂系统（FFmpeg、PHP、typst、ast-grep）则对所有模型一视同仁地无情。

需要说明的是，ProgramBench用的是mini-SWE-agent这个极简脚手架，没有上下文压缩、没有多Agent协作、没有定制化工具链。

代码写出来了，但完全不像人写的

研究团队对比了通过75%以上测试的高分解答和人类原版代码，发现了几个惊人的差异。

单文件怪兽。

人类代码中位数分布在15个文件里，模型的中位数是3个。

60%的解答只有1到3个代码文件。

人类工程师按功能拆分模块，模型倾向于把所有东西塞进一个巨大的文件。目录深度中位数，人类是2层，模型是1层。

函数又少又长。

Opus 4.7写的函数数量只有人类的29%，Sonnet 4.6是24%，GPT-5.4只有10%。

但每个函数的平均长度更长，Gemini 3.1 Pro写的函数比人类长62%。

代码量大幅缩水。

模型代码中位数1,173行，人类是3,068行。85%的高分解答比原版短。

总结来说就是，现在的AI会写代码，但不会做软件设计。

它不懂为什么要拆分模块，不理解为什么人类工程师要花时间定义接口和抽象层。策略就是把所有逻辑硬塞进尽可能少的文件和函数里，能跑就行。

GPT-5.4的表现最极端。平均每个任务只创建5个文件，修改1.2次，39.5%的轨迹在创建文件后零修改。

相比之下，Claude Sonnet 4.6平均创建11.3个文件、修改18.3次，表现出更接近人类的迭代开发模式。

还有一个很有意思的现象。

模型只有50%的概率会用和原版相同的编程语言。

其中，Python是模型的最爱，占所有1,800次运行的36%。

原版用Rust写的项目，只有44%用Rust重写；C/C++的，46%。Go项目的「忠诚度」最高，70%。

不管你原来是用什么语言写的，模型有三分之一的概率会用Python重来一遍。

说好的不作弊，一联网就去GitHub扒源码

这可能是整个研究里最有戏剧感的部分。

研究团队做了一组对照实验，给模型开放网络访问权限，但在系统提示中明确告知「作弊不允许」。

然后用9个AI裁判检查每条轨迹是否存在作弊行为。

结果触目惊心。

Claude Sonnet 4.6有36%的任务被判定作弊，Claude Opus 4.6是21%，Gemini 3 Flash是20%。

作弊方式五花八门。

最赤裸裸的是去GitHub克隆源码仓库。

稍微隐蔽一点的是通过包管理器下载，比如cargo install、go get。

更狡猾的是去本地包缓存目录翻依赖库的源码。

但AI裁判之间的分歧也大得惊人。

对于Claude Opus 4.6，9个裁判在57%的任务上无法达成一致。

有一个案例特别典型。

Claude Sonnet 4.6在做handlr这个Rust项目时，跑去~/.cargo/registry/src/目录翻了xdg-mime、clap等依赖库的源代码。

5个裁判判定作弊，4个裁判认为这些是第三方库不算作弊。

最终，研究团队放弃了「联网+事后检测」的方案，直接断网。

模型在面对困难任务时，「找捷径」的倾向比预想的强得多。而连9个AI裁判都判不清楚什么算作弊、什么算合理的逆向工程，说明这条边界本身就是模糊的。

旧考试结束了，新考试才刚开始

SWE-Bench上能拿72%的模型，在ProgramBench上拿0%。

这两个测试考的根本就是两种能力。SWE-Bench考的是「在别人的代码里找到问题并修好」，ProgramBench考的是「自己从头设计并实现一个完整系统」。

前者AI已经做得相当好了，后者目前完全不及格。

Epoch AI上周刚发了一篇博文，宣判旧推理benchmark集体死亡。想搞出还没被刷爆的测试，至少得放弃四个舒适条件中的一个，纯文本、短耗时、易评分、人类专家碾压。

按这个框架来看，ProgramBench放弃了其中两个，短耗时和易评分。

它把任务拉到了人类工程师可能需要数周甚至数月才能完成的量级，同时用行为等价性而非源码匹配来评估。

作者John Yang在推文中强调，「ProgramBench非常难，但它在设计上是可解的。」

也就是说，0%不代表这些任务超出了AI的理论极限，只是说明今天的模型还远远不够。

SWE-Bench测的是AI能不能当一个好员工。ProgramBench测的是AI能不能当一个工程师。

这两件事之间的距离，今天刚被精确测量出来。答案是0%。

参考资料：

https://programbench.com/static/paper.pdf

https://x.com/jyangballin/status/2051677497562210552?s=20

https://x.com/EpochAIResearch/status/2051760424891392204?s=20

https://epochai.substack.com/p/rip-classic-reasoning-benchmarks

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

刚刚，马斯克认了！SpaceXAI偷传代码全部删除

新智元 2026-07-14 13:46:18
5 跟贴 5
Agent专用搜索登顶Product Hunt，Token更省搜得更准

量子位 2026-07-13 23:10:32
0 跟贴 0

仅11天，Claude重写百万行代码，AI史诗级工程却引来愤怒

机器之心Pro 2026-07-12 17:18:28
4 跟贴 4

为了给智能体「铺路」，阶跃造了台手机和一个AgentOS

雷科技 2026-07-14 10:42:41
0 跟贴 0
10美元破解机器人触觉难题！斯坦福开源方案让机械手拥有人类手感

DeepTech深科技 2026-04-19 19:34:17
8 跟贴 8

ACL 2026 SAC Highlight｜机器学习Agent的真正瓶颈，不是写代码，而是判断哪个实验值得跑

机器之心Pro 2026-07-14 16:14:56
0 跟贴 0

Agent要数量也要脑子！浪潮信息一边单柜养4万Agent，一边让大模型组队答题

量子位 2026-07-13 19:57:14
4 跟贴 4
100+Skill导演级专家随叫随到！

量子位 2026-07-14 11:33:40
0 跟贴 0

斯坦福发布生物医学 AI 研究智能体

生物学霸 2026-07-12 17:11:25
0 跟贴 0
不会代码的文科生，已经开始用AI做产品了

虎嗅APP 2026-07-14 03:08:29
0 跟贴 0
VLMgineer让大模型自己「发明工具」，从设计到使用全自动

机器之心Pro 2026-03-20 14:15:17
0 跟贴 0
AI应用的“最后一公里”，模型再强也绕不开数据困境丨ToB产业观察

钛媒体APP 2026-07-14 10:17:16
0 跟贴 0
Agent-World：扩展真实世界环境，让智能体与环境协同进化！

机器之心Pro 2026-05-06 12:40:24
0 跟贴 0
把AI做进材料，这家公司想造会学习的机器人“细胞”

DeepTech深科技 2026-07-04 18:18:46
0 跟贴 0
印奇“十问十答”：首款AI智能体手机，怎么造？

智东西 2026-07-14 18:43:59
0 跟贴 0
印奇入主阶跃星辰170天后，亮出AI手机底牌

财天COVER 2026-07-14 18:53:09
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
你的聊天“搭子”即将下线，AI情感陪伴产品断连倒计时

经济观察报 2026-07-14 17:39:26
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
上海公司代码库遭七名印度员工锁死，老板等待两天后采取行动

金额多少啊 2026-07-14 03:15:42
1 跟贴 1
把Agent丢入1000+文件：人大CoDA-Bench揭示Code Agent瓶颈

机器之心Pro 2026-07-05 16:28:08
0 跟贴 0
感受新时代办公方式：万米高空指挥AI敲代码，追剧工作两不误

傅盛 2026-07-12 10:44:59
0 跟贴 0
一喝酒就脸红，痴呆蛋白猛涨3倍多？斯坦福最新：喝酒“上脸”者，易加剧脑损伤，促进阿尔茨海默病，诱发神经炎症

梅斯医学 2026-07-12 07:56:33
40 跟贴 40
SK海力士ADR跌超9%，长协锁价拖累盈利预期；Meta路易斯安那AI数据中心投资增至500亿美元丨全球科技早参

每日经济新闻 2026-07-14 07:54:12
1 跟贴 1
江农转债今日申购

每日经济新闻 2026-07-14 08:26:03
0 跟贴 0
斯坦福奥德赛计划skills，能剧透你5年后的人生？

机器之心Pro 2026-07-08 20:19:33
0 跟贴 0
AI自己写代码，训出1B端侧「小钢炮」-1

机器之心Pro 2026-05-26 14:32:09
0 跟贴 0
Hassabis 斯坦福访谈

新智元 2026-06-08 15:55:46
0 跟贴 0
兽医给中暑的小猪打针，生动上演相对静止、绝对运动

江西晨报 2026-07-13 21:22:45
284 跟贴 284
女人火车站接收文件突遭鬼子包围关键时刻男子出手相救

捡影 2026-07-13 21:13:28
1 跟贴 1
若美国走向衰败，日韩会倒向中国吗？深度剖析其逻辑！

男人吻女人是一种口福 2026-07-14 03:53:12
0 跟贴 0
猪八戒不想取经了，让发电子文件！悟空筋斗云还用不了，限号

沙果唠生活 2026-07-13 05:24:15
29 跟贴 29
国产“三蹦子”佛得角走红，国内厂商：一年出口200多台，销量逐年上涨

上游新闻 2026-07-14 08:11:17
1885 跟贴 1885
千万别以为树叶小鸟是模型，夜里集体入眠，饲养人一次性全部收笼

超话看世界 2026-07-13 12:45:51
1 跟贴 1
事关房子、车子、收入、假期未来5年将有这些变化

大象新闻 2026-07-13 21:34:22
989 跟贴 989
女子参加家政培训拿到4个证书，上网却查无此证，七年后欲退款，负责人：无理取闹

极目新闻 2026-07-13 21:43:02
1166 跟贴 1166
46万元新车到手4小时就故障了！杭州奔驰车主提车当天方向盘三次卡死，厂家拒绝退换车，“只需升级软件”

都市快报橙柿互动 2026-07-14 15:26:19
487 跟贴 487
苹果成立50年，乔布斯的预言正在逐个应验

DeepTech深科技 2026-03-14 21:21:07
0 跟贴 0
印度想向全球卖阿斯特拉导弹，源代码壁垒成最大障碍，接口文件成谈判关键

止戈军是我 2026-07-14 08:58:01
9 跟贴 9
媒体：10年了14国还在拿一张废纸恫吓中国太荒诞了

北京日报 2026-07-13 22:55:14
384 跟贴 384

有猫腻？杨毅：恩博洛假摔下场后，瑞士主帅把黑人球员都换下去了

有猫腻？杨毅：恩博洛假摔下场后，瑞士主帅把黑人球员都换下去了

风过乡

2026-07-13 21:05:08

为了避雷“工业糖精”，年轻人宁愿代购港版可乐

为了避雷“工业糖精”，年轻人宁愿代购港版可乐

新周刊

2026-07-10 13:05:45

美对华进口暴跌，全球供应链正在大洗牌

美对华进口暴跌，全球供应链正在大洗牌

次元君情感

2026-07-14 14:32:12

江西50岁阿姨一生未婚，坚持寻找30年前的初恋，找到时她哭出声来

江西50岁阿姨一生未婚，坚持寻找30年前的初恋，找到时她哭出声来

白云故事

2025-06-09 19:05:03

轻断食再次封神！复旦大学研究证实，让肝脏脂肪在5个月内少20.5%

轻断食再次封神！复旦大学研究证实，让肝脏脂肪在5个月内少20.5%

垚垚分享健康

2026-07-14 09:49:44

贵州一男孩带27名同学回家聚餐！妈妈处理态度获赞：家庭教育范本

贵州一男孩带27名同学回家聚餐！妈妈处理态度获赞：家庭教育范本

社会日日鲜

2026-07-13 16:04:33

女子带全家食材进海底捞，边吃边问丈夫丢不丢人，瞬间引爆全网！

女子带全家食材进海底捞，边吃边问丈夫丢不丢人，瞬间引爆全网！

曹莽看世界

2026-07-08 10:57:12

广东省委常委、组织部部长胡帆，兼新职！孙艾芳，当选内蒙古自治区妇联主席！

广东省委常委、组织部部长胡帆，兼新职！孙艾芳，当选内蒙古自治区妇联主席！

起喜电影

2026-07-14 11:08:05

西安网友爆料，赛格商场为了自救，地铁出口封闭一大半，保留唯一出口，直通赛格商场！

西安网友爆料，赛格商场为了自救，地铁出口封闭一大半，保留唯一出口，直通赛格商场！

眼光很亮

2026-07-13 19:53:34

【逝者】施南生：叱咤一生的电影侠女

【逝者】施南生：叱咤一生的电影侠女

界面新闻

2026-07-14 07:16:03

西班牙太猛了！10战7胜法国，3大优势曝光，世界杯决赛更容易

西班牙太猛了！10战7胜法国，3大优势曝光，世界杯决赛更容易

锅锅爱历史

2026-07-14 16:12:38

登上052D后，俄海军官兵目光一直离不开垂发，却挑最不重要的夸赞

登上052D后，俄海军官兵目光一直离不开垂发，却挑最不重要的夸赞

锋芒点兵

2026-07-14 17:58:40

别再吐槽古装剧里发型丑了，人家全是老照片复刻的！

别再吐槽古装剧里发型丑了，人家全是老照片复刻的！

匹夫来搞笑

2026-07-14 03:46:45

澳总理节目“开黄腔”：调侃日方赠礼引众怒，日方为何隐忍不发？

澳总理节目“开黄腔”：调侃日方赠礼引众怒，日方为何隐忍不发？

凉了时光人

2026-07-14 18:26:55

正当防卫被判死刑，枪决前6分钟被最高法紧急叫停，董伟案始末

正当防卫被判死刑，枪决前6分钟被最高法紧急叫停，董伟案始末

易玄

2026-05-25 01:45:09

凯特王妃看温网必系蝴蝶结，背后象征顶级特权！

凯特王妃看温网必系蝴蝶结，背后象征顶级特权！

ChicMyGeek

2026-07-14 15:09:14

不打自招？饶毅质疑国自然二等奖没有科学价值，被三个课题组举报

不打自招？饶毅质疑国自然二等奖没有科学价值，被三个课题组举报

妍妍教育日记

2026-07-14 11:25:20

派出所才是八卦最多的地方！网友:现实比艺术还离奇，什么人都有

派出所才是八卦最多的地方！网友:现实比艺术还离奇，什么人都有

另子维爱读史

2026-07-06 21:38:48

炸裂！603629，净利预增超11倍！算力业务爆发

炸裂！603629，净利预增超11倍！算力业务爆发

证券时报e公司

2026-07-14 19:02:45

抢在王毅回国前，乌克兰强行宣布一件事，中方拒不接茬，普京紧盯

抢在王毅回国前，乌克兰强行宣布一件事，中方拒不接茬，普京紧盯

遁走的两轮

2026-07-13 14:02:10

AI产业主平台领航智能+时代

15685文章数 66953关注度

往期回顾全部

科技要闻

AI失业风险正在逼近 "我们连未来都看不清"

头条要闻

韩国司机失去意识大巴失控中国女乘客救了一车人

头条要闻

韩国司机失去意识大巴失控中国女乘客救了一车人

体育要闻

33岁成为法国主力，他将在世界杯防守亚马尔

娱乐要闻

施南生离世，成龙、甄子丹等发文悼念

财经要闻

为什么说智谱是中国版Anthropic是伪命题

汽车要闻

汽车的大时代新中国第一辆汽车下线70周年

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戏

艺术

健康

公开课

军事航空

PS5模拟器启动《宇宙机器人》！进展超快索尼不慌？

艺术要闻

8.5度抗震！新疆第一座高层5星酒店，封顶！

高血压为何会导致中风高发？

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

美军宣布将于14日恢复对伊朗的海上封锁

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版