网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

GPT-5.5全球首破！0源码盲写程序，编程AI进入新纪元

2026-05-13 15:07:48　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子

【新智元导读】全网AI交白卷的地狱级基准，被GPT-5.5拿下一血！开局0源码盲写程序，拉满推理算力直接满血通关。传统代码测试已废，通往ASI的算力狂飙正式打响。

「地狱级」编程难题，终于被AI拿下了！

今天，在一个所有前沿AI交白卷的基准ProgramBench上，GPT-5.5首关告破！

两种不同编程语言C和Python，GPT-5.5 xhigh完全碾压Opus 4.7 xhigh。

就在几天前，Meta联手斯坦福、哈佛祭出了这个ProgramBench的全新编程基准：

200道题，所有前沿AI模型的通过率——0%。

没有一个模型，能完整解出哪怕一道。如今，GPT-5.5成为了首个破例者！

编程AI「终极考试」，从0重建程序

ProgramBench到底有多难？

传统编程基准，不论是SWE-bench，还是HumanEval，本质上是「修bug」或「补函数」。

给模型一个已有代码库，告诉它哪里坏了，让它修bug。

这是开卷考试，甚至是半开卷，ProgramBench则完全不同。

它给一个编译好的可执行文件和一份文档，然后说：从0开始，把这个程序重写出来。

不给源码，不许反编译，不许联网。

200个任务，从小工具jq、ripgrep，到重量级的FFmpeg、SQLite、PHP编译器。

OpenAI研究员Noam Brown此前曾表示，「是时候淘汰GQPA这类评估方式，引入一套全新的了」。

刚发布之初，所有刷榜的AI几乎全挂，这次，GPT-5.5终于扳回了一局。

GPT-5.5首破纪录：

同一题，C和Python两种解法

GPT-5.5攻克的第一个任务是——cmatrix，一个经典的终端「黑客帝国」数字雨效果程序。

让研究人员惊讶的是，GPT-5.5的high和xhigh两个推理级别，选择了完全不同的语言来解决同一道题。

high版本用C语言，xhigh版本用Python。

最终结果，两个都通过了全部行为测试。

GPT-5.5 high的策略堪称教科书级别：先用10轮探索测试了40多种flag组合，彻底摸清了原程序的CLI行为。

然后一次性写出完整的C语言实现，仅用5次微调修补就搞定。

GPT-5.5 xhigh更彻底，27步探索，把每一条CLI路径都摸了个遍，然后一气呵成写出完整的Python实现。

关键数字来了。

未开高推理模式的GPT-5.5（medium），成绩勉强比Claude Sonnet 4.6好一点。

但一旦切到xhigh模式，性能直接起飞。

不仅首次解出一道题（通过率0.05%），还创下了「几乎解出」任务的新纪录：26个任务通过了95%以上的单元测试。

更值得注意的是，GPT-5.5 xhigh在完整的累积直方图上全程碾压所有对手。

无论你选什么指标，平均分、中位数、≥90%通过率、≥50%通过率，它都是第一。

178次调用，Opus 4.7栽在两个bug上

对比之下，Claude Opus 4.7 xhigh的表现令人唏嘘。

花费$10.74，调了178次API，是GPT-5.5普通版$1.04、17次调用的10倍。

结果，19个测试失败，全场最差。

Opus 4.7的失败原因出人意料地简单：

Bug 1：颜色解析大小写敏感。

代码用了strcmp()而不是strcasecmp()。输入「GREEN」「Red」「BLUE」全部被判无效。

一个函数调用的差异，直接导致11个测试失败。

178步探索里，Opus从来没有测试过大写或混合大小写的颜色输入，它只试了小写和一个无效颜色「purple」。

Bug 2：无效颜色的退出码写错了。

原程序遇到无效颜色返回exit(0)，Opus写成了exit(1)。

讽刺的是，Opus在探索阶段明明观察到了原程序的行为——./executable -C purple; echo "exit=$?"输出的是exit=0。但在测试自己的实现时，却没有发现这个差异。

8个测试失败。

不过，Opus 4.7有一个亮点值得一提：它在处理缺失的ncurses头文件时展现了惊人的系统工程能力。

其他三个模型发现ncurses.h缺失后，直接改用ANSI转义序列。

Opus 4.7却花了约20步深入调查，用ldconfig -p发现了运行时.so文件，用nm -D检查导出符号，然后手写了一份106行的头文件声明，直接链接动态库。

这是真正的创意工程，但并没有带来更好的成绩。

还有199题未解

ProgramBench的出现，标志着编程基准进入了一个新阶段。

SWE-bench的通过率已经被卷到了88.7%。GPQA上AI已经超过了大多数PhD。

这些eval正在以惊人的速度「融化」，分数越来越高，区分度越来越低。

而ProgramBench，200道题，至今只有1道被解出，通过率：0.05%。

更重要的是，这次破纪录揭示了一个关键趋势：「推理算力」正在成为编程AI能力的核心变量。

GPT-5.5在默认推理模式下表现平平，但高推理模式直接改变了质的飞跃。

这意味着，不是模型不够聪明，而是之前给它「思考」的时间不够。

ProgramBench的200道题里，还有199道在等着。

从零到一，不只是起点

回顾AI发展史上的每一次「首破零」时刻——

AlphaGo首次击败职业棋手、GPT-4首次通过律师资格考试、o1首次在数学奥赛题上拿分。

「从零到一」从来不是线性进步的起点，而是指数爆发的信号弹。

Noam Brown提出的推理算力Scaling Law，在ProgramBench上得到了迄今为止最直观的验证：

同一个GPT-5.5底座，medium模式几乎交白卷，high模式满分通关，xhigh模式断层碾压。

智能不再是一个固定值，而是算力的函数。

这意味着什么？意味着通往ASI的路径，可能不需要等待下一代架构革命。

只要推理算力持续扩展，只要Scaling Law不撞墙。

今天在ProgramBench上只能重建cmatrix的模型，明天就可能重建SQLite，后天就可能重建整个Linux内核。

参考资料：

https://x.com/polynoamial/status/2054255862441812099

https://programbench.com/blog/gpt-5-5-first-solve/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

日媒：中国关键金属进口量飙升 "手上有牌"

澎湃新闻 2026-06-29 16:20:35
4709 跟贴 4709
开了一次就“头晕”？看到机器上的英文单词，他觉得自己被骂了

北青网-北京青年报 2026-06-28 14:48:24
1827 跟贴 1827

媒体：欧洲热浪下中国空调撕开的不只是市场缺口

澎湃新闻 2026-06-30 07:12:58
798 跟贴 798

当地华人讲述法国高温：中国空调一机难求，有人为抢购空调打起来，安装已排到9月

潇湘晨报 2026-06-29 21:36:19
3760 跟贴 3760
Papi酱名下公司均已注销

鲁中晨报 2026-06-29 14:35:03
614 跟贴 614

12306账户关联超7个会员账号，女子半年内购票90余次“薅羊毛”

现代快报 2026-06-29 15:31:20
196 跟贴 196

“卡牌大师”名不虚传！作为第四官员的马宁，多次提醒主裁向替补席出牌

红星新闻 2026-06-30 08:41:04
102 跟贴 102
河南一农村女孩高考699分，其母亲患病卧床，靠父亲打零工维持生计，她说“要通过学习让父母过上好日子”

极目新闻 2026-06-29 17:19:28
467 跟贴 467

中国县城居民人均收入10强：义乌超过北上广深

第一财经 2026-06-30 07:36:04
20 跟贴 20
刚治完仅4天就“复出”，到底谁在惯着开屏广告？

齐鲁壹点 2026-06-29 17:43:05
174 跟贴 174
运-20最新大片片尾"彩蛋"提到的"小六"是谁专家分析

上观新闻 2026-06-29 14:54:45
436 跟贴 436
藤森庆子，赢得秘鲁总统选举

政知新媒体 2026-06-30 08:53:51
4 跟贴 4
创业板指涨逾1% 玻璃基板领涨

财联社 2026-06-30 10:26:12
1 跟贴 1
本届首场点球大战！爆冷！德国队，被淘汰

扬子晚报 2026-06-30 07:44:38
114 跟贴 114
消息称斯塔默有意竞逐下任北约秘书长

界面新闻 2026-06-29 13:13:46
458 跟贴 458
底特律没做到的事，十堰做到了！

支点财经 2026-06-30 09:40:48
2 跟贴 2
赓续光荣传统传承红色基因

人民网 2026-06-30 08:50:18
2 跟贴 2
老人嫌自家小区吵，每天清晨到别人小区门口唱歌

大风新闻 2026-06-30 08:37:02
3 跟贴 3
安徽3岁双胞胎殒命火场！小区消火栓竟无水，官方已成立调查组

听心堂 2026-06-30 11:09:44
1 跟贴 1
逐浪汤逊聚力江夏：2026 武汉龙舟邀请赛绘就荆楚新图景

农视网 2026-06-30 10:39:38
1 跟贴 1
9人闯入未开放峡谷 5人不幸遇难敬畏自然守底线莫因猎奇失平安｜热点即阅

封面新闻 2026-06-30 11:04:47
0 跟贴 0
免费试吃可以“私人定制”吗？顾客免费试吃发差评被店家挂门口避雷老板回应

闪电新闻 2026-06-30 11:16:59
0 跟贴 0

日本没料到，美国也没想到，如今的中国广东省，已成了全球焦点

日本没料到，美国也没想到，如今的中国广东省，已成了全球焦点

混沌录

2026-06-27 17:07:33

被骂“学术妲己”多年，她 27天内用两篇 Nature 撕掉标签

被骂“学术妲己”多年，她 27天内用两篇 Nature 撕掉标签

超级数学建模

2026-06-30 01:55:22

看完才知道：《抓特务》骗了我们，原著作者是公安，他才知道真相

看完才知道：《抓特务》骗了我们，原著作者是公安，他才知道真相

东方不败然多多

2026-06-29 09:42:42

斯玛特加盟火箭后场人满为患！两人成受害者，乌度卡玩老一套

斯玛特加盟火箭后场人满为患！两人成受害者，乌度卡玩老一套

老骾体育解说

2026-06-30 10:56:31

现在，北京户口的价值真快没了

微微热评

2026-06-29 22:22:02

藏有全球一半以上的黄金，方圆200平方公里，这个大坑有多值钱？

藏有全球一半以上的黄金，方圆200平方公里，这个大坑有多值钱？

抽象派大师

2026-05-25 15:32:36

吴建豪妻子身份曝光：是35岁的日本女歌手，5月在美国登记结婚

吴建豪妻子身份曝光：是35岁的日本女歌手，5月在美国登记结婚

素素娱乐

2026-06-30 08:15:24

提级调查“冻货偏航”，是为了其他货车不必绕行当地

提级调查“冻货偏航”，是为了其他货车不必绕行当地

南方都市报

2026-06-29 07:38:30

科特迪瓦VS挪威前瞻：攻防漏洞对决，会打出大比分吗？

科特迪瓦VS挪威前瞻：攻防漏洞对决，会打出大比分吗？

大羽体坛

2026-06-30 00:10:03

两性关系里，女人最“不要脸”的5种行为，往往才是真正的高段位

两性关系里，女人最“不要脸”的5种行为，往往才是真正的高段位

周哥一影视

2026-06-30 00:10:54

世卫组织推荐的肌肉不流失四大黄金法则，照着做，准没错

世卫组织推荐的肌肉不流失四大黄金法则，照着做，准没错

观星赏月

2026-06-18 15:29:58

TA：杜伦希望离开活塞，将与湖人进行电话交流&与国王会面商谈

TA：杜伦希望离开活塞，将与湖人进行电话交流&与国王会面商谈

懂球帝

2026-06-30 09:02:26

丈夫暴雷后，53岁董卿再迎悲伤噩耗，淡出央视原因终于真相大白

丈夫暴雷后，53岁董卿再迎悲伤噩耗，淡出央视原因终于真相大白

小蜜情感说

2026-06-29 20:09:14

莱维特：总统已证明不怕动武，伊朗最好表现好点

莱维特：总统已证明不怕动武，伊朗最好表现好点

看看新闻Knews

2026-06-30 09:11:47

哈佛大学惊人发现：寿命长的人，从来不是靠多运动，而是这4点！

哈佛大学惊人发现：寿命长的人，从来不是靠多运动，而是这4点！

白宸侃片

2026-06-23 21:25:40

蒋介石孙子召开发布会，提出“两蒋”移灵大陆，2句话让世人唏嘘

蒋介石孙子召开发布会，提出“两蒋”移灵大陆，2句话让世人唏嘘

兴趣知识

2026-06-30 01:35:30

温网｜吴易昺从小德手中抢下一盘，塞尔维亚传奇带头为他鼓掌

温网｜吴易昺从小德手中抢下一盘，塞尔维亚传奇带头为他鼓掌

北青网-北京青年报

2026-06-30 10:50:32

71岁卢卡申科新伴仅22岁，常年被美女模特环绕，分居妻子杳无音信

71岁卢卡申科新伴仅22岁，常年被美女模特环绕，分居妻子杳无音信

译言

2026-06-21 07:11:28

蜱虫钻入孩子皮肤，妈妈“两拒绝一动作”救了娃，医生夸她做得好

蜱虫钻入孩子皮肤，妈妈“两拒绝一动作”救了娃，医生夸她做得好

菁妈育儿

2026-06-27 18:49:27

有人60岁就脑梗，有人一辈子不会脑梗，医生直言：关键在于5件事

有人60岁就脑梗，有人一辈子不会脑梗，医生直言：关键在于5件事

健身狂人

2026-06-26 02:16:28

AI产业主平台领航智能+时代

15565文章数 66944关注度

往期回顾全部

科技要闻

DeepSeek V4正式版要来高峰期API价格翻倍

头条要闻

牛弹琴：韩国对男足耻辱出局激烈反应全世界震惊不已

头条要闻

牛弹琴：韩国对男足耻辱出局激烈反应全世界震惊不已

体育要闻

日本众将掩面痛哭连续3届先破门却被逆转

娱乐要闻

韩红称要退出公益，多位名人挽留

财经要闻

韩国万亿"芯"基建:存储能否成AI时代油田

汽车要闻

谁懂啊家人们！爹味和班味一点都没，这台底盘最硬国产大猎装太上头！

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

亲子

健康

教育

数码

房产

亲子要闻

路面塌了，人和车掉进去，怪小逗和同学紧急救援！

狂吃“糯叽叽”小心肠梗阻！

教育要闻

郑州经贸学院近三年录取分数线统计

数码要闻

售价3万的格力玫瑰空调被吐槽丑，朱磊回应称已卖出5万多台

房产要闻

56.8亿！三亚突然开始疯狂卖地！

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版