网易首页 > 网易号 > 正文 申请入驻

GPT-5.5全球首破!0源码盲写程序,编程AI进入新纪元

0
分享至


新智元报道

编辑:桃子

【新智元导读】全网AI交白卷的地狱级基准,被GPT-5.5拿下一血!开局0源码盲写程序,拉满推理算力直接满血通关。传统代码测试已废,通往ASI的算力狂飙正式打响。

「地狱级」编程难题,终于被AI拿下了!

今天,在一个所有前沿AI交白卷的基准ProgramBench上,GPT-5.5首关告破!


两种不同编程语言C和Python,GPT-5.5 xhigh完全碾压Opus 4.7 xhigh。


就在几天前,Meta联手斯坦福、哈佛祭出了这个ProgramBench的全新编程基准:

200道题,所有前沿AI模型的通过率——0%。

没有一个模型,能完整解出哪怕一道。如今,GPT-5.5成为了首个破例者!


编程AI「终极考试」,从0重建程序

ProgramBench到底有多难?

传统编程基准,不论是SWE-bench,还是HumanEval,本质上是「修bug」或「补函数」。

给模型一个已有代码库,告诉它哪里坏了,让它修bug。

这是开卷考试,甚至是半开卷,ProgramBench则完全不同。


它给一个编译好的可执行文件和一份文档,然后说:从0开始,把这个程序重写出来。

不给源码,不许反编译,不许联网。

200个任务,从小工具jq、ripgrep,到重量级的FFmpeg、SQLite、PHP编译器。

OpenAI研究员Noam Brown此前曾表示,「是时候淘汰GQPA这类评估方式,引入一套全新的了」。


刚发布之初,所有刷榜的AI几乎全挂,这次,GPT-5.5终于扳回了一局。


GPT-5.5首破纪录:

同一题,C和Python两种解法

GPT-5.5攻克的第一个任务是——cmatrix,一个经典的终端「黑客帝国」数字雨效果程序。

让研究人员惊讶的是,GPT-5.5的high和xhigh两个推理级别,选择了完全不同的语言来解决同一道题。

high版本用C语言,xhigh版本用Python。


最终结果,两个都通过了全部行为测试。

GPT-5.5 high的策略堪称教科书级别:先用10轮探索测试了40多种flag组合,彻底摸清了原程序的CLI行为。

然后一次性写出完整的C语言实现,仅用5次微调修补就搞定。

GPT-5.5 xhigh更彻底,27步探索,把每一条CLI路径都摸了个遍,然后一气呵成写出完整的Python实现。



关键数字来了。

未开高推理模式的GPT-5.5(medium),成绩勉强比Claude Sonnet 4.6好一点。

但一旦切到xhigh模式,性能直接起飞。

不仅首次解出一道题(通过率0.05%),还创下了「几乎解出」任务的新纪录:26个任务通过了95%以上的单元测试。

更值得注意的是,GPT-5.5 xhigh在完整的累积直方图上全程碾压所有对手。

无论你选什么指标,平均分、中位数、≥90%通过率、≥50%通过率,它都是第一。

178次调用,Opus 4.7栽在两个bug上

对比之下,Claude Opus 4.7 xhigh的表现令人唏嘘。

花费$10.74,调了178次API,是GPT-5.5普通版$1.04、17次调用的10倍。

结果,19个测试失败,全场最差。


Opus 4.7的失败原因出人意料地简单:

Bug 1:颜色解析大小写敏感。

代码用了strcmp()而不是strcasecmp()。输入「GREEN」「Red」「BLUE」全部被判无效。

一个函数调用的差异,直接导致11个测试失败

178步探索里,Opus从来没有测试过大写或混合大小写的颜色输入,它只试了小写和一个无效颜色「purple」。


Bug 2:无效颜色的退出码写错了。

原程序遇到无效颜色返回exit(0),Opus写成了exit(1)。


讽刺的是,Opus在探索阶段明明观察到了原程序的行为——./executable -C purple; echo "exit=$?"输出的是exit=0。但在测试自己的实现时,却没有发现这个差异。

8个测试失败。

不过,Opus 4.7有一个亮点值得一提:它在处理缺失的ncurses头文件时展现了惊人的系统工程能力。

其他三个模型发现ncurses.h缺失后,直接改用ANSI转义序列。


Opus 4.7却花了约20步深入调查,用ldconfig -p发现了运行时.so文件,用nm -D检查导出符号,然后手写了一份106行的头文件声明,直接链接动态库。

这是真正的创意工程,但并没有带来更好的成绩。

还有199题未解

ProgramBench的出现,标志着编程基准进入了一个新阶段。

SWE-bench的通过率已经被卷到了88.7%。GPQA上AI已经超过了大多数PhD。

这些eval正在以惊人的速度「融化」,分数越来越高,区分度越来越低。

而ProgramBench,200道题,至今只有1道被解出,通过率:0.05%。


更重要的是,这次破纪录揭示了一个关键趋势:「推理算力」正在成为编程AI能力的核心变量。

GPT-5.5在默认推理模式下表现平平,但高推理模式直接改变了质的飞跃。

这意味着,不是模型不够聪明,而是之前给它「思考」的时间不够。

ProgramBench的200道题里,还有199道在等着。


从零到一,不只是起点

回顾AI发展史上的每一次「首破零」时刻——

AlphaGo首次击败职业棋手、GPT-4首次通过律师资格考试、o1首次在数学奥赛题上拿分。

「从零到一」从来不是线性进步的起点,而是指数爆发的信号弹。

Noam Brown提出的推理算力Scaling Law,在ProgramBench上得到了迄今为止最直观的验证:

同一个GPT-5.5底座,medium模式几乎交白卷,high模式满分通关,xhigh模式断层碾压。

智能不再是一个固定值,而是算力的函数。

这意味着什么?意味着通往ASI的路径,可能不需要等待下一代架构革命。

只要推理算力持续扩展,只要Scaling Law不撞墙。

今天在ProgramBench上只能重建cmatrix的模型,明天就可能重建SQLite,后天就可能重建整个Linux内核。

参考资料:

https://x.com/polynoamial/status/2054255862441812099

https://programbench.com/blog/gpt-5-5-first-solve/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普专机升空之际,以色列对中国扣动扳机,子弹却击中美伊

特朗普专机升空之际,以色列对中国扣动扳机,子弹却击中美伊

共工之锚
2026-05-12 23:45:28
又一个巴拿马?中国耗时7年倾尽百亿出海,竟成最蠢的赔本买卖

又一个巴拿马?中国耗时7年倾尽百亿出海,竟成最蠢的赔本买卖

史行途
2026-05-13 17:37:55
特朗普登机前,美媒罕见直言:中美有两大共同敌人,中国务必警惕

特朗普登机前,美媒罕见直言:中美有两大共同敌人,中国务必警惕

小先生笔记
2026-05-13 16:00:17
情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

新欧洲
2026-04-21 19:37:05
别了 | 知名餐饮创始人逝世,享年66岁!

别了 | 知名餐饮创始人逝世,享年66岁!

天津广播
2026-05-13 01:04:34
广东爆冷揪出3水货,杜锋连续止步8强被喊下课,朱芳雨又看漏2人

广东爆冷揪出3水货,杜锋连续止步8强被喊下课,朱芳雨又看漏2人

阿信点评
2026-05-13 17:45:47
名记:勇士会全力追逐詹姆斯、字母哥和伦纳德

名记:勇士会全力追逐詹姆斯、字母哥和伦纳德

懂球帝
2026-05-13 14:07:07
国乒载誉返京,蒯曼父亲却急着发文卖惨,网友怒批:别再坑娃了

国乒载誉返京,蒯曼父亲却急着发文卖惨,网友怒批:别再坑娃了

娱说瑜悦
2026-05-13 13:52:39
心脏决定寿命!建议:别太节俭,多吃这3种食物,让心脏变年轻

心脏决定寿命!建议:别太节俭,多吃这3种食物,让心脏变年轻

阿龙美食记
2026-03-23 20:16:13
骆家辉警告中国:最好不要自主生产尖端芯片,这不是美国想看到的

骆家辉警告中国:最好不要自主生产尖端芯片,这不是美国想看到的

蜉蝣说
2026-04-14 17:00:37
李秉宪转世追爱:韩国爱情片远比韩剧更敢拍

李秉宪转世追爱:韩国爱情片远比韩剧更敢拍

影视情报室
2026-05-12 17:05:05
AI假扮女儿打视频称“妈妈开门”!母亲看监控发现门口无人,电询学校得知女儿正考试

AI假扮女儿打视频称“妈妈开门”!母亲看监控发现门口无人,电询学校得知女儿正考试

红星新闻
2026-05-13 11:58:24
你见过多少赌博做局内幕?网友:全是精心套路,根本赢不了

你见过多少赌博做局内幕?网友:全是精心套路,根本赢不了

另子维爱读史
2026-05-13 07:43:50
张本智和又行了?被日媒连续炮轰后不服输 日乒球迷:2028复仇有望

张本智和又行了?被日媒连续炮轰后不服输 日乒球迷:2028复仇有望

kio鱼
2026-05-13 17:49:39
央视直播泰山VS铜梁龙!二雷管好情绪中超无敌!黄政宇锁死肯帕努

央视直播泰山VS铜梁龙!二雷管好情绪中超无敌!黄政宇锁死肯帕努

刀锋体育
2026-05-13 12:34:04
阿里云2026年第四财季收入416.26亿元,同比增长38%

阿里云2026年第四财季收入416.26亿元,同比增长38%

财闻
2026-05-13 17:45:30
败光王宝强5千万后,马蓉定居国外近况曝光,超市打工只是其中一点

败光王宝强5千万后,马蓉定居国外近况曝光,超市打工只是其中一点

可乐谈情感
2026-05-13 13:11:25
让人忽视的“712炮战”:3400吨炮弹1天打完,被西点军校收录复盘

让人忽视的“712炮战”:3400吨炮弹1天打完,被西点军校收录复盘

鹤羽说个事
2026-05-12 22:37:31
悲催!网传丈夫深夜醉酒晚归、妻子闭门赌气,结果在门口活活冻死

悲催!网传丈夫深夜醉酒晚归、妻子闭门赌气,结果在门口活活冻死

火山詩话
2026-05-12 14:33:06
重磅焕新!630km续航+250kW快充Model3值得入手

重磅焕新!630km续航+250kW快充Model3值得入手

沙雕小琳琳
2026-05-13 09:44:57
2026-05-13 18:24:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15200文章数 66865关注度
往期回顾 全部

科技要闻

腾讯一季度营收1964.6亿元 同比增9%

头条要闻

4月汽车销量发布 前十名仅剩一款燃油车

头条要闻

4月汽车销量发布 前十名仅剩一款燃油车

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

盘中最高4041.99点!创业板创历史新高

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

家居
艺术
时尚
房产
本地

家居要闻

内在自叙,无域有方

艺术要闻

乾隆 “翻车” 名画刷屏!

老钱风失宠了?这个风格突然爆火,夏天穿太高级了!

房产要闻

卷疯了!最低杀到7字头!手握30万,海口楼市横着走!

本地新闻

用苏绣的方式,打开江西婺源

无障碍浏览 进入关怀版