网易首页 > 网易号 > 正文 申请入驻

GPT-5.5全球首破!0源码盲写程序,编程AI进入新纪元

0
分享至


新智元报道

编辑:桃子

【新智元导读】全网AI交白卷的地狱级基准,被GPT-5.5拿下一血!开局0源码盲写程序,拉满推理算力直接满血通关。传统代码测试已废,通往ASI的算力狂飙正式打响。

「地狱级」编程难题,终于被AI拿下了!

今天,在一个所有前沿AI交白卷的基准ProgramBench上,GPT-5.5首关告破!


两种不同编程语言C和Python,GPT-5.5 xhigh完全碾压Opus 4.7 xhigh。


就在几天前,Meta联手斯坦福、哈佛祭出了这个ProgramBench的全新编程基准:

200道题,所有前沿AI模型的通过率——0%。

没有一个模型,能完整解出哪怕一道。如今,GPT-5.5成为了首个破例者!


编程AI「终极考试」,从0重建程序

ProgramBench到底有多难?

传统编程基准,不论是SWE-bench,还是HumanEval,本质上是「修bug」或「补函数」。

给模型一个已有代码库,告诉它哪里坏了,让它修bug。

这是开卷考试,甚至是半开卷,ProgramBench则完全不同。


它给一个编译好的可执行文件和一份文档,然后说:从0开始,把这个程序重写出来。

不给源码,不许反编译,不许联网。

200个任务,从小工具jq、ripgrep,到重量级的FFmpeg、SQLite、PHP编译器。

OpenAI研究员Noam Brown此前曾表示,「是时候淘汰GQPA这类评估方式,引入一套全新的了」。


刚发布之初,所有刷榜的AI几乎全挂,这次,GPT-5.5终于扳回了一局。


GPT-5.5首破纪录:

同一题,C和Python两种解法

GPT-5.5攻克的第一个任务是——cmatrix,一个经典的终端「黑客帝国」数字雨效果程序。

让研究人员惊讶的是,GPT-5.5的high和xhigh两个推理级别,选择了完全不同的语言来解决同一道题。

high版本用C语言,xhigh版本用Python。


最终结果,两个都通过了全部行为测试。

GPT-5.5 high的策略堪称教科书级别:先用10轮探索测试了40多种flag组合,彻底摸清了原程序的CLI行为。

然后一次性写出完整的C语言实现,仅用5次微调修补就搞定。

GPT-5.5 xhigh更彻底,27步探索,把每一条CLI路径都摸了个遍,然后一气呵成写出完整的Python实现。



关键数字来了。

未开高推理模式的GPT-5.5(medium),成绩勉强比Claude Sonnet 4.6好一点。

但一旦切到xhigh模式,性能直接起飞。

不仅首次解出一道题(通过率0.05%),还创下了「几乎解出」任务的新纪录:26个任务通过了95%以上的单元测试。

更值得注意的是,GPT-5.5 xhigh在完整的累积直方图上全程碾压所有对手。

无论你选什么指标,平均分、中位数、≥90%通过率、≥50%通过率,它都是第一。

178次调用,Opus 4.7栽在两个bug上

对比之下,Claude Opus 4.7 xhigh的表现令人唏嘘。

花费$10.74,调了178次API,是GPT-5.5普通版$1.04、17次调用的10倍。

结果,19个测试失败,全场最差。


Opus 4.7的失败原因出人意料地简单:

Bug 1:颜色解析大小写敏感。

代码用了strcmp()而不是strcasecmp()。输入「GREEN」「Red」「BLUE」全部被判无效。

一个函数调用的差异,直接导致11个测试失败

178步探索里,Opus从来没有测试过大写或混合大小写的颜色输入,它只试了小写和一个无效颜色「purple」。


Bug 2:无效颜色的退出码写错了。

原程序遇到无效颜色返回exit(0),Opus写成了exit(1)。


讽刺的是,Opus在探索阶段明明观察到了原程序的行为——./executable -C purple; echo "exit=$?"输出的是exit=0。但在测试自己的实现时,却没有发现这个差异。

8个测试失败。

不过,Opus 4.7有一个亮点值得一提:它在处理缺失的ncurses头文件时展现了惊人的系统工程能力。

其他三个模型发现ncurses.h缺失后,直接改用ANSI转义序列。


Opus 4.7却花了约20步深入调查,用ldconfig -p发现了运行时.so文件,用nm -D检查导出符号,然后手写了一份106行的头文件声明,直接链接动态库。

这是真正的创意工程,但并没有带来更好的成绩。

还有199题未解

ProgramBench的出现,标志着编程基准进入了一个新阶段。

SWE-bench的通过率已经被卷到了88.7%。GPQA上AI已经超过了大多数PhD。

这些eval正在以惊人的速度「融化」,分数越来越高,区分度越来越低。

而ProgramBench,200道题,至今只有1道被解出,通过率:0.05%。


更重要的是,这次破纪录揭示了一个关键趋势:「推理算力」正在成为编程AI能力的核心变量。

GPT-5.5在默认推理模式下表现平平,但高推理模式直接改变了质的飞跃。

这意味着,不是模型不够聪明,而是之前给它「思考」的时间不够。

ProgramBench的200道题里,还有199道在等着。


从零到一,不只是起点

回顾AI发展史上的每一次「首破零」时刻——

AlphaGo首次击败职业棋手、GPT-4首次通过律师资格考试、o1首次在数学奥赛题上拿分。

「从零到一」从来不是线性进步的起点,而是指数爆发的信号弹。

Noam Brown提出的推理算力Scaling Law,在ProgramBench上得到了迄今为止最直观的验证:

同一个GPT-5.5底座,medium模式几乎交白卷,high模式满分通关,xhigh模式断层碾压。

智能不再是一个固定值,而是算力的函数。

这意味着什么?意味着通往ASI的路径,可能不需要等待下一代架构革命。

只要推理算力持续扩展,只要Scaling Law不撞墙。

今天在ProgramBench上只能重建cmatrix的模型,明天就可能重建SQLite,后天就可能重建整个Linux内核。

参考资料:

https://x.com/polynoamial/status/2054255862441812099

https://programbench.com/blog/gpt-5-5-first-solve/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本没料到,美国也没想到,如今的中国广东省,已成了全球焦点

日本没料到,美国也没想到,如今的中国广东省,已成了全球焦点

混沌录
2026-06-27 17:07:33
被骂“学术妲己”多年,她 27天 内用两篇 Nature 撕掉标签

被骂“学术妲己”多年,她 27天 内用两篇 Nature 撕掉标签

超级数学建模
2026-06-30 01:55:22
看完才知道:《抓特务》骗了我们,原著作者是公安,他才知道真相

看完才知道:《抓特务》骗了我们,原著作者是公安,他才知道真相

东方不败然多多
2026-06-29 09:42:42
斯玛特加盟火箭后场人满为患!两人成受害者,乌度卡玩老一套

斯玛特加盟火箭后场人满为患!两人成受害者,乌度卡玩老一套

老骾体育解说
2026-06-30 10:56:31
现在,北京户口的价值真快没了

现在,北京户口的价值真快没了

微微热评
2026-06-29 22:22:02
藏有全球一半以上的黄金,方圆200平方公里,这个大坑有多值钱?

藏有全球一半以上的黄金,方圆200平方公里,这个大坑有多值钱?

抽象派大师
2026-05-25 15:32:36
吴建豪妻子身份曝光:是35岁的日本女歌手,5月在美国登记结婚

吴建豪妻子身份曝光:是35岁的日本女歌手,5月在美国登记结婚

素素娱乐
2026-06-30 08:15:24
提级调查“冻货偏航”,是为了其他货车不必绕行当地

提级调查“冻货偏航”,是为了其他货车不必绕行当地

南方都市报
2026-06-29 07:38:30
科特迪瓦VS挪威前瞻:攻防漏洞对决,会打出大比分吗?

科特迪瓦VS挪威前瞻:攻防漏洞对决,会打出大比分吗?

大羽体坛
2026-06-30 00:10:03
两性关系里,女人最“不要脸”的5种行为,往往才是真正的高段位

两性关系里,女人最“不要脸”的5种行为,往往才是真正的高段位

周哥一影视
2026-06-30 00:10:54
世卫组织推荐的肌肉不流失四大黄金法则,照着做,准没错

世卫组织推荐的肌肉不流失四大黄金法则,照着做,准没错

观星赏月
2026-06-18 15:29:58
TA:杜伦希望离开活塞,将与湖人进行电话交流&与国王会面商谈

TA:杜伦希望离开活塞,将与湖人进行电话交流&与国王会面商谈

懂球帝
2026-06-30 09:02:26
丈夫暴雷后,53岁董卿再迎悲伤噩耗,淡出央视原因终于真相大白

丈夫暴雷后,53岁董卿再迎悲伤噩耗,淡出央视原因终于真相大白

小蜜情感说
2026-06-29 20:09:14
莱维特:总统已证明不怕动武,伊朗最好表现好点

莱维特:总统已证明不怕动武,伊朗最好表现好点

看看新闻Knews
2026-06-30 09:11:47
哈佛大学惊人发现:寿命长的人,从来不是靠多运动,而是这4点!

哈佛大学惊人发现:寿命长的人,从来不是靠多运动,而是这4点!

白宸侃片
2026-06-23 21:25:40
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

兴趣知识
2026-06-30 01:35:30
温网|吴易昺从小德手中抢下一盘,塞尔维亚传奇带头为他鼓掌

温网|吴易昺从小德手中抢下一盘,塞尔维亚传奇带头为他鼓掌

北青网-北京青年报
2026-06-30 10:50:32
71岁卢卡申科新伴仅22岁,常年被美女模特环绕,分居妻子杳无音信

71岁卢卡申科新伴仅22岁,常年被美女模特环绕,分居妻子杳无音信

译言
2026-06-21 07:11:28
蜱虫钻入孩子皮肤,妈妈“两拒绝一动作”救了娃,医生夸她做得好

蜱虫钻入孩子皮肤,妈妈“两拒绝一动作”救了娃,医生夸她做得好

菁妈育儿
2026-06-27 18:49:27
有人60岁就脑梗,有人一辈子不会脑梗,医生直言:关键在于5件事

有人60岁就脑梗,有人一辈子不会脑梗,医生直言:关键在于5件事

健身狂人
2026-06-26 02:16:28
2026-06-30 11:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15565文章数 66944关注度
往期回顾 全部

科技要闻

DeepSeek V4正式版要来 高峰期API价格翻倍

头条要闻

牛弹琴:韩国对男足耻辱出局激烈反应 全世界震惊不已

头条要闻

牛弹琴:韩国对男足耻辱出局激烈反应 全世界震惊不已

体育要闻

日本众将掩面痛哭 连续3届先破门却被逆转

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

韩国万亿"芯"基建:存储能否成AI时代油田

汽车要闻

谁懂啊家人们!爹味和班味一点都没,这台底盘最硬国产大猎装太上头!

态度原创

亲子
健康
教育
数码
房产

亲子要闻

路面塌了,人和车掉进去,怪小逗和同学紧急救援!

狂吃“糯叽叽”小心肠梗阻!

教育要闻

郑州经贸学院近三年录取分数线统计

数码要闻

售价3万的格力玫瑰空调被吐槽丑,朱磊回应称已卖出5万多台

房产要闻

56.8亿!三亚突然开始疯狂卖地!

无障碍浏览 进入关怀版