网易首页 > 网易号 > 正文 申请入驻

地表最强编程王者PK!Opus 4.6双榜单封神, Codex 5.3速度满分

0
分享至


新智元报道

编辑:定慧 倾倾

【新智元导读】硅谷的夜再次被点亮,OpenAI和Anthropic同日发布最新模型。正当开发者们沉浸在Codex 5.3的极致速度时,Arena和Epoch两大权威榜单却给出了意想不到的终局判决。

硅谷这波热闹,属实有点上头。

前脚Claude Opus 4.6刚刚夜袭发布,后脚OpenAI就祭出了GPT-5.3-Codex

两大「编程王者」正面硬刚,到底谁的能力更强?社区现在还吵翻天~

今天,两大最硬核的权威机构Arena.ai和EpochAI,同时为Opus 4.6加冕!


Arena.ai:Opus 4.6全维度的屠榜

Arena.ai(前身是大家熟知的LMArena),这个被称为「大模型角斗场」的地方,迎来了新的霸主。

Claude Opus 4.6,在代码(Code)、文本(Text)、专家(Expert)三大竞技场,全部登顶第一!

  • 代码竞技场:比前代Opus 4.5暴涨106分。

  • 文本竞技场:得分1496,硬生生压了Gemini 3 Pro一头。

  • 专家竞技场:领先第二名约50分,断层式领先。

这意味着什么?

意味着在数以万计的真实人类盲测中,Opus 4.6是那个让你最想点「赞」的模型。

它不是偏科生,它是真正的六边形战士。

在代码实测中,这次的Opus 4.6比4.5提升了106分,远超之前Opus 4.5对Sonnet 3.7的领先幅度。


Claude Opus 4.6自Claude 3 Opus以来首次在文本竞技场排名第一。

同时在关键文本类别中位列榜首:

  • 指令遵循

  • 困难提示

  • 长查询


Claude Opus 4.6在专家领域排名第一,领先优势达+49分。

专家排行榜采用了一个框架构建,该框架能识别出真实用户提出的最困难、最专业的提示。


有网友表示,能够在这三个领域同时拿下第一,是真正的SOTA,非常厉害。


有网友同时表示,这Opus 4.6拿下三冠王很厉害,但是真正对模型的考验是前沿数学能力。


这不,EpochAI的评测新鲜出炉!

EpochAI:啃下「数学硬骨头」

如果说Arena是大众评审,那EpochAI的Frontier Math就是「奥数竞赛」。

这里考的不是简单的加减乘除,而是人类尚未解决的数学难题。

Opus 4.6交出的答卷是:Tier1-3级别得分40%,Tier4(极难)级别得分21%。


这个成绩直接在统计学上追平了GPT-5.2(xhigh)

这是Anthropic的模型第一次在这个只要有一点「智商欠费」就交白卷的榜单上,站到了最前沿。

在难度更高的第4级测试中,Opus 4.6获得 21%的得分,解决了48道题目中的10道。

该成绩同样与GPT-5.2(xhigh)的19%得分在统计上持平,仅次于 GPT-5.2(Pro)31%的得分。

物理、数学,这些曾经是AI禁区的地方,现在成了Opus 4.6的后花园。

Opus 4.6模型表现非常抢眼的领域,多项得分位居前列:

  • OTIS Mock AIME 2024-2025:得分高达94.4%,展现了极强的竞赛级数学解题能力。

  • GPQA Diamond:得分90.5%,这是一个针对专家级科学问题的困难测试。

  • FrontierMath:这是一个极其困难的数学前沿测试,Opus 4.6 得分为40.0%。在更难的Tier 4级别中,它获得了20.8%的分数,排名第2


在综合与推理评测中:

  • ARC AGI v1:得分94.0%,排名第1。这是评估模型通用人工智能(AGI)潜力的核心指标之一,专注于抽象推理和模式识别。

  • SimpleQA Verified:得分46.5%。该测试主要评估模型回答事实性问题的准确度(减少幻觉)。

  • Chess Puzzles(国际象棋谜题):得分17.0%,排名第14,相对而言这似乎是其较弱的一项。


Claude Opus 4.6在逻辑推理(ARC AGI)和高难度数学(FrontierMath、AIME)方面处于世界领先水平。

虽然它在某些特定领域(如国际象棋或简单问答)不是第一,但其综合能力(ECI 指数 153)使其成为当前最顶尖的模型之一。

巅峰对决:速度与审美的较量

权威榜单虽然为Opus 4.6封神,但开发者们的实战也同样精彩,而且似乎更偏爱GPT-5.3-Codex。

GPT-5.3-Codex就像一个喝了十杯浓缩咖啡的顶级黑客。

顶级开发者Banteg用它挑战不可能,仅用14天就复刻了2003年的邪典游戏《Crimsonland》。

极客Karel把它当成钢铁侠的贾维斯用。一个月烧掉10000美元API费,让它每天生成700个科研假设,自动扫描Slack记录,自动提交代码。

来详细看看顶级程序员如何使用GPT-5.3-Codex。

代码考古:14天复活《Crimsonland》,屎山消失术

在程序员的职场噩梦里,排第一的永远是去接手前任留下的、没有文档、作者失联、注释像天书一样的赛博废墟。

但2026年,顶级开发者Banteg告诉我们:在强力AI面前,没有不可维护的屎山,只有舍不得烧的算力。

Banteg盯上了2003年的邪典射击游戏《Crimsonland》(血腥大地)。


这款游戏是很多80、90后的童年回忆,但它的底层代码堪称废墟。

如果按照传统流程,至少需要一个资深团队闭关1个月,光是理清那些远古的内存逻辑就能让人少活五年。

结果,Banteg仅用了14天,就单枪匹马完成了全平台重构。

需要格外注意的是,该游戏资源用的.jaz格式,是一种消失了20年的私有协议,全网零文档。

换做人类,至少得猜半年。但Codex-5.3仅凭分析二进制流特征,硬猜出了头文件结构和加密偏移量!


Jaz拿着一张JPG,并用自定义的运行长度编码的alpha通道进行包裹,然后再用zlib将整个东西重新压缩过程图

然后,生成一套现代化的C++/Rust渲染接口,让2003年的像素资源在2026年的4K屏幕上重现。

这个许多人的童年回忆,终于在23年后重见天日。Banteg在X上公开了全部代码「


GitHub代码传送门:https://github.com/banteg/crimson

以前公司裁员不敢动老员工,是怕没人能接那一堆乱码。

现在,大模型直接把这些代码塞进上下文,两周就能给你出一个全新的、注释清晰的重构版。

月费1万美金的Codex实战经验

在顶级极客Karel手里,Codex被玩成了投资游戏。


OpenAI的研究科学家Aidan说公司Karel一个人的Codex的使用量是其他人的十倍之多。

所以他的观点非常重要。


Karel的单月账单是10,000美元!

换来的是一套足以让传统科研机构倒闭的「非人知识循环」。


真正的突破在于让Codex持续记录并优化自身的工作流程。

Codex会将工作笔记和辅助工具提交到monorepo的个人文件夹中。

这些笔记并非供人阅读,而是为了在后续会话中通过检索这些「经验」,提升Codex的处理速度和准确性。

Karel将Codex作为一名极其勤奋的「搜索智能体」和「尽职调查员」:

  • 跨渠道聚合:Codex能自动爬取Slack频道、阅读讨论、获取实验分支并精选代码更改。

  • 自主决策:它可以基于总结的笔记,在搭建实验框架时自主做出复杂的超参数决策。

  • 假设生成:在几小时内通过分析Slack、截图、文档和表格,生成了超过700个关于模型行为的可测试假设。

其中,最关键的是「自动Helper提交」。

AI在执行任务时,会向Git提交「HelperCommits」。里面记录了给下一次迭代中的AI准备的中间态上下文。

这样一来,模型下一次处理类似任务时,会先扫描这些高密度的「HelperCommits」,直接省掉80%的试错路径。

这种「暴力美学」的回报同样惊人。

Karel曾尝试让Agent扫描公司内部积年累月的Slack记录和杂乱文档。

几小时内,AI竟然挖掘出了700条具有科研价值的假设,并自动关联了相关的历史代码段。

10000美元买的API,赚麻了!

更加厉害的用法是使用GPT-5.3-codex同时管理多个子智能体,分别负责Slack调研、代码研究、代码编写和数据科学。


Karel只与一个「指挥官」智能体对话,由其协调整个智能体集群,从而让他本人从繁琐的并行工作中解脱。

ClaudeOpus 4.6:深思熟虑的「艺术家」

如果说Codex是快,那Opus 4.6就是,而且

美学封神:在HTML5游戏开发实测中,Opus 4.6展现了惊人的「审美智商」。它写出的代码不仅0 Bug,而且界面布局、配色方案直接达到了专业UI设计师的水准。

逻辑熵控制:它也许会思考得更久(Token消耗多60%),但那是它在进行「思维链自我修正」。它在现在的Stirrup框架下,拥有了更强的「逻辑自检」能力。它不是在瞎蒙,它是在推演。

Stirrup框架:给AI装上「小脑」

Opus 4.6之所以能碾压其他模型,得益于它对Stirrup框架的深度适配。

在这个架构下,AI拥有了实打实的Shell权限以及高度隔离的E2B沙箱。

它不仅能调用编译器,还能通过5大核心工具联动,在亚毫秒级的时间内判断当前任务是否需要引入额外的逻辑自检。

以「视频排期表自动化」为例,它不仅能算出逻辑最优解,还能根据品牌调性自动调整输出格式的视觉审美。




同一组数据,不同模型生成的结果

这种降维打击,让曾经的Prompt Engineering像个小学生。

逻辑熵控制:多花60%的钱,但结果更好

很多老板在看到账单时会肉疼:Opus 4.6处理同类任务的Token消耗比竞品高出约60%。


但技术玩家不在乎这些,他们只看「逻辑熵」。

Opus 4.6在输出前,会在后台进行疯狂的思维链自我修正。主动推翻不合理的路径,通过大量的内部Token消耗,换取逻辑的绝对精确。

不再做选择题

这场巅峰对决,与其说是分出了胜负,不如说是为开发者铺平了通往「一人公司」的最后一块拼图。

左手是极致速度的Codex 5.3,右手是极致审美的Opus 4.6。

以前我们纠结选谁,现在全都要:用Codex快速搭建框架,用Opus精修逻辑与交互。

当大模型的能力已经溢出屏幕,编程这件「苦差事」,终于变成了单纯的创造力释放。

限制你想象力的,再也不是技术门槛,而只剩下你的脑洞了。

参考资料:

https://x.com/VictorTaelin/status/2019541668517617859

https://x.com/aidan_mclau/status/2019478632532472017

https://x.com/KarelDoostrlnck/status/2019477361557926281

https://x.com/ArtificialAnlys/status/2019474911761473605

https://x.com/banteg/status/2017950426327359947


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
细思极恐!黄磊老婆孙莉高龄怀四胎?肚大如球孕味足,眼神迷离憔悴

细思极恐!黄磊老婆孙莉高龄怀四胎?肚大如球孕味足,眼神迷离憔悴

八卦王者
2026-02-07 16:00:27
王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

胡一舸南游y
2026-01-25 14:54:04
今夜!暴涨,创新高了!

今夜!暴涨,创新高了!

中国基金报
2026-02-07 00:13:21
邹市明与冉莹颖文体双星光环褪去,创业困局下婚姻狼狈不堪

邹市明与冉莹颖文体双星光环褪去,创业困局下婚姻狼狈不堪

没有偏旁的常庆
2026-02-07 10:24:16
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
农民收入上涨,人均24456元言论翻车,专家喊话种芹菜赚200万!

农民收入上涨,人均24456元言论翻车,专家喊话种芹菜赚200万!

你食不食油饼
2026-02-04 21:39:44
大跌眼镜——俄军空袭乌方导弹命中率首次为0

大跌眼镜——俄军空袭乌方导弹命中率首次为0

史政先锋
2026-02-07 20:38:56
1936年,毛主席向宋庆龄筹借五万美金,八十多年后才知道了真相

1936年,毛主席向宋庆龄筹借五万美金,八十多年后才知道了真相

古书记史
2025-12-22 19:42:48
最惨一代,中年危机遭遇大规模失业潮

最惨一代,中年危机遭遇大规模失业潮

诗词中国
2026-02-04 20:58:36
万科郁亮有这么多不为人知的可怕内幕!

万科郁亮有这么多不为人知的可怕内幕!

廖保平
2026-02-07 09:19:10
贝克汉姆父子正式断绝!大布清除掉Dad纹身,用3个新图案覆盖

贝克汉姆父子正式断绝!大布清除掉Dad纹身,用3个新图案覆盖

素素娱乐
2026-02-06 10:29:31
具俊晔韩综风波升级!节目组证实获本人授权,指责汪小菲造谣大S

具俊晔韩综风波升级!节目组证实获本人授权,指责汪小菲造谣大S

萌神木木
2026-02-07 14:26:57
人大代表:鸭子是对付福寿螺的高手,但农民告诉我,在上海养鸭子很麻烦,各种部门、各种证、各种规定

人大代表:鸭子是对付福寿螺的高手,但农民告诉我,在上海养鸭子很麻烦,各种部门、各种证、各种规定

新民晚报
2026-02-05 09:09:09
佛山市建设发展集团有限公司原董事长被“双开”

佛山市建设发展集团有限公司原董事长被“双开”

新快报新闻
2026-02-07 15:31:02
春节没剩几天了,社会却出现这3个“反常现象”,今年过年大变样

春节没剩几天了,社会却出现这3个“反常现象”,今年过年大变样

浮光惊掠影
2026-02-06 13:52:07
西贝的贾总再次发言,网友:来教育消费者,其实是给自己补第二刀

西贝的贾总再次发言,网友:来教育消费者,其实是给自己补第二刀

魔都姐姐杂谈
2026-02-07 15:17:40
上海男篮拒绝输球!全力淘汰山东队,卢伟冲击决赛,央视直播

上海男篮拒绝输球!全力淘汰山东队,卢伟冲击决赛,央视直播

体坛瞎白话
2026-02-07 13:07:37
辽宁舰退役去向已定?并非卖给俄,若按这招处理,才是美国最怕的

辽宁舰退役去向已定?并非卖给俄,若按这招处理,才是美国最怕的

他想要很多很多的梦
2026-02-07 18:32:46
北大才女李天乐:赴美留学,入职顶尖药企,用金属铊毒杀清华丈夫

北大才女李天乐:赴美留学,入职顶尖药企,用金属铊毒杀清华丈夫

谈史论天地
2026-02-07 08:20:07
打的就是精锐,姆伯莫的9粒英超进球有5粒是对阵big6球队

打的就是精锐,姆伯莫的9粒英超进球有5粒是对阵big6球队

懂球帝
2026-02-07 21:55:02
2026-02-07 22:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14496文章数 66592关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

解散日众议院依靠媚美反华 高市押注选举想"一石三鸟"

头条要闻

解散日众议院依靠媚美反华 高市押注选举想"一石三鸟"

体育要闻

主队球迷唯一爱将,说自己不该在NBA打球

娱乐要闻

何超欣说和何猷君没竞争,实力遭质疑

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

本地
时尚
亲子
公开课
军事航空

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

今日热点:《惊蛰无声》终极预告;韩国翻拍《解忧杂货店》……

亲子要闻

怀孕的女人闹情绪有多离谱?网友:觉得洗衣机太累了,让我给它道歉

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

重大转变 特朗普签令调整军售排序

无障碍浏览 进入关怀版