网易首页 > 网易号 > 正文 申请入驻

Opus 4.8烧1万美元,冲顶AI最难考试!断崖领先GPT-5.5近4倍

0
分享至


新智元报道


【新智元导读】ARC-AGI-1预言了推理革命,ARC-AGI-2预言了编程Agent爆发。第三代锁定新战场:谁能在从未见过的世界里最快搞清状况。Opus 4.8率先撕开口子。

就在刚刚,Claude Opus 4.8(High)拿下了这张榜单的榜首。

RHAE得分1.5%,是第二名的3倍!

但代价是,跑一次评测要烧掉整整1万美元。


要是放到别的AI测试里,1.5%这个成绩只能用惨不忍睹来形容。

但在ARC-AGI-3上,它是有史以来的最高分,而且没有之一。

此前的纪录保持者Opus 4.6(Max),得分是0.5%。

GPT-5.5更惨,只有0.4%。连Opus 4.8的零头都不到。


完整榜单是这样的(截至6月1日):

  • Opus 4.8(High),1.5%,1万美元

  • Opus 4.6(Max),0.5%,8900美元

  • GPT-5.5(High),0.4%,1万美元

  • Gemini 3.1 Pro(Preview),0.4%,2200美元

  • Opus 4.7(High),0.2%,1万美元

  • GPT-5.4(High),0.2%,5200美元

  • Grok 4.20(Beta Reasoning),0.1%,3800美元


Opus 4.8刷榜,最难考试新SOTA

最高分才1.5%。这张试卷凭什么这么难?

虽然之前的ARC-AGI-1和2也不简单,但依然是有标准答案的填空题。

而ARC-AGI-3是把你扔进一个从来没见过的游戏里。没有任何说明,没有任何提示。

自己探索,自己猜规则,自己推断胜利条件,自己规划路线。

测试一发布,所有前沿AI的得分直接归零。


说白了,ARC-AGI-3考的就是Agent能力。而Opus 4.8这次升级的重心,恰好全押在了这上面。

在大多数传统benchmark上,它确实只是在Opus 4.7的基础上小幅涨分。

SWE-bench Verified从87.6%到88.6%,GPQA Diamond持平在93.6%。

但在所有和Agent相关的评测上,画风直接突变。

  • SWE-bench Pro(更难的代码修复测试)从64.3%直接涨到69.2%,领先GPT-5.5的58.6%超过10个百分点。

  • Online-Mind2Web(浏览器操作测试)拿下84%,同时超过Opus 4.7和GPT-5.5。

  • Terminal-Bench Hard一下涨了6.8个百分点。


反过来看GPT-5.5。

它在静态推理上依然是怪物级别,ARC-AGI-2拿到85%,Terminal-Bench也都优。

但一旦任务从「解题」变成「在复杂环境中持续操作」,GPT-5.5就开始掉速。

SWE-bench Pro落后Opus 4.8超过10个百分点,GDPval-AA真实工作场景评测中,Opus 4.8以1890 Elo领先约120分,胜率67%。

换句话说就是,考「已知领域的推理深度」,GPT-5.5仍然最强。考「未知场景下的持续适应」,Opus 4.8正在拉开差距。

而ARC-AGI-3,恰好是后者的极端版本。

5帧推出规则,然后一头扎进死胡同

为了更好地分析Opus 4.8的表现,ARC Prize官方同步给出了它解题的完整过程。

总结下来,关键词只有一个——「抽象层级」

Opus 4.7看到的ARC-AGI-3画面是一张「图片」,逐像素处理。

Opus 4.8看到的是「物体和系统」,它开始识别出画面中哪些是独立实体、哪些是背景、哪些在互动。

差一个抽象层级,结果天差地别。

在ar25环境中,Opus 4.8只用了5帧就推导出了镜像反射规则(「蓝色往左移3格,橙色就往右移3格……关于第31列镜像反射」),24步通关第一关。

在lp85环境中表现更亮眼。

这是ARC Prize官方标注的Opus 4.8「得分最高的公开环境」,多个关卡都打出了接近人类的效率。

不过,在dc22环境里,Opus 4.8虽然漂亮地通了1到3关,但在第4关时却锁死在一个错误的子目标上,怎么都不松手。

这是Opus 4.7根本走不到的阶段,也是一种全新的失败模式。

可以说,进步和新bug同时到货了。

每一代ARC-AGI,都预言了下一场战争

从诞生到现在,ARC-AGI每换一代,都精准预言了下一波AI的主战场。

ARC-AGI-1预言了推理革命。2024年底o3的突破,精准标记了大推理模型(LRM)范式的到来。半年后,推理成了所有前沿模型的标配。

ARC-AGI-2预言了编程Agent的爆发。2025年各家AI在ARC-AGI-2上快速攀升,和Claude Code、Codex等编程Agent的产品化几乎同步。

ARC-AGI-3正在测的,是交互式环境中的自主探索与适应。

如果这个规律再次成立,那么接下来这一轮竞赛的核心,将会是谁能在从未见过的世界里更快地搞清楚状况。


GPT-5.5在旧考试上赢了11个百分点。Opus 4.8在新考试上赢了近4倍。

哪张考试更能代表未来,答案可能很快就会揭晓。

参考资料:

https://arcprize.org/leaderboard

https://x.com/scaling01/status/2061513383287882111?s=20

编辑:摩西


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
买了避暑房,为什么住不下去?重庆人正在经历的“候鸟式困境”

买了避暑房,为什么住不下去?重庆人正在经历的“候鸟式困境”

童童聊娱乐啊
2026-06-02 14:34:05
攻不了,也守不住!中国空军在西藏上空,被印度空军足足欺负40年

攻不了,也守不住!中国空军在西藏上空,被印度空军足足欺负40年

小杨侃事
2026-05-30 22:08:46
同事蹭我车回家,路过超市时买了1800块东西,要结账时我笑着说:你稍等一下,我去地下2层把车开上来

同事蹭我车回家,路过超市时买了1800块东西,要结账时我笑着说:你稍等一下,我去地下2层把车开上来

品读时刻
2026-05-28 09:06:31
曼晚:曼联一直拒绝和巴萨重新议价拉10,但可能被迫改变态度

曼晚:曼联一直拒绝和巴萨重新议价拉10,但可能被迫改变态度

懂球帝
2026-06-02 12:36:09
3时59分34秒司机激活智驾并双手脱离方向盘,4时许撞上因故障停于高速左侧行车道内的半挂车!江西赣州公布一轿车追尾致3死事故调查报告

3时59分34秒司机激活智驾并双手脱离方向盘,4时许撞上因故障停于高速左侧行车道内的半挂车!江西赣州公布一轿车追尾致3死事故调查报告

极目新闻
2026-05-31 08:20:44
小马科斯还是没拦住,莎拉民调支持率飙升,马科斯家族不再是对手

小马科斯还是没拦住,莎拉民调支持率飙升,马科斯家族不再是对手

猪猪爱影视
2026-06-01 15:00:14
杭州女子征婚:不要彩礼,能提供5分钟夫妻生活,每月给男人3000

杭州女子征婚:不要彩礼,能提供5分钟夫妻生活,每月给男人3000

谭谈社会
2026-05-28 18:34:27
央视主持人康辉身边的女搭档太美了,颜值高还大气

央视主持人康辉身边的女搭档太美了,颜值高还大气

娱你同欢
2026-06-01 16:24:53
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
嫁给富豪13年却独守娘家,潘阳点醒了无数年轻人,家底再厚也没用

嫁给富豪13年却独守娘家,潘阳点醒了无数年轻人,家底再厚也没用

情感大头说说
2026-05-30 17:02:16
国际原油期货日内跌幅扩大至约2%

国际原油期货日内跌幅扩大至约2%

财联社
2026-06-02 16:50:23
告诉你一个残酷的真相:父母存的钱,存的其实是孩子的选择权

告诉你一个残酷的真相:父母存的钱,存的其实是孩子的选择权

大熊欢乐坊
2026-06-01 06:24:25
山西省省长卢东亮,下矿井检查

山西省省长卢东亮,下矿井检查

新京报
2026-06-02 09:25:07
为什么领导都喜欢上班?网友曝光领导抽屉都是性用品:丝袜、套套

为什么领导都喜欢上班?网友曝光领导抽屉都是性用品:丝袜、套套

黯泉
2026-06-01 15:33:05
什么鬼!詹姆斯排第二,里夫斯第一!湖人开始挽留老詹了...

什么鬼!詹姆斯排第二,里夫斯第一!湖人开始挽留老詹了...

詹姆斯吧
2026-06-02 13:07:20
亚美尼亚总理:将继续留在欧亚经济联盟

亚美尼亚总理:将继续留在欧亚经济联盟

财联社
2026-06-02 11:24:05
5月销量榜看懵了:零跑8.1万登顶,理想掉队,新势力座次彻底洗牌

5月销量榜看懵了:零跑8.1万登顶,理想掉队,新势力座次彻底洗牌

小南看车
2026-06-01 22:22:39
当不成总统了?特朗普体检报告出来了,快80岁的他,或被迫下台

当不成总统了?特朗普体检报告出来了,快80岁的他,或被迫下台

原来仙女不讲理
2026-06-02 14:14:15
高开低走?《主角》一个细节证明编剧换人,剧情前后矛盾救不回来

高开低走?《主角》一个细节证明编剧换人,剧情前后矛盾救不回来

剧芒芒
2026-06-02 12:42:20
日媒:高市正准备对华发动战争?日专家“重兵部署,战场选好了”

日媒:高市正准备对华发动战争?日专家“重兵部署,战场选好了”

二爷台球解说
2026-05-30 12:54:57
2026-06-02 17:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15368文章数 66896关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

商标被宣告无效 "壹号土猪"创始人:已向法院提起诉讼

头条要闻

商标被宣告无效 "壹号土猪"创始人:已向法院提起诉讼

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

家居
数码
健康
亲子
旅游

家居要闻

流线型轮廓 包容多元身形

数码要闻

华为nova 16系列发布:2999元起 全系配备后置红枫原色镜头

干细胞临床研究向患者收费?别踩坑

亲子要闻

5个月宝宝查出1000度近视,父母也是高度近视,医生提醒

旅游要闻

2025年全国A级景区接待游客75.1亿人次

无障碍浏览 进入关怀版