网易首页 > 网易号 > 正文 申请入驻

Claude Opus 4.8 发布 72 小时,第一份独立成绩单来了!编程碾压,全科第四

0
分享至

来源:市场资讯

(来源:AI信息Gap)

Anthropic 说,七项测试六项第一。

LiveBench 说,你排第四。

Claude Opus 4.8 上线 72 小时,独立评测机构的成绩单陆续出炉。Artificial Analysis 综合智能指数第一,LiveBench 全科排名第四。同一个模型,两份榜单,不同的故事。


今天这篇,我们只看第三方独立评测数据。

Claude Opus 4.8 在编程领域的统治力,没有争议。

SWE-Bench Pro 69.2%,GPT-5.5 58.6%,Gemini 3.1 Pro 54.2%。超过 10 个百分点的差距,在这种难度的基准里,基本等于代差。

不过 LiveBench 的编程子项,画面稍有不同。Coding Average 上 GPT-5.5 82.47,Claude Opus 4.8 79.27,OpenAI 反而领先。Agentic Coding 子项里 Claude 拿了 60 分,赢了 GPT-5.5 的 56.67,但落后于 GPT-5.4(70)和 Gemini 3.1 Pro(65)。


Artificial Analysis 的 GDPval-AA 真实工作评测给出了更极端的数据。1890 Elo 分,领先 GPT-5.5 121 分。换算成胜率,大约 67% 的概率赢 GPT-5.5。而且完成同等任务,Opus 4.8 比 4.7 少用了 35% 的输出 token,对话轮次也减少了 15%。


干活更快,还更省。

但全科排名,故事就不一样了。

LiveBench 是一套专门针对「数据污染」设计的评测。题目定期更新,答案可验证,不需要 LLM 当裁判。入选了 ICLR 2025 Spotlight Paper,最近一次题库更新是 2026 年 1 月 8 日。

在 LiveBench 全科排名里,Claude Opus 4.8 Thinking xHigh Effort 综合得分 77.22。

排在它前面的有三个模型。

GPT-5.5 Thinking xHigh Effort,80.71。第一。

GPT-5.4 Thinking xHigh Effort,80.28。第二。

Gemini 3.1 Pro Preview High,79.93。第三。

Claude Opus 4.8,第四。

和第一名 GPT-5.5 差了 3.49 分,和第三名 Gemini 3.1 Pro 差了 2.71 分。

数学(Mathematics Average),GPT-5.5 96.32,Claude Opus 4.8 84.32。差了 12 分。GPT-5.4 和 Gemini 3.1 Pro 分别是 94.15 和 91.04,都在 Claude 前面。

指令遵循(IF Average),Gemini 3.1 Pro 79.10,GPT-5.5 73.04,Claude Opus 4.8 67.45。Claude 在这项上的差距更大。

推理(Reasoning Average)是 Claude 的强项。Claude Opus 4.8 89.71,仅次于 GPT-5.4 的 88.12,超过了 GPT-5.5 的 87.71。

编程(Coding Average)GPT-5.5 82.47,Claude Opus 4.8 79.27。LiveBench 的编程测试里 GPT-5.5 更强。这和 SWE-Bench Pro 的结果不完全一致。

Artificial Analysis 则给出了一个不同的全科排名。

在他们的综合智能指数(Intelligence Index)里,Claude Opus 4.8 拿下 61.4 分,超过 GPT-5.5 的 60.2 分,登顶第一。比上一代 Opus 4.7 提升了 4.1 分。


这个指数覆盖 GDPval-AA、Humanity's Last Exam、Terminal-Bench、SciCode 等多个维度。Claude 在 GDPval-AA(真实工作任务)和 HLE(跨学科极难题)上的优势太大,拉高了总分。

Humanity's Last Exam,Claude Opus 4.8 领先一个百分点。这个基准包括全球专家出的 2500 道题,三家跑出来差距只有 1-2 个百分点,可以算是贴身肉搏。

科学推理也有进步。在 CritPt(物理学前沿评测)上超过了 Gemini 3.1 Pro,但仍然落后于 GPT-5.4 Pro(30.0%)和 GPT-5.5 Pro(30.6%)。

幻觉率维持在 35.9%,在「诚实、不瞎编」这件事上 Claude Opus 4.8 做得确实不错。

LMArena 目前还没有 Opus 4.8 的排名数据。毕竟模型上线才 72 小时,投票样本还不够。上一代 Opus 4.7 Thinking 在 Coding Arena 排第一,Text Arena 排第二(低于上上代的 Opus 4.6 Thinking)。Opus 4.8 的具体数据大概率还要等一到两周。


Terminal-Bench 2.1,GPT-5.5 78.2%,Claude Opus 4.8 74.6%。命令行操作这个场景,OpenAI 还是第一。但比 Opus 4.7 的 66.1% 进步了 8.5 个百分点,差距在缩小。

GPQA Diamond(研究生级别科学推理),御三家都在 93-94% 区间。这个榜单快饱和了,拉不开差距。

榜单看完了,来说结论。

编程和 Agent 方向,Claude Opus 4.8 理论上是当前最强,但 GPT-5.5 和它相比,差距不算大。

如果看全科综合能力,LiveBench 的数据更为客观。GPT-5.5 各方面更均衡,Gemini 3.1 Pro 在语言和指令遵循上更强。

Claude Opus 4.8 还是那个偏科生。

Opus 4.8 上线当天,就有用户发现通过 API 调用时,模型会自称「通义千问」或「DeepSeek」。

三个月前,Anthropic 公开指控 DeepSeek、月之暗面和 MiniMax 对 Claude 发起「工业规模的蒸馏攻击」,声称有 2.4 万个虚假账户进行了超过 1600 万次交互。

三个月后,自家新模型在中文场景下「自曝」了。

Anthropic 官方至今没有回应。

不管是什么原因,这件事和成绩本身无关。但它给「反蒸馏」叙事增添了一丝尴尬。你指控别人偷你的数据,结果你的新模型开口第一句就是别人的名字。

a16z 联合创始人 Marc Andreessen 在社交媒体上吐槽,「如果蒸馏算犯罪,那人类历史上每一次师徒传承、每一场学术研讨会,是不是都该被起诉?」

42 天出一代新模型,编程能力甩开第二名 10 个百分点,真实工作评测登顶。

代价是全科排名第四,语言、数学和指令遵循的短板还没补上来。

我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有一种后悔叫买了“高层的2楼”,不好住卖不掉,彻底成为不动产

有一种后悔叫买了“高层的2楼”,不好住卖不掉,彻底成为不动产

装修秀
2026-04-23 11:15:03
夏补钾,不疲惫,建议大家:夏天多吃这3种“补钾高手”,精神好

夏补钾,不疲惫,建议大家:夏天多吃这3种“补钾高手”,精神好

阿龙美食记
2026-05-31 20:23:07
全新一代问界 M9 上市:国产豪华车标杆的自我刷新

全新一代问界 M9 上市:国产豪华车标杆的自我刷新

晚点LatePost
2026-05-29 09:50:28
女员工嘲讽顾客“穷逛”后续:本人火到香港已社死,商场也被坑惨

女员工嘲讽顾客“穷逛”后续:本人火到香港已社死,商场也被坑惨

哄动一时啊
2026-06-01 19:30:38
在与俄领导人会面后,俄罗斯寡头们“自愿”为战争捐款2200亿卢布

在与俄领导人会面后,俄罗斯寡头们“自愿”为战争捐款2200亿卢布

山河路口
2026-06-02 14:04:22
全线失守!克里米亚制空权被乌军强势夺走了

全线失守!克里米亚制空权被乌军强势夺走了

知兵
2026-06-02 08:00:16
阿迪达斯发进城办事T恤,客服回应

阿迪达斯发进城办事T恤,客服回应

第一财经资讯
2026-06-02 15:07:57
伦敦世乒赛夺冠后,王皓宣布:王楚钦为国乒男队队长,梁靖崑为副队长

伦敦世乒赛夺冠后,王皓宣布:王楚钦为国乒男队队长,梁靖崑为副队长

环球网资讯
2026-06-02 14:32:33
稻城亚丁怎么就“跪”了?!

稻城亚丁怎么就“跪”了?!

行者殷涛
2026-06-01 18:00:30
蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

书画相约
2026-06-01 07:23:51
师父来了!文班亚马的靠山,真TM硬啊!

师父来了!文班亚马的靠山,真TM硬啊!

左右为篮
2026-06-02 09:06:29
神级补强!魔笛挂靴赴皇马辅佐穆帅,专治银河战舰更衣室内乱!

神级补强!魔笛挂靴赴皇马辅佐穆帅,专治银河战舰更衣室内乱!

田先生篮球
2026-06-02 09:23:02
太讽刺了!国内的职场环境,不像公司,像朝廷,让人一言难尽…

太讽刺了!国内的职场环境,不像公司,像朝廷,让人一言难尽…

慧翔百科
2026-06-02 08:40:47
一男子中奖10万,请家人吃700块钱海鲜庆祝,结账时发现帐单高达280万,男子:差点倾家荡产

一男子中奖10万,请家人吃700块钱海鲜庆祝,结账时发现帐单高达280万,男子:差点倾家荡产

背包旅行
2026-06-02 15:18:47
好口感+高营养!九阳K7Pro破壁豆浆机复刻太空豆浆的安心密码

好口感+高营养!九阳K7Pro破壁豆浆机复刻太空豆浆的安心密码

中国家电网
2026-06-02 15:20:56
杭州限狗令正式落地,养狗人月花上千,凭什么让不养狗的人买单?

杭州限狗令正式落地,养狗人月花上千,凭什么让不养狗的人买单?

奇思妙想草叶君
2026-06-01 19:40:34
“崩老头”全链调查:1500元可购全套工具,视频、语音均能伪造身份

“崩老头”全链调查:1500元可购全套工具,视频、语音均能伪造身份

大象新闻
2026-06-01 16:54:53
一位母亲没能送出的儿童节礼物:离婚诉讼期间生父当街抢走两岁孩子,被拘留15日仍不送还

一位母亲没能送出的儿童节礼物:离婚诉讼期间生父当街抢走两岁孩子,被拘留15日仍不送还

红星新闻
2026-06-02 00:50:25
网曝一英国网红打赌,24小时拿下中国女生,结果让国人直呼丢人

网曝一英国网红打赌,24小时拿下中国女生,结果让国人直呼丢人

小徐讲八卦
2026-06-02 09:17:26
猛批华为“韬定律”是学术造假,杨学志到底什么来头?

猛批华为“韬定律”是学术造假,杨学志到底什么来头?

数字财经智库
2026-06-02 11:36:16
2026-06-02 17:07:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3433159文章数 7763关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

男子离婚当晚杀害前妻逃亡17年被判死缓 检方抗诉成功

头条要闻

男子离婚当晚杀害前妻逃亡17年被判死缓 检方抗诉成功

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

教育
时尚
本地
游戏
公开课

教育要闻

教育部等部门开展护航行动助力“平安高考”

推广|| 入夏第一双鞋买得好成功!暴走1w步、搭遍小裙子

本地新闻

用剪纸的方式,打开江苏扬州

刺客信条:侠隐独占手游无PC版!中国刺客不配3A画质?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版