Claude Opus 4.8 发布 72 小时，第一份独立成绩单来了！编程碾压，全科第四|评测|opus|claude

Claude Opus 4.8 发布 72 小时，第一份独立成绩单来了！编程碾压，全科第四

2026-06-02 00:42:26　来源: 新浪财经

北京举报

分享至

来源：市场资讯

（来源：AI信息Gap）

Anthropic 说，七项测试六项第一。

LiveBench 说，你排第四。

Claude Opus 4.8 上线 72 小时，独立评测机构的成绩单陆续出炉。Artificial Analysis 综合智能指数第一，LiveBench 全科排名第四。同一个模型，两份榜单，不同的故事。

今天这篇，我们只看第三方独立评测数据。

Claude Opus 4.8 在编程领域的统治力，没有争议。

SWE-Bench Pro 69.2%，GPT-5.5 58.6%，Gemini 3.1 Pro 54.2%。超过 10 个百分点的差距，在这种难度的基准里，基本等于代差。

不过 LiveBench 的编程子项，画面稍有不同。Coding Average 上 GPT-5.5 82.47，Claude Opus 4.8 79.27，OpenAI 反而领先。Agentic Coding 子项里 Claude 拿了 60 分，赢了 GPT-5.5 的 56.67，但落后于 GPT-5.4（70）和 Gemini 3.1 Pro（65）。

Artificial Analysis 的 GDPval-AA 真实工作评测给出了更极端的数据。1890 Elo 分，领先 GPT-5.5 121 分。换算成胜率，大约 67% 的概率赢 GPT-5.5。而且完成同等任务，Opus 4.8 比 4.7 少用了 35% 的输出 token，对话轮次也减少了 15%。

干活更快，还更省。

但全科排名，故事就不一样了。

LiveBench 是一套专门针对「数据污染」设计的评测。题目定期更新，答案可验证，不需要 LLM 当裁判。入选了 ICLR 2025 Spotlight Paper，最近一次题库更新是 2026 年 1 月 8 日。

在 LiveBench 全科排名里，Claude Opus 4.8 Thinking xHigh Effort 综合得分 77.22。

排在它前面的有三个模型。

GPT-5.5 Thinking xHigh Effort，80.71。第一。

GPT-5.4 Thinking xHigh Effort，80.28。第二。

Gemini 3.1 Pro Preview High，79.93。第三。

Claude Opus 4.8，第四。

和第一名 GPT-5.5 差了 3.49 分，和第三名 Gemini 3.1 Pro 差了 2.71 分。

数学（Mathematics Average），GPT-5.5 96.32，Claude Opus 4.8 84.32。差了 12 分。GPT-5.4 和 Gemini 3.1 Pro 分别是 94.15 和 91.04，都在 Claude 前面。

指令遵循（IF Average），Gemini 3.1 Pro 79.10，GPT-5.5 73.04，Claude Opus 4.8 67.45。Claude 在这项上的差距更大。

推理（Reasoning Average）是 Claude 的强项。Claude Opus 4.8 89.71，仅次于 GPT-5.4 的 88.12，超过了 GPT-5.5 的 87.71。

编程（Coding Average）GPT-5.5 82.47，Claude Opus 4.8 79.27。LiveBench 的编程测试里 GPT-5.5 更强。这和 SWE-Bench Pro 的结果不完全一致。

Artificial Analysis 则给出了一个不同的全科排名。

在他们的综合智能指数（Intelligence Index）里，Claude Opus 4.8 拿下 61.4 分，超过 GPT-5.5 的 60.2 分，登顶第一。比上一代 Opus 4.7 提升了 4.1 分。

这个指数覆盖 GDPval-AA、Humanity's Last Exam、Terminal-Bench、SciCode 等多个维度。Claude 在 GDPval-AA（真实工作任务）和 HLE（跨学科极难题）上的优势太大，拉高了总分。

Humanity's Last Exam，Claude Opus 4.8 领先一个百分点。这个基准包括全球专家出的 2500 道题，三家跑出来差距只有 1-2 个百分点，可以算是贴身肉搏。

科学推理也有进步。在 CritPt（物理学前沿评测）上超过了 Gemini 3.1 Pro，但仍然落后于 GPT-5.4 Pro（30.0%）和 GPT-5.5 Pro（30.6%）。

幻觉率维持在 35.9%，在「诚实、不瞎编」这件事上 Claude Opus 4.8 做得确实不错。

LMArena 目前还没有 Opus 4.8 的排名数据。毕竟模型上线才 72 小时，投票样本还不够。上一代 Opus 4.7 Thinking 在 Coding Arena 排第一，Text Arena 排第二（低于上上代的 Opus 4.6 Thinking）。Opus 4.8 的具体数据大概率还要等一到两周。

Terminal-Bench 2.1，GPT-5.5 78.2%，Claude Opus 4.8 74.6%。命令行操作这个场景，OpenAI 还是第一。但比 Opus 4.7 的 66.1% 进步了 8.5 个百分点，差距在缩小。

GPQA Diamond（研究生级别科学推理），御三家都在 93-94% 区间。这个榜单快饱和了，拉不开差距。

榜单看完了，来说结论。

编程和 Agent 方向，Claude Opus 4.8 理论上是当前最强，但 GPT-5.5 和它相比，差距不算大。

如果看全科综合能力，LiveBench 的数据更为客观。GPT-5.5 各方面更均衡，Gemini 3.1 Pro 在语言和指令遵循上更强。

Claude Opus 4.8 还是那个偏科生。

Opus 4.8 上线当天，就有用户发现通过 API 调用时，模型会自称「通义千问」或「DeepSeek」。

三个月前，Anthropic 公开指控 DeepSeek、月之暗面和 MiniMax 对 Claude 发起「工业规模的蒸馏攻击」，声称有 2.4 万个虚假账户进行了超过 1600 万次交互。

三个月后，自家新模型在中文场景下「自曝」了。

Anthropic 官方至今没有回应。

不管是什么原因，这件事和成绩本身无关。但它给「反蒸馏」叙事增添了一丝尴尬。你指控别人偷你的数据，结果你的新模型开口第一句就是别人的名字。

a16z 联合创始人 Marc Andreessen 在社交媒体上吐槽，「如果蒸馏算犯罪，那人类历史上每一次师徒传承、每一场学术研讨会，是不是都该被起诉？」

42 天出一代新模型，编程能力甩开第二名 10 个百分点，真实工作评测登顶。

代价是全科排名第四，语言、数学和指令遵循的短板还没补上来。

我是木易，Top2 + 美国 Top10 CS 硕，现在是 AI 产品经理。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.