Opus 4.8编码力横扫多项基准，终端测试却被GPT-5.5反杀？|调用|代码|工作流|智能体|大模型|opus

Opus 4.8编码力横扫多项基准，终端测试却被GPT-5.5反杀？

2026-05-29 01:47:14　来源: Ping值焦虑

北京举报

分享至

今天，Anthropic直接把Claude Opus 4.8推到了开发者面前，定价和上代持平，快速模式速度提升到2.5倍，同时快速模式的成本也比此前便宜了3倍。伴随模型上线的还有两个功能：Claude Code里的动态工作流，以及claude.ai中的努力程度控制。

对于写代码、搭智能体的团队来说，这次更新不是挤牙膏。下面逐条拆开看，哪些数字和体验变化值得你马上关注。

一、基准测试：多项登顶，但也有被反超的科目

在智能体编码测试SWE-Bench Pro上，新模型拿到69.2%，前代Opus 4.7是64.3%，GPT-5.5得分58.6%，Gemini 3.1 Pro则是54.2%。单看自家迭代，提高了4.9个百分点；如果横向比，比GPT-5.5领先10.6个百分点，这个差距在编码智能体领域不算小。

但到了终端智能体编码测试Terminal-Bench 2.1，排序直接变了：GPT-5.5以78.2%排第一，Claude的新旗舰是74.6%，Gemini 3.1 Pro为70.3%。也就是说，在命令行环境里GPT-5.5暂时领跑。不过相比Opus 4.7的66.1%，这次一下子跃升了8.5个百分点，这种代际跳跃速度值得注意。

在模拟真实桌面操作的OSWorld-Verified测试中，Opus 4.8得分83.4%，超过GPT-5.5的78.7%。而浏览器智能体在Online-Mind2Web上达到84%，同时碾压了自家上代和GPT-5.5。如果说桌面和浏览器自动化是下一步落地的关键，那这份成绩单确实强硬。

推理类测试“人类最后的考试”里，该模型借助工具取得57.9%，GPT-5.5是52.2%，Gemini 3.1 Pro为51.4%。金融智能体任务Finance Agent v2中，Claude最新版为53.9%，GPT-5.5为51.8%。特别扎眼的是，它还是第一个在Legal Agent Benchmark全通过率上突破10%的模型，此前这个领域一直被吐槽“合格率个位数”。

如果要针对具体负载计算成本，ComparEdge站点上那个大模型计算器可以跑具体场景数字，这里不再赘述。

二、代码质量与工具调用：少放烂代码，敢怼错误计划

日常使用最明显的感知是：Opus 4.8放行有缺陷代码的概率大约只有上代的四分之一。它不仅更能揪出自己的错误，还会在计划有明显问题时直接否决。换言之，模型从“默默照办”变得“会质疑你”。

Devin团队直接给出了反馈：“Claude Opus 4.8使用工具干净利落，遵循指令的一致性完全能满足我们自主工程负载长时间无人值守运行的需求。它改进了Opus 4.6的表现，并且修正了我们在Opus 4.7上看到的注释啰嗦、工具调用异常等问题。”这些从一线工程负载里跑出来的评价，比单纯基准分更有参考价值。

CursorBench的数据也显示，新版本在所有努力程度级别上都超越了前代Opus模型，工具调用整体效率更高。

Shopify的Staff工程师Tom Pritchard的评价更接地气：“Claude Opus 4.8的判断力明显更好。在Claude Code里，它会问对的问题，抓住自己的错误，在计划不靠谱时直接拒绝，在摸清复杂的多服务探索任务后才敢下重手改动。这是一个能真正拿来构建的模型。”简单说，它懂得在复杂微服务场景里先建立信心，再做大规模变更，不像有些模型一上来就乱改。

另外，Kay Zhu作为某公司联合创始人兼CTO透露：“在我们的Super-Agent基准上，Claude Opus 4.8是唯一一个端到端完成所有案例的模型，以同等成本击败了之前的Opus系列和GPT-5.5。”这种全案例通关的成绩，意味着在复杂智能体链条里它更少卡住。

三、Claude Code动态工作流：单次会话并行跑成百上千子智能体

跟模型一同推出的最大功能是动态工作流，目前在Claude Code中以研究预览版形式开放。模型可以自行规划任务，然后在单次会话中并行启动成百上千个子智能体去执行。Anthropic表示，这能支撑横跨数十万行代码的仓库级迁移，从初始提交一路跑到合并请求。

这个功能对大型重构、框架迁移、跨服务改动等场景极为对症。过去你得人工拆分任务、串行执行，现在可以把整个工程当做一个整体丢进去处理。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.