Claude Opus 4.8发布即翻车？实锤抄袭DeepSeek和千问|编程|代码|工作流|opus|显式标识

Claude Opus 4.8发布即翻车？实锤抄袭DeepSeek和千问

分享至

大家好，我是程序员鱼皮。

刚刚 Anthropic 又发布了新模型 Claude Opus 4.8，从 2 月的 Opus 4.6 到 4 月的 Opus 4.7，短短 3 个月就迭代了 3 版！

每次大模型一更新，全网都在搬官方的跑分数据、翻译一下更新日志就完事了。

但跑分高不代表实际好用，我还是更想亲自测一测，哪怕已经发如雨下……

正好最新的 Claude Opus 4.8 已经能在 Cursor 里用了，我干脆把 Opus 最近三代（4.6、4.7、4.8）和当红的 GPT-5.5 放到一起，用同一个提示词开发同一个全栈项目，看看到底谁最能打。

开始之前，先介绍一下本次 Opus 4.8 的更新，也请大家预测一下最终的测试结果~

Opus 4.8 更新了什么？

Opus 4.8 的定价和 Opus 4.7 一样，每百万 token 输入 5 美元、输出 25 美元，上下文依然是 100 万 tokens。

跑分这块本来我都懒得看了，反正 Opus 每次更新都是往上涨。不过和 GPT-5.5 的对比还是值得关注的，编程能力方面，SWE-bench Pro（Agent 编程能力）从 4.7 的 64.3% 提升到 69.2%，大幅领先 GPT-5.5 的 58.6%。不过在 Terminal-Bench 2.1（终端编程能力）上，GPT-5.5 以 78.2% 仍然领先 Opus 4.8 的 74.6%。

这次更新我觉得最值得关注的有 3 点：

1）动态工作流：Claude Code 里可以一次性派出几百个并行子 Agent，最多 16 个同时跑、单次上限 1000 个 Agent。适合大规模代码迁移这种硬骨头活儿。

不过大多数用户应该用不上这个功能，就好比你开了个公司，也没必要一次性雇几百个人，日常开发哪来这么大的迁移需求。

2）代码自查能力暴涨：官方说 Opus 4.8 漏检代码缺陷的概率比 4.7 降低了 4 倍。也就是说 AI 写完代码之后，自己就能发现更多 Bug，一把梭跑通的成功率更高了。

3）Fast Mode 大降价：Fast 模式可以让同样的模型处理速度翻倍，而且比之前的 Fast Mode 便宜 3 倍。

看数据是一方面，AI 编程模型好不好用，还是得拿真实项目来检验。

不过正式开测之前，先说个最近跟 Claude 有关的乐子。

有人发现用 Anthropic 官方 API（注意是官方 API，不是中转站）直接调 Claude，中文问它「你是什么模型？」，它竟然一本正经地回答「我是通义千问」。据说换个问法，它还会说自己是 DeepSeek。

我盲猜一个原因，API 调用没有像网页端那样的系统提示词来锚定身份，而中文互联网上「我是通义千问 / DeepSeek」的训练数据远比「我是 Claude」多得多。模型在没有身份提示的情况下，自然就输出了概率最高的那个回答。

不过也有可能，Claude 就是蒸馏了国产模型，好一个回旋镖~

好了说回正题，这些顶级模型在实际编程中表现到底如何呢？

让 Cursor 自动并行测试

如果让你来做 4 个模型的编程能力对比，你会怎么做呢？手动一个一个跑么？

那也太累了，我选择直接让 AI 帮我测。

现在 Cursor 这类 AI 编程工具已经内置了「子 Agent」能力，可以并行启动多个独立的 AI 任务，而且每个任务可以指定用不同的模型。

相当于 Cursor 是一个包工头，我下一个指令，它就帮我同时调度 4 个不同的「工人」干活。

我只需要发一段提示词，Cursor 就自动帮我同时启动 4 个子 Agent，分别用 Opus 4.6、4.7、4.8 和 GPT-5.5，全部开到 High thinking 档位，用同一段提示词在各自的目录里开发同一个项目。

我让 AI 开发的项目是一个「TaskFlow 任务管理看板」全栈应用，类似简化版飞书看板，包含 7 个功能需求：用户注册登录、三列看板拖拽、任务增删改查、数据图表面板、搜索筛选、暗色 / 亮色主题切换、响应式设计。技术栈是 React + TypeScript 前端 + Python FastAPI 后端 + SQLite 数据库，前后端分离。

再次强调，4 个模型用的是完全一样的提示词，而且全程不做任何人工干预。我主要关注这几个指标：UI 设计水平、功能完成度、代码质量和架构合理性。

前端界面对比

先看登录页。

Opus 4.6 和 Opus 4.7 类似，都做了一个很干净的居中卡片式登录：

Opus 4.8 也差不多，但多了注册 / 登录 Tab 切换，还贴心地把演示账号密码直接标在了页面底部：

GPT-5.5 的风格就完全变了，而且一看就是 GPT 的风格，左边一大块全是文案宣传，右边才是登录表单。符合我对 GPT 的刻板印象 —— 喜欢在页面上堆信息：

登录之后，再来看任务看板页面。

Opus 4.6 的排版整齐，但没什么背景色，中规中矩吧：

Opus 4.7 加了渐变背景色，列头有颜色区分，整体更优雅：

Opus 4.8 的看板跟 4.6 效果差不多，有点素：

GPT-5.5 则直接把看板和数据面板合到了一个页面，上面是图表，下面是三列任务看板，用最少的页面完成最多的事。但是任务列的标题直接用了英文，细节上差了点儿意思。

再来看看数据面板页面。

Opus 4.6 的数据面板比较简洁，三张图表排成一排，没有多余的装饰：

Opus 4.7 的汇总卡片做了圆角渐变色图标，更生动了：

Opus 4.8 的数据面板风格和 4.6 类似，不对，比 4.6 更朴素了：

再来看看深色模式，4 个模型的差距就更明显了。

Opus 4.6 的深色模式切换过来之后整体颜色还算协调，但背景和卡片的对比度偏低，看起来有点灰蒙蒙的：

Opus 4.7 的深色模式大不相同，渐变背景色在深色底色下显得更高级，卡片和图表的配色也很统一：

Opus 4.8 的深色模式中规中矩，没有什么惊喜，也没什么硬伤，和 4.6 比较接近：

GPT-5.5 的深色模式风格有点儿像 Opus 4.6，也是一大片灰色，差点儿意思。。。

你们觉得谁最好看呢？

我个人投 Opus 4.7 一票，深色模式下那个渐变背景色真的很舒服。

功能实现对比

功能方面就不一一展示了，4 个模型全部实现了 7 个功能需求：注册登录、看板拖拽、任务管理、图表、搜索、主题切换、响应式，都能正常使用。

毕竟主流模型一把梭全栈项目已经不是什么新鲜事了，这些功能都不复杂，很难拉开区分度。

代码质量对比

既然功能都一样、UI 差异也是见仁见智，那真正能拉开差距的就是代码质量了。

我让 AI 帮我分析了 4 个项目的代码结构，还是能发现明显的区别的。

首先，4 个模型的项目结构出奇地一致，甚至连文件名都几乎一模一样。一方面应该是我提示词限定技术框架的原因，另一方面看来这些顶级模型的编程思路已经高度趋同了，大家都在往同一套最佳实践上靠拢。

看看生成的代码规模：

模型

源码文件数

代码行数

Opus 4.6

1,865

Opus 4.7

2,259

Opus 4.8

2,701

GPT-5.5

1,221

显然，Opus 4.8 代码量最大，GPT-5.5 最精简。

但代码多不一定是好事，少也不代表差。关键还是看架构是否清晰、有没有明显的 Bug。下面逐个来看。

1）Opus 4.7 的架构是最清晰的

后端拆了 3 个 router（auth、tasks、stats），前端状态管理用独立的 store 文件，注册和登录分页面，有专门的 AppLayout 布局组件，axios 请求也做了集中封装。分层非常规整，拿去做团队项目也没问题。

2）Opus 4.8 拆得最细

有独立的 context 目录、FilterBar 组件、工具模块，代码量最大。另外 CORS 跨域配置直接配了 allow_origins=["*"]，安全意识差了点。

3）GPT-5.5 走的是极简路线

只用了 Opus 4.8 一半行数的代码就搞定了全部功能，但缺点是后端所有路由都写在 main.py 一个文件里，300 多行挤在一起。能跑是能跑，就是后面要改的话会比较头疼。

4）Opus 4.6 功能完整，但有 2 个 Bug

一个是缺少 React import 导致白屏，另一个是 Tailwind v4 的 CSS 层级冲突，说明 4.6 对最新框架版本的适配还不够。

综合排名

最终，这次测试下来 4 个模型的排名如下：

排名

模型

一句话评价

Opus 4.7

架构最清晰，UI 最精致，代码零缺陷，开箱即用

Opus 4.8

代码量最大最详尽，但有文件遗漏和 CORS 问题

GPT-5.5

1221 行极简通关，但后端单文件堆砌不利于维护

Opus 4.6

功能完整但有 2 个白屏 Bug，对新框架适配不足

看到这个结果，是不是有点意外？

最新的 Opus 4.8 竟然没拿第一，怕不是更新了个寂寞嘛？

我的理解是，4.8 这次更新的重心不在「写更美观的代码」，而在 Agent 可靠性和长时间无人监督的任务执行上。动态工作流、代码自查能力这些特性，在大型项目和企业级场景里可能更有价值，但在「一把梭做个全栈项目」这种场景下，4.7 反而表现更稳。

所以大家不要盲目追新，还是按自己的实际需求来选模型。

时间有限，就先给大家分享这次测试。结合我自己的使用体感，我的建议是：

日常开发、一把梭小项目：选择 Opus 4.7 或 4.8 都行，4.7 的 UI 更好看，4.8 更省心（自查能力强）
终端操作、命令行自动化：选择 GPT-5.5，之前我做 Codex 教程的时候拿 GPT-5.5 用作办公 AI 还是很香的
大规模代码迁移重构：选择 Opus 4.8，它的动态工作流是杀手锏

而且我发现一个趋势，Opus 4.8 越来越像 GPT-5.5 了，都在朝着「用最务实的方式把活干完」的方向走，对 UI 美感之类的「额外加分项」反而不太上心。

不过我是真的不希望 Claude 继续朝着这个方向发展下去，大模型之间多搞些差异化，往不同的方向去强化各自的优势，给用户更多选择，我觉得才更好。

OK 就分享到这里，本文会收录到我免费开源的《AI 编程零基础入门教程》，上千张图、几十万字，带你从 0 开始快速学会 AI 编程，做出自己的产品、跑通变现全流程，一次拿捏。

开源指路：https://github.com/liyupi/ai-guide

我是鱼皮，持续分享 AI 编程干货。觉得有用的话记得点赞收藏和关注~

也欢迎在评论区聊聊：你现在主力用哪个 AI 编程模型？有没有试过 Opus 4.8？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.