网易首页 > 网易号 > 正文 申请入驻

Claude Opus 4.8发布即翻车?实锤抄袭DeepSeek和千问

0
分享至

大家好,我是程序员鱼皮。

刚刚 Anthropic 又发布了新模型 Claude Opus 4.8,从 2 月的 Opus 4.6 到 4 月的 Opus 4.7,短短 3 个月就迭代了 3 版!

每次大模型一更新,全网都在搬官方的跑分数据、翻译一下更新日志就完事了。

但跑分高不代表实际好用,我还是更想亲自测一测,哪怕已经发如雨下……



正好最新的 Claude Opus 4.8 已经能在 Cursor 里用了,我干脆把 Opus 最近三代(4.6、4.7、4.8)和当红的 GPT-5.5 放到一起,用同一个提示词开发同一个全栈项目,看看到底谁最能打。

开始之前,先介绍一下本次 Opus 4.8 的更新,也请大家预测一下最终的测试结果~

Opus 4.8 更新了什么?

Opus 4.8 的定价和 Opus 4.7 一样,每百万 token 输入 5 美元、输出 25 美元,上下文依然是 100 万 tokens。

跑分这块本来我都懒得看了,反正 Opus 每次更新都是往上涨。不过和 GPT-5.5 的对比还是值得关注的,编程能力方面,SWE-bench Pro(Agent 编程能力)从 4.7 的 64.3% 提升到 69.2%,大幅领先 GPT-5.5 的 58.6%。不过在 Terminal-Bench 2.1(终端编程能力)上,GPT-5.5 以 78.2% 仍然领先 Opus 4.8 的 74.6%。



这次更新我觉得最值得关注的有 3 点:

1)动态工作流:Claude Code 里可以一次性派出几百个并行子 Agent,最多 16 个同时跑、单次上限 1000 个 Agent。适合大规模代码迁移这种硬骨头活儿。

不过大多数用户应该用不上这个功能,就好比你开了个公司,也没必要一次性雇几百个人,日常开发哪来这么大的迁移需求。

2)代码自查能力暴涨:官方说 Opus 4.8 漏检代码缺陷的概率比 4.7 降低了 4 倍。也就是说 AI 写完代码之后,自己就能发现更多 Bug,一把梭跑通的成功率更高了。

3)Fast Mode 大降价:Fast 模式可以让同样的模型处理速度翻倍,而且比之前的 Fast Mode 便宜 3 倍。

看数据是一方面,AI 编程模型好不好用,还是得拿真实项目来检验。

不过正式开测之前,先说个最近跟 Claude 有关的乐子。

有人发现用 Anthropic 官方 API(注意是官方 API,不是中转站)直接调 Claude,中文问它「你是什么模型?」,它竟然一本正经地回答「我是通义千问」。据说换个问法,它还会说自己是 DeepSeek。



我盲猜一个原因,API 调用没有像网页端那样的系统提示词来锚定身份,而中文互联网上「我是通义千问 / DeepSeek」的训练数据远比「我是 Claude」多得多。模型在没有身份提示的情况下,自然就输出了概率最高的那个回答。

不过也有可能,Claude 就是蒸馏了国产模型,好一个回旋镖~

好了说回正题,这些顶级模型在实际编程中表现到底如何呢?

让 Cursor 自动并行测试

如果让你来做 4 个模型的编程能力对比,你会怎么做呢?手动一个一个跑么?

那也太累了,我选择直接让 AI 帮我测。

现在 Cursor 这类 AI 编程工具已经内置了「子 Agent」能力,可以并行启动多个独立的 AI 任务,而且每个任务可以指定用不同的模型。

相当于 Cursor 是一个包工头,我下一个指令,它就帮我同时调度 4 个不同的「工人」干活。

我只需要发一段提示词,Cursor 就自动帮我同时启动 4 个子 Agent,分别用 Opus 4.6、4.7、4.8 和 GPT-5.5,全部开到 High thinking 档位,用同一段提示词在各自的目录里开发同一个项目。

我让 AI 开发的项目是一个「TaskFlow 任务管理看板」全栈应用,类似简化版飞书看板,包含 7 个功能需求:用户注册登录、三列看板拖拽、任务增删改查、数据图表面板、搜索筛选、暗色 / 亮色主题切换、响应式设计。技术栈是 React + TypeScript 前端 + Python FastAPI 后端 + SQLite 数据库,前后端分离。

再次强调,4 个模型用的是完全一样的提示词,而且全程不做任何人工干预。我主要关注这几个指标:UI 设计水平、功能完成度、代码质量和架构合理性。

前端界面对比

先看登录页。

Opus 4.6 和 Opus 4.7 类似,都做了一个很干净的居中卡片式登录:



Opus 4.8 也差不多,但多了注册 / 登录 Tab 切换,还贴心地把演示账号密码直接标在了页面底部:



GPT-5.5 的风格就完全变了,而且一看就是 GPT 的风格,左边一大块全是文案宣传,右边才是登录表单。符合我对 GPT 的刻板印象 —— 喜欢在页面上堆信息:

登录之后,再来看任务看板页面。

Opus 4.6 的排版整齐,但没什么背景色,中规中矩吧:



Opus 4.7 加了渐变背景色,列头有颜色区分,整体更优雅:



Opus 4.8 的看板跟 4.6 效果差不多,有点素:



GPT-5.5 则直接把看板和数据面板合到了一个页面,上面是图表,下面是三列任务看板,用最少的页面完成最多的事。但是任务列的标题直接用了英文,细节上差了点儿意思。



再来看看数据面板页面。

Opus 4.6 的数据面板比较简洁,三张图表排成一排,没有多余的装饰:

Opus 4.7 的汇总卡片做了圆角渐变色图标,更生动了:

Opus 4.8 的数据面板风格和 4.6 类似,不对,比 4.6 更朴素了:



再来看看深色模式,4 个模型的差距就更明显了。

Opus 4.6 的深色模式切换过来之后整体颜色还算协调,但背景和卡片的对比度偏低,看起来有点灰蒙蒙的:

Opus 4.7 的深色模式大不相同,渐变背景色在深色底色下显得更高级,卡片和图表的配色也很统一:

Opus 4.8 的深色模式中规中矩,没有什么惊喜,也没什么硬伤,和 4.6 比较接近:



GPT-5.5 的深色模式风格有点儿像 Opus 4.6,也是一大片灰色,差点儿意思。。。



你们觉得谁最好看呢?

我个人投 Opus 4.7 一票,深色模式下那个渐变背景色真的很舒服。

功能实现对比

功能方面就不一一展示了,4 个模型全部实现了 7 个功能需求:注册登录、看板拖拽、任务管理、图表、搜索、主题切换、响应式,都能正常使用。

毕竟主流模型一把梭全栈项目已经不是什么新鲜事了,这些功能都不复杂,很难拉开区分度。

代码质量对比

既然功能都一样、UI 差异也是见仁见智,那真正能拉开差距的就是代码质量了。

我让 AI 帮我分析了 4 个项目的代码结构,还是能发现明显的区别的。

首先,4 个模型的项目结构出奇地一致,甚至连文件名都几乎一模一样。一方面应该是我提示词限定技术框架的原因,另一方面看来这些顶级模型的编程思路已经高度趋同了,大家都在往同一套最佳实践上靠拢。



看看生成的代码规模:

模型

源码文件数

代码行数

Opus 4.6

25

1,865

Opus 4.7

32

2,259

Opus 4.8

33

2,701

GPT-5.5

13

1,221

显然,Opus 4.8 代码量最大,GPT-5.5 最精简。

但代码多不一定是好事,少也不代表差。关键还是看架构是否清晰、有没有明显的 Bug。下面逐个来看。

1)Opus 4.7 的架构是最清晰的

后端拆了 3 个 router(auth、tasks、stats),前端状态管理用独立的 store 文件,注册和登录分页面,有专门的 AppLayout 布局组件,axios 请求也做了集中封装。分层非常规整,拿去做团队项目也没问题。

2)Opus 4.8 拆得最细

有独立的 context 目录、FilterBar 组件、工具模块,代码量最大。另外 CORS 跨域配置直接配了 allow_origins=["*"],安全意识差了点。

3)GPT-5.5 走的是极简路线

只用了 Opus 4.8 一半行数的代码就搞定了全部功能,但缺点是后端所有路由都写在 main.py 一个文件里,300 多行挤在一起。能跑是能跑,就是后面要改的话会比较头疼。

4)Opus 4.6 功能完整,但有 2 个 Bug

一个是缺少 React import 导致白屏,另一个是 Tailwind v4 的 CSS 层级冲突,说明 4.6 对最新框架版本的适配还不够。

综合排名

最终,这次测试下来 4 个模型的排名如下:

排名

模型

一句话评价

1

Opus 4.7

架构最清晰,UI 最精致,代码零缺陷,开箱即用

2

Opus 4.8

代码量最大最详尽,但有文件遗漏和 CORS 问题

3

GPT-5.5

1221 行极简通关,但后端单文件堆砌不利于维护

4

Opus 4.6

功能完整但有 2 个白屏 Bug,对新框架适配不足

看到这个结果,是不是有点意外?

最新的 Opus 4.8 竟然没拿第一,怕不是更新了个寂寞嘛?

我的理解是,4.8 这次更新的重心不在「写更美观的代码」,而在 Agent 可靠性和长时间无人监督的任务执行上。动态工作流、代码自查能力这些特性,在大型项目和企业级场景里可能更有价值,但在「一把梭做个全栈项目」这种场景下,4.7 反而表现更稳。

所以大家不要盲目追新,还是按自己的实际需求来选模型。

时间有限,就先给大家分享这次测试。结合我自己的使用体感,我的建议是:

  • 日常开发、一把梭小项目:选择 Opus 4.7 或 4.8 都行,4.7 的 UI 更好看,4.8 更省心(自查能力强)
  • 终端操作、命令行自动化:选择 GPT-5.5,之前我做 Codex 教程的时候拿 GPT-5.5 用作办公 AI 还是很香的
  • 大规模代码迁移重构:选择 Opus 4.8,它的动态工作流是杀手锏

而且我发现一个趋势,Opus 4.8 越来越像 GPT-5.5 了,都在朝着「用最务实的方式把活干完」的方向走,对 UI 美感之类的「额外加分项」反而不太上心。

不过我是真的不希望 Claude 继续朝着这个方向发展下去,大模型之间多搞些差异化,往不同的方向去强化各自的优势,给用户更多选择,我觉得才更好。

OK 就分享到这里,本文会收录到我免费开源的 《AI 编程零基础入门教程》,上千张图、几十万字,带你从 0 开始快速学会 AI 编程,做出自己的产品、跑通变现全流程,一次拿捏。

开源指路:https://github.com/liyupi/ai-guide



我是鱼皮,持续分享 AI 编程干货。觉得有用的话记得点赞收藏和关注~

也欢迎在评论区聊聊:你现在主力用哪个 AI 编程模型?有没有试过 Opus 4.8?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈添祥方正式辟谣!否认挂科延毕,实情浮出水面

陈添祥方正式辟谣!否认挂科延毕,实情浮出水面

陈意小可爱
2026-06-01 08:45:28
一团糟!歌手2026第二期崩了,张碧晨急的失误,尤长靖啥的是啥

一团糟!歌手2026第二期崩了,张碧晨急的失误,尤长靖啥的是啥

糊咖娱乐
2026-06-01 11:47:48
“大傻”去世15年后,儿子入狱孙子身亡,王晶曝他旧事:是狠角色

“大傻”去世15年后,儿子入狱孙子身亡,王晶曝他旧事:是狠角色

LULU生活家
2026-05-31 18:00:37
印尼左右为难,想把中国人赶出镍矿,发现赶走产业就崩了

印尼左右为难,想把中国人赶出镍矿,发现赶走产业就崩了

混沌录
2026-06-01 03:03:06
胡杏儿带三个儿子拍摄,帅气程度堪比“炸街”,母子四人太有型了

胡杏儿带三个儿子拍摄,帅气程度堪比“炸街”,母子四人太有型了

情感大头说说
2026-05-31 21:22:06
瞒不住了?比亚迪发布4nm芯片被全网扒,大家其实都弄错了重点!

瞒不住了?比亚迪发布4nm芯片被全网扒,大家其实都弄错了重点!

李将平老师
2026-05-29 20:24:30
53岁任泉近况曝光!被曝与黄绮雯隐婚17年,身价几十亿成人生赢家

53岁任泉近况曝光!被曝与黄绮雯隐婚17年,身价几十亿成人生赢家

观史搜寻着
2026-06-01 10:57:12
加一箱油半箱税!电车白嫖路网时代落幕,汽车行业大洗牌已然开启

加一箱油半箱税!电车白嫖路网时代落幕,汽车行业大洗牌已然开启

陌上桃花开的
2026-05-31 18:09:56
国王一口气试训了6名球员,但他们都很有可能会成为落选秀?

国王一口气试训了6名球员,但他们都很有可能会成为落选秀?

稻谷与小麦
2026-06-01 13:17:00
福建本地人谈“毒杨梅”:果农们没必要委屈,有本事对妈祖发誓!

福建本地人谈“毒杨梅”:果农们没必要委屈,有本事对妈祖发誓!

小谈食刻美食
2026-05-31 07:41:47
歌手2026网传剧本应验了!庾澄庆魏如萱接连被做掉,4人内定月决

歌手2026网传剧本应验了!庾澄庆魏如萱接连被做掉,4人内定月决

一盅情怀
2026-05-31 14:49:56
一夫一妻制将消亡?新型婚恋模式曝光,无数家庭沉默了

一夫一妻制将消亡?新型婚恋模式曝光,无数家庭沉默了

生活魔术专家
2026-06-01 12:08:13
安徽恶婆婆后续:儿媳后悔,找邻居说和,娘家全体出动求原谅晚了

安徽恶婆婆后续:儿媳后悔,找邻居说和,娘家全体出动求原谅晚了

米果说识
2026-05-31 16:45:27
中国没给面子,普京回国后认清现实,沉默一周后,终究还是妥协了

中国没给面子,普京回国后认清现实,沉默一周后,终究还是妥协了

斜烟风起雨未
2026-05-30 22:36:40
志愿军唯一获一等功女兵,晚年没钱治病,儿女求助直接惊动军委

志愿军唯一获一等功女兵,晚年没钱治病,儿女求助直接惊动军委

云霄纪史观
2026-05-31 21:10:03
美国对乌克兰态度突变积极

美国对乌克兰态度突变积极

名人苟或
2026-05-31 16:10:27
2300亿深圳存储芯片龙头,冲刺港交所!净利润暴涨2644%

2300亿深圳存储芯片龙头,冲刺港交所!净利润暴涨2644%

芯东西
2026-06-01 09:57:40
抓住岳母把柄,女婿答应为其保密,随后提出一个要求让岳母崩溃

抓住岳母把柄,女婿答应为其保密,随后提出一个要求让岳母崩溃

云端书馆
2026-06-01 10:23:03
一篇《狗日的腾讯》引爆全网!3Q大战,彻底改写中国互联网

一篇《狗日的腾讯》引爆全网!3Q大战,彻底改写中国互联网

流苏晚晴
2026-05-26 18:05:28
比亚迪欧洲爆单 订车等4月以上!“济南”号滚装船满载7273台车远航欧洲

比亚迪欧洲爆单 订车等4月以上!“济南”号滚装船满载7273台车远航欧洲

快科技
2026-06-01 10:18:08
2026-06-01 13:56:49
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
847文章数 8599关注度
往期回顾 全部

科技要闻

关停三年后,天涯社区今起开放访问

头条要闻

普京将乌无人机残骸交于美方 被指发表"极其危险言论"

头条要闻

普京将乌无人机残骸交于美方 被指发表"极其危险言论"

体育要闻

哭过之后,文班亚马想给波波维奇打电话

娱乐要闻

张凌赫活动商场玻璃被挤爆5人受伤

财经要闻

网红驱蚊产品,标注化妆品竟含农药成分

汽车要闻

上市三周交付3603台!华境S跻身旗舰大六座第一梯队

态度原创

游戏
旅游
教育
健康
房产

“并非bug”!《GTA6》悬浮路灯竟是佛罗里达真实实景

旅游要闻

逛故宫的游客注意了,坤宁宫明起检修请绕行

教育要闻

广东财经大学:值得填报吗?热门专业就业现状及报考分析#搜索千校视频计划

尝试干细胞疗法如何避免踩坑?

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

无障碍浏览 进入关怀版