大家好,我是程序员鱼皮。
就在刚刚,Anthropic 发布了新一代模型 Claude Fable 5,同时还放出了一个面向专业安全人员的「解限版」叫 Claude Mythos 5。
![]()
官方把它称为「神话级」模型,能力凌驾于之前的 Opus 系列之上。据说 Stripe 公司在自己 5000 万行的 Ruby 代码库里测了一圈,一天就搞定了团队原本要两个月才能完成的迁移工作。
这篇文章我会先带大家看看 Fable 5 到底更新了什么,然后上两轮硬核实测,分别让 Fable 5、Opus 4.8 和 GPT-5.5 同场竞技,看看新模型的 AI 编程能力到底怎么样。
友情提示,这次的测试成本有点高,希望大家心疼一下我的钱包,把这篇文章看到最后哦。
Claude Fable 5 更新了什么? 1、一个模型,两个名字
这次 Anthropic 同时放出了 Fable 5 和 Mythos 5,但它俩其实是 同一个底层模型,能力完全一样。区别只在「安全护栏」的松紧程度上。
Fable 5 面向所有人,今天就能用。但加了一层安全分类器,遇到涉及网络安全、生物化学或模型蒸馏(防止别人偷学能力去训练竞品)的请求时,会降级到 Opus 4.8 来回答你,并且给你一条提示。
Mythos 5 是把护栏拆掉的「完全体」,只发给 Anthropic 审核过的网络安全机构和少数生物研究人员,普通人接触不到。
关于 Fable 5 的降级机制,官方说平均不到 5% 的会话会触发。但我测试使用 Fable 5 来写文章的能力时,就触发了安全过滤,直接被切换到了 Opus 4.8。
不是哥们,写个文章哪里不安全了?!
![]()
肯定有朋友好奇,为什么这次更新不延续 Opus 系列,来个 Opus 4.9,而是直接跳到第 5 代?
因为它根本不是 Opus 这个级别的模型了,而是 Anthropic 内部一个更高的等级,叫 Mythos 级,能力直接碾压 Opus。
有趣的是,Fable(寓言)这个词本身就源自拉丁语 fabula,和希腊语的 Mythos(神话)是近亲。
简单来说,就是同一把刀,一把开了刃给专业人士,一把套了刀鞘发给大众。
2、定价全球最贵
Claude Fable 5 和 Mythos 5 的定价是每百万输入 token 10 美元、输出 50 美元。
听起来你可能没什么感觉,但是对比一下目前主流模型的价格,你就知道有多离谱了:
模型
输入 / 输出(每百万 token)
总成本
DeepSeek V4
0.8
$1.2
Claude Opus 4.8
25
$30
GPT-5.5
30
$35
Claude Fable 5 50 $60
Fable 5 的总成本直接是 Opus 4.8 的两倍、DeepSeek V4 的 50 倍,稳坐目前主流模型里最贵的位置。官方还特意强调了,这已经比之前的 Mythos Preview 便宜了一半多。
好家伙,便宜一半还是最贵的,以后的模型怕是普通人真的用不起了……
注意,官方说从今天到 6 月 22 号,Pro、Max、Team 这些套餐可以免费使用 Fable 5。但 6 月 23 号之后就要单独花「用量积分」了,等产能上来再恢复。所以想白嫖体验的,一定要利用好这两周的窗口期。
3、跑分炸裂
每次新模型出来都得看看跑分。官方说 Fable 5 几乎在所有测试过的基准上都是 SOTA,尤其在编程、知识工作、视觉、科学研究这几个方向。而且 任务越长、越复杂,它领先得越多。
说实话我已经有点麻了,因为各家基本都说自己是 SOTA 最佳水平……
但这次 Fable 5 的成绩,确实配得上「炸裂」两个字。
![]()
挑几个亮眼的数据说说:
SWE-bench Pro(Agent 编程能力)是 80.3%,远超 GPT-5.5 的 58.6% 和 Opus 4.8 的 69.2%
FrontierCode(高质量编码)是 29.3%,Opus 4.8 只有 13.4%,GPT-5.5 是 5.7%
视觉能力(GDPpdf 文档推理)是 29.8%,GPT-5.5 是 24.9%,Opus 4.8 是 22.5%。官方让 Fable 5 去玩宝可梦火红版,纯视觉就通关了。
好家伙,这是断层式的提升啊!
不过跑分是一方面,好不好用还是得拿到真实项目里检验才知道。所以老规矩,我带大家动手测一测,拿 Fable 5、Opus 4.8 和 GPT-5.5 同场竞技。
正好 Cursor 第一时间就接入了 Fable 5,每次出新模型都能直接测试,方便得很。
![]()
我之前写过一套免费开源的 ,里面有 Cursor 的保姆级实战教程,感兴趣的同学可以看看。
![]()
接下来我准备了两轮实测。第一轮是让 3 个模型一把梭同一个全栈项目;第二轮更硬核,让它们重构 Claude Code 泄露的 50 多万行源码。
好了,我的钱包准备开始烧了。
实战测评一、全栈项目一把梭
第一个测评,我选了一个有代表性的全栈项目来测模型的综合编码能力。
项目叫「TaskFlow 任务管理看板」,类似简化版飞书看板,包含 7 个功能需求:用户注册登录、三列看板拖拽、任务增删改查、数据图表面板、搜索筛选、暗色 / 亮色主题切换、响应式设计。技术栈是 React + TypeScript 前端 + Python FastAPI 后端 + SQLite 数据库。
选这个项目的原因是它前后端都有、交互复杂度适中,能同时考察模型的 UI 审美、工程能力和功能完整度。
这次参赛的选手是 Claude Fable 5、Claude Opus 4.8 和 GPT-5.5。3 个模型使用完全相同的提示词,全部开到 High thinking 档位,全程零人工干预。
一段时间后,3 个模型都顺利完成了任务,前后端都能正常运行起来。
先来看看它们各自做出来的效果。
Opus 4.8 的登录页是经典的居中卡片式,可以切换注册和登录 Tab,还贴心地把演示账号密码标在了页面底部:
![]()
Opus 4.8 登录页
GPT-5.5 的风格就完全不同了,左边一大块全是文案宣传,右边才是登录表单。符合我对 GPT 的刻板印象,喜欢在页面上堆信息:
![]()
GPT-5.5 登录页
Fable 5 的登录页简洁干净,和 Opus 4.8 风格一致:
![]()
Fable 5 登录页
再来看看任务看板页面。
Opus 4.8 的看板有点素,排版整齐,但没什么背景色:
![]()
Opus 4.8 看板页
GPT-5.5 直接把看板和数据面板合到了一个页面,用最少的页面完成最多的事。但是任务列的标题直接用了英文,细节上差了点儿意思:
![]()
GPT-5.5 看板+数据面板
Fable 5 的看板页面中,状态区分得很清晰,颜色比较丰富生动,任务卡片上的信息排布也更合理:
![]()
Fable 5 看板页
再看看数据面板,Fable 5 做了环形图、柱状图、折线图,任务卡片通过圆弧元素增加了点缀感:
![]()
Fable 5 数据面板
Opus 4.8 的数据面板则比较朴素:
![]()
Opus 4.8 数据面板
深色模式下,Fable 5 的图表配色很协调,整体效果是三个里最好的:
![]()
Fable 5 深色模式
Opus 4.8 的深色模式则中规中矩,没什么硬伤,但也没什么惊喜:
![]()
Opus 4.8 深色模式
GPT-5.5 的深色模式就差点儿意思了,一大片灰色:
![]()
GPT-5.5 深色模式
看完了 UI 效果,再来说说真正拉开差距的地方。
Fable 5 是三个里面唯一做到「零修改跑通」的。虽然三个模型最终都能把项目跑起来,但 Opus 4.8 和 GPT-5.5 或多或少需要修几个小 Bug、补个缺失的文件、或者调一下依赖版本。而 Fable 5 代码本身能一次通过 TypeScript 编译、后端一次启动成功、全部 API 测试一次通过,做到真正的开箱即用。
而且它的验证方式是最硬核的,不仅用 curl 测了 API,还通过 CDP(Chrome DevTools Protocol)合成了真实的鼠标拖拽事件,在浏览器里实测了看板拖拽的持久化效果,验证深度远超其他模型。
![]()
综合来看,Opus 4.8 架构分层最规范、UI 设计感也不错,但有几个小 Bug 需要修复才能跑起来。GPT-5.5 则是老样子,做得快但做得糙,界面偏简陋。Fable 5 的优势主要体现在工程可靠性上,零缺陷、hooks 封装干净、验证深度到位。这种「交付确定性」对效率的影响其实非常大,少一次来回调试可能就省了半小时。
实战测评二、重构 Claude Code 源码
第二轮测评才是这次的重头戏。
官方反复强调,任务越长、越复杂,Fable 5 领先得越多。短平快的 demo 根本测不出代际差距,要测就得上真正的长程任务。
对了,前段时间 Claude Code 不是把自己 50 多万行的源码给泄露了吗?
这份代码是真正的工业级 Agent 架构,拿来做测试再合适不过了。
说干就干。具体做法是把泄露的 Claude Code 源码包提供给模型,让它自主分析里面的架构设计,然后从零重构一个能在终端实际运行的命令行 AI 编程助手「Yupi Code」。全程不需要人工干预,看它能不能一次搞定。
提示词如下:
你是一个资深的 TypeScript 全栈工程师,精通 AI Agent 架构和命令行工具开发。
claude-code-origin 目录下是 Claude Code 泄露的部分源码,包含完整的实现逻辑,但无法运行。
你要先阅读并理解这份源码的核心设计,在此基础上重构一个命令行 AI 编程助手「Yupi Code」,放到新目录下。要求必须能实际运行,各项功能正常可用。
把三个模型生成的结果分别保存到不同的目录,来看看它们各自的表现。
Opus 4.8 差在最后一公里
Opus 4.8 通过模拟 Mock Server 跑通了测试流程,自主验证的层次最多。
![]()
但实际运行时需要 Anthropic 的 API Key,没有 Key 就没法使用:
![]()
不好意思,我没有 Key。所以只能让 AI 帮我复用本地 Claude Code 的配置,再修复一遍。
修复完成后我又试了试,给我逗乐了。
且不说界面风格跟原装 Claude Code 有明显区别(注意看那个输入框),AI 输出的内容都不能正确显示,拉了:
![]()
GPT-5.5 偷懒大师
GPT-5.5 完成任务的速度是 3 个模型里面最快的。
但问题来了,它生成完之后同样需要 Anthropic 的 API Key 才能运行。哼,就这小子最会偷懒了,输出信息都比 Claude 精简很多:
![]()
没有 Key 运行不了,所以我让 AI 复用本地 Claude Code 的配置再试试。
虽然能够正常对话,但是这个界面也太简陋了吧,不愧是偷懒大师:
![]()
让它读取个本地文件,结果直接报错了,GG:
![]()
Fable 5 开箱即用
Fable 5 直接读取到了我本地的 Claude 配置,使用了我之前配置好的 DeepSeek 国产模型,不需要 Anthropic 的 API Key。
![]()
试了一下,体验跟 Claude Code 几乎一模一样!能够普通对话、Agent 模式和工具调用,功能全部正常,一次交付就能用,不需要任何二次修复。
![]()
哈哈,咱也是开发过 Claude Code 的人了,简历上又多了浓墨重彩的一笔~
开发过程对比
看完了最终效果,我又新开了一个对话,让 AI 帮我分析几个模型各自完成任务的对话记录,看看开发过程到底有什么不同。
最关键的发现是,Claude Fable 5 是唯一做了 PTY 终端交互式测试的模型。
![]()
Opus 4.8 虽然写了最多的测试,但所有验证都在非交互环境下进行,从来没有在真实终端里验证过交互效果。结果到用户手里,输出显示就出了问题。
Fable 5 虽然没有写 mock 测试套件,但它做了 Opus 没做的事情,用 PTY 在真实终端里反复调试交互(用 script 命令模拟 PTY,验证 /help、/cost、权限对话框、写文件全流程)。它花了大量轮次调通了 PTY 下回车键 \r → \n 的问题,修复了 API 协议 Bug,这些投入最终换来了最好的用户体验。
这给了我一个很重要的启发。「AI 自己测试通过」和「用户实际能用」之间,隔着一个巨大的鸿沟。在 CLI 这种场景下,在真实环境中调通交互,远比在隔离环境中跑测试更能保障最终质量。
费用对比
大家肯定很关心,这次测试到底烧了我多少米?
打开 Cursor 后台一看,我的心在滴血啊!
![]()
三个模型的费用和 token 消耗明细如下:
模型
总费用
总 Token
GPT-5.5
$4.61
530.6 万
Opus 4.8
$13.38
1685.5 万
Fable 5 $38.66 2146.4 万
Fable 5 的费用竟然是 Opus 的 3 倍、GPT-5.5 的 8 倍?!光这一个任务就花了我 200 多块……
贵的原因主要是 thinking token 消耗巨大,而且大量轮次花在了 TUI 的交互调试上。不过反过来想,正是因为它愿意花这些轮次去调试真实环境里的交互效果,最终才成了唯一能交付可用产品的那个。
综合数据对比
两轮测评做完了,我让 AI 帮我根据三个模型完成任务的全过程对话记录和代码产出,做了综合的可视化分析。
![]()
先看几个核心能力指标的柱状图。可以看到 Fable 5 在验证深度和实测可用性上遥遥领先,Opus 4.8 在工程质量上略胜一筹,GPT-5.5 则全面垫底:
![]()
通过功能覆盖矩阵,可以更直观地看到差距。Fable 5 做了完整的 Ink TUI、上下文压缩、自动复用本地配置这些其他模型都没做的功能,而 GPT-5.5 连最基本的 Read 工具都报错,功能严重缺失:
![]()
从架构理解、工程执行、验证与可用性、开箱即用和性价比这五个维度来打分。Opus 4.8 在架构理解上最强,但 Fable 5 在验证和开箱即用两个维度上直接拉满,形成了明显的差异化优势:
![]()
最终综合评分,Claude Fable 5 以 8.3 分排名第一。它不是每项都最强,但光是「唯一能交付可用产品」这一条就压过了其他模型。毕竟我们用 AI 编程,最终目的就是想省心地直接拿到能用的成果,而不是拿到一堆还需要自己修的半成品。
![]()
回头看这三个模型的策略,其实很像一个经典的不可能三角。
速度、成本、质量,不可能三角。
GPT-5.5 选了速度和成本,结果不能用;Opus 4.8 选了代码质量和成本,但验证有盲区;Fable 5 选了质量和用户体验,代价就是贵。
当然,这只是我的一次测试,不代表普遍规律。但可见一斑,Fable 5 在「长程任务最终交付可用产品」这件事上,确实比上一代有质的飞跃。
结合这次测评,我可以给到大家一些模型选择的建议。
如果你要做大规模重构、迁移这种又长又复杂的项目,选择 Fable 5 最好,贵有贵的道理。但日常一把梭中小项目,Opus 4.8 的代码质量高、架构完整,性价比明显更高。GPT-5.5 虽然这次表现拉了,但它在终端自动化和命令行相关任务上的跑分还是领先的,适合追求速度的自动化任务。预算比较紧的话,用国产模型也完全可以应付大多数场景。
总之,别盲目追新,按你的真实需求来选。最贵的不一定最适合你。
最后哔哔
OK,测试就到这里。我觉得 Fable 5 这次的表现符合我对新一代模型的预期,AI 编程的能力在快速逼近「能独立交付完整项目」的水平了,但这个价格,大多数人是真的用不起。到底值不值,得看你的时间和钱哪个更贵。
但其实这次测评给我印象最深的,不是 Fable 5 本身的实力,而是它背后的发布方式。
同一个模型,套上不同松紧的护栏,然后拆成通用版和解限版发给不同的人。遇到敏感问题时,不直接拒绝,而是降级到上一代模型来回答你。虽然之前也有模型限流时降级的例子,但像这样从产品设计层面就把「分级释放」做成核心机制,Anthropic 算是第一个这么干的。
我的判断是,随着模型能力越来越强,这种模式很可能会被越来越多的厂商抄作业。以后你用的那个「最新最强模型」,用着用着说不定就换成别的模型了。
作为用户,至少我们得知道这件事。
我是鱼皮,持续分享 AI 编程干货。觉得有用的话记得点赞收藏和关注~
欢迎在评论区聊聊:你愿意为 Claude Fable 5 模型买单吗?你觉得它是夯还是拉?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.