Claude Fable 5初体验：最强模型来了，别问它能不能，先问你配不配|调用|上下文|编程|工作流|代码

Claude Fable 5初体验：最强模型来了，别问它能不能，先问你配不配

2026-06-10 18:55:47　来源: 网易智能

北京举报

分享至

出品 | 网易智能

作者 | 小爪

编辑 | 王凤枝

Claude Fable 5上线后，很多人看跑分，很多人在算账。

这很少见。

这个模型当然很强。Anthropic说它是首个面向公众开放的Mythos级别模型，也是现在能用到的最强Claude。但第一波体验帖里，冒得最快的词不是强。

是贵。

有人晒账单：一个网页版《模拟人生》类项目，花了100美元。有人在Reddit上提醒，重度任务里，一分钟会烧掉约2% 的额度。

于是Fable 5把一个问题甩给了用户：你手里这件事，配不配让它出手。

它确实很强，但不是随手用的那种强

Fable 5的能力口碑并不差。

相反，最早一批体验者对它的评价很高。Every首席执行官丹・希珀（Dan Shipper）在X上发了一条传播很广的长帖，说他们内部测试了一周左右，覆盖编程、写作、营销、编辑等任务。同一轮测试也被做成了一支视频。他给出的判断很直接：这是世界上最好的编程模型。

他的帖子里有很多夸张但有画面的体验：它能处理生产故障积压，能做3D项目，能分析客户反馈和网站数据，还能把问题拆成可测试的解决方案。换成过去，这些内容足够支撑一篇标准的新模型发布稿。

更刺眼的是后半段。

希珀说，Fable 5 "很慢，很吃token"。它适合最重的工作，不适合协作写作这类需要快速来回的任务。他还用了一个很狠的比喻：拿它做日常知识工作，像用火箭发射器拍蚂蚁。

一个模型强到能处理生产故障积压，也慢到不适合陪你一句一句改文章。这个反差，比跑分更接近真实使用。

一个模型能完成某个任务，并不等于它应该被用在这个任务上。 过去用户问模型，多半先问"它能不能答好"。Fable 5之后，更多人开始问另一个问题：这件事值得用这么重的模型吗？

价格表只是第一层，真正贵在任务会膨胀

Fable 5的贵不是猜出来的。

这里要先区分两种"贵"。

对API开发者来说，贵体现在单价。Anthropic官方价格表写得很清楚：每百万输入token 10美元，每百万输出token 50美元。作为对照，Claude Opus 4.8是5美元输入、25美元输出。Fable 5的基础API单价，大约是上一代顶级Opus的两倍。

对Claude Pro / Max这类订阅用户来说，贵不一定是马上多付一笔钱。Fable 5在6月22日之前被包含在付费计划中，之后会转向基于容量和使用额度的访问。用户体感里的"贵"，更多来自额度烧得快：明明还在订阅里，但一次重型任务就能把可用额度迅速吃掉。

如果只是两倍，用户未必会这么敏感。

问题在于，Fable 5这种模型的使用方式，天然会把一次任务拉长。

它更适合长上下文、复杂代码、多步骤推理、工具调用和自我检查。一个看似简单的"帮我完成这个功能"，在自主代理式工作流里可能不是一次回答，而是一串计划、读文件、改代码、跑测试、修故障、再验证。价格表里的token单价是静态的，真实任务里的token消耗是动态的。

Reddit的ClaudeAI社区里有用户发帖，说自己在Max 20x计划里试Fable 5，重一点的任务里，用量大约每分钟掉2%。这个说法不能直接换算成所有订阅用户的成本，同帖也有人说自己没有遇到这么夸张的消耗。但它足够说明，早期重度用户已经开始把Fable 5当成一个会明显消耗额度的重型工具。

这就是用户开始算账的原因。

他们不是只在看单价，而是在看一次完整任务的总成本。

类似的说法也在社交平台上冒出来。有人调侃Fable 5很擅长两件事：写代码和掏空银行账户。还有人晒出一个一次生成网页项目的成本，说用Fable 5做了一个网页版《模拟人生》类项目，花了100美元。

这个问题在对比测试里更明显。有人拿Fable 5和Opus 4.8做同题对比：Windows 11截图复刻里，他反而觉得Opus 4.8稍微更好；到了3D版Flappy Bird和Remotion飞机动画，Fable 5才明显拉开差距。最后他的结论不是"Fable无脑更好"，而是更接近一句产品建议：它很强，但不是每个界面或编程任务都应该上Fable，Sonnet或Opus在一些场景里更经济。

Anthropic并非没有提供缓解手段。定价页面里，提示词缓存和批处理API都能把部分调用价格压下来，对高频调用的开发者有实际价值。只是这些更像工程侧的优化，普通用户真正在意的，还是一次完整任务跑完之后，额度还剩多少。以前新模型上线，用户常问："它比上一代聪明多少？"

这次后面多了半句："这一点聪明，我买不买得起？"

慢，不只是等待几秒

这里要把"慢"说准确。

Fable 5并不是所有场景都被吐槽响应迟钝。第一波公开反馈里，更集中的抱怨是贵、用量燃烧快、吃token。"慢"更多来自重型任务体验：它会想很久，跑很久，占用很长上下文，适合把任务丢给它之后等结果，而不是一问一答地来回磨。

慢具体慢在哪里，代码审查和长任务测试里看得最清楚。代码审查工具CodeRabbit的一段讨论拿Fable 5做测试，结论是它更彻底、更慢，也更贵。在DeepSuite长任务里，Fable有任务跑到90分钟以上超时；作为对照，Codex通常12到17分钟，Opus约24到34分钟。Fable跑通的任务平均也要43分钟左右，并消耗约3.5万token。

这不是聊天框里多等三秒的问题。

用户等的不是一句回复，而是一段后台作业。

不同任务需要的速度不一样。写一句话、改一个标题、查一个概念，用户需要的是快、便宜、顺手，可以反复来回。Fable 5在这些任务上可能不划算。它会调用更多上下文，展开更长推理，消耗更多额度，最后得到的结果未必比一个更轻的模型更适合这个场景。

复杂代码、长文档分析、多代理编排、需要它自我验证的任务，才更接近它的舒适区。

Fable 5的体验反馈，也在迫使用户重新认识模型分工：不同任务应该有不同档位。

那支Every视频把Fable 5比成"曲速引擎"：跨星系很快，但不适合在城里转弯。希珀在视频里展示了一个《巴别图书馆》浏览器3D游戏，用一个提示词让Fable 5自己读故事、规划、执行、检查，跑了三四个小时才完成。

这个例子比"模型更聪明"更直观。你给它一个目的地，然后离开座位。几个小时后回来，看它有没有真的抵达。

Anthropic其实也在往这个方向推。官方材料强调Fable 5能在最高推理强度下反思并验证自己的工作，更适合高度自主的操作。换成产品语言，它既回答问题，也在承担更长的任务链。

任务链越长，等待和成本就越成为体验的一部分。

最强模型正在变成"高功率档"

Fable 5刷新能力上限，当然重要。

但这次更有意思的是，用户开始把模型当成资源来调度。

过去一年，AI产品给用户形成了一个很强的心理预期：订阅之后，随便问，随便试，最强模型就在聊天框里。哪怕有限额，很多人仍然把它当成一个近似无限的日常工具。

Fable 5把这个预期往回拉了一步。

它不是不能随手用，而是随手用的代价变得更明显。用户开始意识到，最强模型应该留给高价值任务。写代码架构、修复杂故障、读超长文档、做多步骤分析、跑一整套代理工作流，这些任务可能值得。随手改几句话、列一个提纲、把一个网页总结成三点，未必值得。

这不是理论判断。同一支视频里也提到，Fable 5在写作和营销文案上并没有明显压过Opus 4.8，句子还会显得更密、更文学化。对需要快速来回的日常写作，希珀仍然更偏向用更快的日常主力模型。

Fable的强，主要落在少数重任务上：它把那里的天花板推得更高。

这会逼着AI产品改默认体验。

以后一个成熟的AI工作台，可能不该只让用户手动选择一堆模型名。它还要判断：这次是不是重任务，大概要跑多久，会不会明显烧额度，中途需不需要让用户确认。

这些开关听起来麻烦，但它们会越来越像产品体验本身。

好的产品未必总把最贵的能力摆在前台。更多时候，它应该替你判断：这次用快模型就够了，还是值得开一次Fable。

Fable 5的第一波反馈，已经把这个问题推到用户面前：你花出去的钱，买到的是一段计算时间、上下文、推理深度和失败重试。

能力也开始分层

还有一个更敏感的分层。

Fable 5是公众可以用的版本；Mythos 5与它同属Mythos级，但访问范围更窄，初期主要通过Project Glasswing和受信任访问计划提供给部分合作方。

Reddit上有用户把这件事解读为：前沿AI正在变成一种带门槛的能力。 这个说法有社区情绪，不能直接当结论。但它提醒了一件事：最强AI能力已经不只是"有没有发布"的问题，还包括谁能用、在哪些场景能用、遇到高风险请求会不会被降级、什么组织能拿到限制更少的版本。

这和价格问题连在一起。

一个用户有没有月付会员，只是第一层门槛。一个团队有没有预算、有没有用量管理、有没有任务路由、有没有人工验收和回滚机制，才决定它能不能长期吃到最强模型带来的收益。

Fable 5的体验反馈因此有点矛盾。

大家承认它强，也承认它贵；愿意为重任务付钱，又不愿意把每一次轻任务都交给它；期待它自主完成更多工作，又担心一条请求在后台扇出成一大串token消耗。

这就是第一批用户真实遇到的Fable 5：能力很诱人，代价也终于藏不住了。

AI产品不再只是"更聪明"

过去看模型更新，最容易写成一句话：更聪明了。

Fable 5当然更聪明。但它也把几个很现实的问题摆到了桌面上：谁决定该用它，什么时候值得等，什么任务值得烧token，一次代理式请求在后台膨胀时，谁来踩刹车。

用户看到的是一个输入框，公司看到的可能是一串子任务、工具调用、上下文传递、检查和重试。能力越强，越容易让人把更大的任务交给它；任务越大，成本和等待就越不能被藏在界面后面。

这会让AI产品从"聊天框竞争"进入"调度系统竞争"。

真正难的，可能会变成很具体的产品细节：什么时候自动切到轻模型，什么时候提醒用户这是一项重任务，什么时候先问一句"要不要继续烧额度"，什么时候必须把人拉回来验收。模型越强，这些小开关越重要。

Fable 5的第一波体验声音，已经给了一个清楚信号：用户不是不愿意为强模型付费，他们不愿意在不知道代价的情况下，让每个任务都变成重型任务。

Fable 5的产品意义，不只是"Anthropic又发布了一个强模型"。

更耐看的变化在用户这边：最强Claude上线后，第一批人终于开始认真问，什么事情配得上最强模型。

它让人看到上限。

也让人开始看账单。

本文来源：网易智能责任编辑：王凤枝_NT2541

汽车要闻

手机 / 数码

房产 / 家居

Claude Fable 5初体验：最强模型来了，别问它能不能，先问你配不配

长鑫科技上市首日收涨465%，市值3.28万亿

王虹报告现场座无虚席 导师满脸笑意扒窗聆听

王虹报告现场座无虚席 导师满脸笑意扒窗聆听

说过不会再回NBA的男人，又回来了

具俊晔零成本拿下大S房产

破产德企如何托起长鑫科技的逆袭之路

2026宝马摩托车文化节举行 三款新车上市

态度原创

曝《生化9》DLC要2027年底上线 据本体发售近2年

下一代iPad mini有望首次支持防水功能 预计10月发布

比勃肯鞋、穆勒鞋还火？今夏时髦精都在穿它，高级又松弛！

当育儿变成“循证”，育儿信任便悄悄流向了小红书

美军中东最高指挥官建议停止轰炸霍尔木兹

王虹报告现场座无虚席导师满脸笑意扒窗聆听

王虹报告现场座无虚席导师满脸笑意扒窗聆听

2026宝马摩托车文化节举行三款新车上市

曝《生化9》DLC要2027年底上线据本体发售近2年

下一代iPad mini有望首次支持防水功能预计10月发布