网易首页 > 网易号 > 正文 申请入驻

Claude深夜炸场!放出史上最强“危险级”模型Fable 5,价格逆天

0
分享至

北京时间6月10日凌晨,Anthropic 在没有任何预热的情况下,放出了旗下最强大模型 Claude Fable 5/Mythos 5,前者面向公众开放,后者继续留在Project Glasswing这样的受控项目里。

Fable翻译为“寓言”,如果只看名字,Fable 5像是Claude产品线里又一个新成员。但按照Anthropic自己的说法,Fable 5属于Mythos-class模型,是他们终于敢拿出来给普通开发者和企业使用的公开版Mythos,而Mythos翻译为“神话”。



(图源:Anthropic)

为什么说「终于敢拿出来」?Mythos这个名字,在过去两个月里几乎等同于「危险」。今年4月,Anthropic发布Project Glasswing,把Claude Mythos Preview交给AWS、Apple、Cisco、CrowdStrike、Google、微软、NVIDIA、Linux Foundation、Palo Alto Networks等少数安全伙伴,用于寻找和修补关键软件漏洞。那时Anthropic的态度很明确,Mythos Preview不做广泛开放,原因很简单,它的网络安全能力已经强到可能被滥用。



(图源:Anthropic)

官方直言,Mythos发现过大量高危漏洞,甚至包括主要操作系统、浏览器和关键软件里长期没人发现的问题。放在防守者手里,它是安全工具;放在攻击者手里,它可能变成下一代自动化漏洞挖掘机。于是,Mythos被关进了Project Glasswing。

直至刚刚,Anthropic 才终于把这个模型放了出来。Anthropic给Fable 5加上安全分类器,高风险请求可能拒答,也可能回退到Opus 4.8。简单来说,他们给一个曾经不能直接放出来的模型套上护栏,然后把它推向市场。雷科技AGI(ID:leikejiagi)熬夜整理了关于这个模型的一些资料,希望对你有用。

A社再造模型「神话」,Fable 5成最强没有之一

Fable 5的跑分看起来非常不讲武德。SWE-Bench Pro上,它拿到80.3%,高于Mythos Preview的77.8%、Opus 4.8的69.2%、GPT 5.5的58.6%、Gemini 3.1 Pro的54.2%。如果只看这一项,它已经是第一梯队里最显眼的那个。

真正离谱的地方在FrontierCode Diamond,这个评测更接近真实软件工程,它看的是模型能不能写出维护者愿意接受的代码。Fable 5拿到29.3%,Opus 4.8只有13.4%,GPT 5.5只有5.7%。这已经不是多赢几个百分点的问题,上一代Claude和主要对手都被拉开了距离。

过去很多AI编程模型会写代码,但工程质量常常不稳定,有些代码能跑,却很难维护;有些代码能过测试,放进真实项目还是会出问题。FrontierCode的残酷就在这里,它关心模型有没有工程品味,能不能在复杂代码库里做长期任务。Fable 5在这里大幅领先Opus 4.8,说明Anthropic这次真正升级的是agent编码的灵魂。



(图源:Anthropic)

在Terminal-Bench 2.1 上,Fable 5是88.0%,Opus 4.8是82.7%,GPT 5.5 Codex CLI是83.4%,Gemini CLI是70.7%。这意味着在终端环境里执行任务、读报错、改代码、继续推进,Fable 5已经压过了OpenAI的Codex CLI组合。

跑分不是那么重要,Fable 5真正吓人之处在于,它已经像一个能在工程现场干活的模型。你把任务扔给它,它能读项目、拆任务、调工具、修错误、继续跑。Anthropic发布稿里提到,Stripe用Fable 5在5000万行Ruby代码库里做迁移,把原本一个团队两个月的工作压缩到一天。这种案例即便带着营销成分,也挡不住 AI编码正在从辅助写函数进入接管工程流程。

我们拿 DeepSeek V4-Pro Max 做个不太恰当的对照,其在GPQA Diamond上有90.1%,LiveCodeBench有93.5%,SWE Verified有80.6%。这已经是开源阵营里非常能打的成绩,Qwen3.7-Max在GPQA、SWE Verified、Terminal-Bench等方向也打出了存在感。对于熟悉DeepSeek的读者来说,这意味着国产和开源模型并不弱,很多传统强基准已经接近最强闭源模型。



(图源:雷科技制图 )

但到了更接近真实工程和长任务执行的指标,Fable 5的压迫感突然变强。SWE-Bench Pro上,Fable 5是80.3%DeepSeek V4-Pro Max官方表里的SWE Pro是55.4%;HLE with tools上,Fable 5是64.5%,DeepSeek V4-Pro Max是48.2%;Terminal-Bench虽然版本不完全一致,Fable 5在2.1上拿到88.0%,DeepSeek V4-Pro Max在2.0上是67.9%。Fable 5全都断崖式领先。

这些数字其实不一定完全能说明问题,但方向很清楚,DeepSeek强在性价比、开源和一批传统能力指标,Fable 5强在最贵、最难卖出高价的任务,尤其是长任务agent、复杂工程、工具协同和真实代码库处理。

视觉和空间推理也在猛涨,比如GDP.pdf这类知识工作视觉任务里,Fable 5是29.8%,高于Opus 4.8、GPT 5.5和Gemini 3.1 Pro。Blueprint-Bench 2上,Fable 5是38.6%,略高于GPT 5.5的36.2%,远高于Opus 4.8的14.5%。这解释了为什么Anthropic强调Fable 5能从截图重建网页应用、从科学图表里提取精确数字。

到了Fable 5这里,处理图片、视频等多模态更像是把屏幕、图表、界面和代码连成一个完整任务链。它看懂一个页面时,有机会直接复刻页面;它读懂一张图时,也能把图里的结构变成下一步操作。

Fable 5让Anthropic不敢完全放开的则是网络安全和生物能力。ExploitBench Cap%上,Fable 5是78.0%,Mythos Preview是69.0%,Opus 4.8只有40.0%,GPT 5.5是34.0%,这个差距非常夸张。放在安全防御里,它意味着模型能帮企业和开源维护者更快发现漏洞;放在错误的人手里,它也会继续拉低攻击门槛。



(图源:Anthropic)

BioMysteryBench hard上,Fable 5是46.1%,高于Mythos Preview的29.6%和Opus 4.8的40.0%。Anthropic还提到Mythos 5在药物设计相关流程中带来约10倍加速,分子生物学假设在盲测中获得研究者偏好的比例约80%。这听起来像科研利好,也足够让监管者紧张。

所以,Fable 5的强不只来自「更聪明」。它强在长任务,强在工程交付,强在视觉理解,强在安全和科研这些高价值也高风险的专业场景。某种意义上,它就是Anthropic 目前能够被大众公开使用的最强大模型,没有之一。

当所有人在降价时,Anthropic把AI卖成奢侈品

Fable 5再强,也绕不开一个现实问题,它贵得离谱。官方价格是每百万输入token 10美元,每百万输出token 50美元,作为对比,Claude Opus 4.8是5美元输入、25美元输出,Fable 5直接翻倍。

更尴尬的是,它发布的时间点,正好撞上大模型打价格战。DeepSeek V4-Pro当前API价格已经来到每百万输入token 0.435美元、输出0.87美元,V4-Flash更低,输入0.14美元、输出0.28美元。

小米MiMo-V2.5系列也在5月底完成永久降价,海外版MiMo-V2.5-Pro同样是输入0.435美元、输出0.87美元,官方还强调最高降幅可达99%。Google这边,Gemini API仍有大量低价模型可选,Gemini 3.5 Flash是输入1.5美元、输出9美元;订阅层面,Google还把AI Ultra顶配套餐从250美元降到200美元。



(图源:雷科技制图)

也就是说,行业一边在把1M上下文、agent编码、多模态能力往低价区间里压,Anthropic一边把Fable 5定在输入10美元、输出50美元。和DeepSeek V4-Pro、MiMo-V2.5-Pro相比,Fable 5的输入价格大约高23倍,输出价格大约高57倍。即便对比Gemini 3.5 Flash,也贵出数倍。这个价格足以劝退大量普通开发者。

但Anthropic的算盘也很清楚,它不想让Fable 5去做便宜模型能做的事情。日常问答、轻量写作、普通代码补全,当然没必要上Fable 5。它卖的是大型代码库迁移、长上下文文档分析、复杂企业流程、网络安全防御、科研假设生成这些高价值任务里的时间。用最扎心的话来说就是,假如你觉得你的时间更值钱,那就上Fable 5 吧。

如果一个模型真的能把两个月工程压成一天,它当然敢贵。但企业采购时会先算一笔账,比如模型价格只是第一层,数据保留是第二层,合规是第三层。Fable 5被列为Covered Model,在Claude API上要求30天数据保留,不支持zero data retention(普通数据保留),对金融、医疗、法律、核心研发团队来说,这不是小事。



(图源:Anthropic)

还有,Fable 5 还有一个麻烦点,它在网络安全、生物等敏感问题上会自动触发安全审查,有些问题它会直接拒绝回答,有些问题会改用能力弱一点的 Opus 4.8 来回答。对普通用户来说,这可能只是「问着问着被拒了」,但对企业来说,这会变成工程问题。

这就形成了一个非常有意思的两个阵营,DeepSeek、MiMo、Gemini在证明,强模型会越来越便宜,越来越容易被开发者和企业大规模调用。Anthropic则在证明,真正顶级、真正接近生产力核心的模型,反而可能越来越贵,越来越像奢侈品级基础设施。

但哪个阵营才会是真正的未来?谁都说不准。

Fable 5 压迫感太强,友商的日子都不好过了

Claude Fable 5的发布,会让很多公司难受。OpenAI会难受,因为Anthropic继续在agent编码和长任务上打出了存在感。Codex周活已经超过500万,OpenAI正在把ChatGPT、Codex和未来AI researcher变成工作入口,但Fable 5的出现提醒市场,Claude在复杂工程任务上仍然是一个必须认真对待的对手。

Google也会难受,因为Gemini体系虽然平台化能力强,Gemma、NotebookLM、Gemini Live都在努力变强,但在这张Anthropic官方跑分图里,Gemini 3.1 Pro在多项测试里输了。Google的优势在生态和分发,Anthropic的优势在最强模型的尖刀能力。

国产模型也会被迫重新回答一个问题,便宜之外,还能不能让用户把最难的任务交给它。DeepSeek V4的1M上下文、开源权重和极低价格很有杀伤力,小米MiMo的降价也会继续推动API市场往下卷,但Fable 5这种模型的存在,会一直提醒市场,便宜模型能覆盖大量任务,可最难的5%或10%,仍然可能被最贵的模型拿走。



(图源:Anthropic)

Fable 5的真正市场意义就是,它不会让所有企业马上换模型,便宜模型的价值也不会消失,但它把大模型竞争推向了一个另一场竞争,未来市场会同时需要两类模型,一类是便宜、稳定、可大规模调用的工作牛马;另一类是昂贵、强悍、带着护栏、专门处理高价值任务的顶级工具。

Anthropic 有点像在用 Fable 5 告诉整个行业,我们不参与每一场价格战,但我们卖的就是最有价值的部分,你不得不在采购时把我列入考虑范围内。

说白了,模型越强,问题越现实,它到底卖给谁,卖多贵,出了事谁负责,这些过去看起来很遥远的问题,现在已经被Claude Fable 5摆到了桌面上。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
难怪990000也被疯抢!超仿生机器人这身材和功能,谁能抵抗得了?

难怪990000也被疯抢!超仿生机器人这身材和功能,谁能抵抗得了?

呼呼历史论
2026-07-02 03:26:31
巴西评论员:安帅思维领先常人,卡塞米罗和马丁内利用得好

巴西评论员:安帅思维领先常人,卡塞米罗和马丁内利用得好

懂球帝
2026-07-01 16:20:23
哈兰德:晋级16强的感觉难以置信;接下来每场对我们都是额外奖励

哈兰德:晋级16强的感觉难以置信;接下来每场对我们都是额外奖励

懂球帝
2026-07-02 03:05:09
清华院系毕业照连续两年同一孩童坐C位,面对公众疑问不应以沉默回避

清华院系毕业照连续两年同一孩童坐C位,面对公众疑问不应以沉默回避

极目新闻
2026-07-02 10:09:18
外媒:巴黎已谈妥迪奥曼德,但不愿支付高昂转会费

外媒:巴黎已谈妥迪奥曼德,但不愿支付高昂转会费

懂球帝
2026-07-02 12:19:28
伊朗只是前菜?以色列战后复盘发现:真正的大敌已上位,非常难啃

伊朗只是前菜?以色列战后复盘发现:真正的大敌已上位,非常难啃

阿芒娱乐说
2026-07-01 17:26:57
美国大满贯冷门不断,日本连赢四场,全是3-0,锁定一张八强门票

美国大满贯冷门不断,日本连赢四场,全是3-0,锁定一张八强门票

野渡舟山人
2026-07-01 16:53:11
世界杯夺冠概率如何,法国居首,阿根廷恐难卫冕,西班牙也有机会

世界杯夺冠概率如何,法国居首,阿根廷恐难卫冕,西班牙也有机会

刘哥谈体育
2026-07-02 12:54:09
被传复婚带娃仅1个月,好友爆赵丽颖真实现状,冯绍峰当初没撒谎

被传复婚带娃仅1个月,好友爆赵丽颖真实现状,冯绍峰当初没撒谎

二大爷观世界
2026-07-02 12:23:05
丢脸丢到世界杯!阿森纳水货坑惨英格兰,开场直接送大礼!

丢脸丢到世界杯!阿森纳水货坑惨英格兰,开场直接送大礼!

澜归序
2026-07-02 03:08:03
男篮又一次被无视了?日本王牌疑似不打世预赛:中国这一战输不起

男篮又一次被无视了?日本王牌疑似不打世预赛:中国这一战输不起

篮球快餐车
2026-07-02 06:03:34
世界杯7位主帅下课!科曼创耻辱,德国少帅不辞职 等1400万解约金

世界杯7位主帅下课!科曼创耻辱,德国少帅不辞职 等1400万解约金

小火箭爱体育
2026-07-01 16:46:27
凯特王妃亮相温网,多套花卉连衣裙尽显优雅英式穿搭美学

凯特王妃亮相温网,多套花卉连衣裙尽显优雅英式穿搭美学

墨薷桃桃
2026-07-01 16:49:15
悲催!网传西安赛格购物中心一商户坠楼,一篇控诉长文让人震惊

悲催!网传西安赛格购物中心一商户坠楼,一篇控诉长文让人震惊

火山詩话
2026-07-02 04:38:25
史上唯一被灭绝的民族,因过于凶残被各族联合剿杀,名字很耳熟!

史上唯一被灭绝的民族,因过于凶残被各族联合剿杀,名字很耳熟!

小莜读史
2026-06-24 13:27:56
40岁106天,哲科是首位出战世界杯淘汰赛的40+岁非门将球员

40岁106天,哲科是首位出战世界杯淘汰赛的40+岁非门将球员

懂球帝
2026-07-02 07:31:08
7月1日正式落地!聘用60岁以上工人不再随意,违规一次亏几十万

7月1日正式落地!聘用60岁以上工人不再随意,违规一次亏几十万

荷兰豆爱健康
2026-07-01 19:56:15
世界杯热评 | 凯恩负责赢球,英格兰队负责搞笑

世界杯热评 | 凯恩负责赢球,英格兰队负责搞笑

潇湘晨报
2026-07-02 10:31:11
“你这面相很难找到工作!”本科女孩印堂发黑,验证了老话没说错

“你这面相很难找到工作!”本科女孩印堂发黑,验证了老话没说错

世界圈
2026-06-30 08:10:35
白宫女秘书哥哥发声:她和特朗普总统的关系很不正常!亲密过头了

白宫女秘书哥哥发声:她和特朗普总统的关系很不正常!亲密过头了

霁寒飘雪
2026-07-01 17:16:25
2026-07-02 13:32:49
雷科技 incentive-icons
雷科技
专注AI硬科技
37220文章数 812240关注度
往期回顾 全部

科技要闻

奥特曼的新算盘:给白宫5%股权 换政策绿灯

头条要闻

13名村民阻拦开采山体涉寻衅滋事:4人获刑 9人获国赔

头条要闻

13名村民阻拦开采山体涉寻衅滋事:4人获刑 9人获国赔

体育要闻

世界杯硬核球迷,把自己变成了雕像

娱乐要闻

霍震霆回应霍启山娜然结婚传闻

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

比亚迪26款海鸥,不到7万配激光雷达,官方还包赔?

态度原创

本地
时尚
教育
健康
公开课

本地新闻

这场穿越酉阳的光影之旅,张张都是壁纸!

月入3万,时代红利砸向文科生

教育要闻

合肥理工学院今年计划招生多少人,官方解答来了(编辑:晨晨)

这4类消化病患者 吃粘食管住嘴

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版