网易首页 > 网易号 > 正文 申请入驻

号称「最强模型」的 Mythos 正式发布,但 Anthropic 还给它装了个「护栏」

0
分享至


最强模型,但会自动「熄火」。

作者|张勇毅

望眼欲穿近两个月、在社交媒体上占尽风头的 Anthropic Mythos 模型,今天终于正式发布了。

两个月前,Anthropic 说自己最强的那一类模型太危险、不能公开,只把它发给了一百多家机构。

今天,这类能力对所有人开放了:公开发布的版本叫 Claude Fable 5;那个真正「不设限」的 Mythos 5,依然只留给少数合作伙伴。换句话说,你能用上的最强 Claude,是一台被加了边界的 Mythos。


而这道护栏的设计,比「公开发布」四个字本身更值得说:它保证安全的方式,不是拒绝你。

Anthropic 这次一口气放出两个模型:Claude Fable 5 和 Claude Mythos 5。它们其实是同一个底层模型,差别只有一处——安全护栏。

Fable 5 套了一整套安全分类器,面向所有用户;Mythos 5 拆掉了其中一部分限制,只给 Project Glasswing 里的网络安全合作伙伴。

说白了,Fable 5 就是一台「带护栏的 Mythos」

和 Anthropic 一贯的风格一样,模型名字本身也藏了点心思。

据 Anthropic 解释,Fable 来自拉丁语 fabula,意思是「被讲述的故事」,和希腊语里的 mythos 同源。两个名字指向同一件东西,区别只在于,其中一个被加上了边界。

把时间线往回拉一下。今年四月,Anthropic 启动 Project Glasswing,第一次放出 Mythos 级模型(Claude Mythos Preview)时,只给了一小撮网络安全和关键基础设施机构——到上周,这份名单扩展到十几个国家、一百多家机构。当时官方的说法是,这类模型一旦落到错误的人手里,能造成严重破坏,所以不能公开。


两个月,从「太危险不能发」到「所有人都能用」。这中间发生的事,才是这次发布真正的主角。

大多数 AI 的安全机制,是「拒绝」——你问一个它不该答的问题,它告诉你「抱歉,我不能帮你」。

Fable 5 换了个思路。安全不是靠它学会拒绝,而是在危险时把它换掉。

具体来说,Fable 5 背后挂着一组独立的分类器。

当这组分类器判断你的请求落在三个高风险领域——网络攻击、生物化学武器、以及模型蒸馏(指把一个模型的能力「偷」出来,去训练自己的模型)——它不会让 Fable 5 来回答,而是悄悄把这道题转交给 Opus 4.8,同时告诉你:刚才发生了一次降级。

这个设计有意思的地方在于,它把「安全」和「能力」拆成了两件事。你买的是 Mythos 级别的能力,但在最危险的那三个领域,你其实是在跟 Opus 说话。Anthropic 自己的说法是,降级到 Opus 4.8 的体验,总比被 Fable 直接拒绝要好——毕竟 Opus 4.8 本身也是个相当强的模型。


Anthropic 给出的数据是,超过 95% 的对话根本不会触发降级。换句话说,对绝大多数人来说,你用到的 Fable 5,和合作伙伴手里那个「完全体」Mythos 5,体验几乎没有区别。

那这套护栏结实吗?Anthropic 说,他们做了超过一千小时的外部红队测试,没有人找到能绕过它的「通用越狱」方法(指一种能让模型彻底无视所有安全限制的万能手段)。

当然他们也留了余地:完全杜绝越狱大概是不可能的,目标只是让任何漏洞都「慢到、贵到」来不及被大规模利用。

但这套机制有代价,而且 Anthropic 自己先说了出来:分类器现在调得偏严,会误伤正常请求。一个研究病毒的生物学家,一个做渗透测试的安全工程师,都可能在合理的工作里被莫名其妙地「降级」。官方承认这会让一些用户感到烦躁,承诺后续慢慢收窄、降低误报。

我把这件事想了一会儿,觉得它其实是一个挺聪明、也挺无奈的折中。聪明在于,它没有在「发」和「不发」之间二选一,而是在能力上切了一刀;无奈在于,这一刀切得并不精准——为了赶在出事之前先上线,Anthropic 宁可错杀,不肯漏过。

强到危险,才配得上这套护栏

聊了半天安全,你可能会问:它到底强到什么程度,值得这么如临大敌?

基准测试我本来想跳过——跑分这东西看多了会麻木,何况 Anthropic 列了一长串,几乎项项第一。

最唬人的一个来自 Stripe。据 Anthropic 披露,Stripe 在一个五千万行的 Ruby 代码库上,用 Fable 5 做了一次全库迁移,一天完成——而这件事,原本要一整个团队手工干两个多月。更关键的是效率:在 Cognition 的 FrontierCode 编程测试里,Fable 5 在「中等算力消耗」下就拿到了最高分,Token 效率比以前的 Claude 明显更好。

这也解释了为什么 Anthropic 反复强调 Token 效率——一个能连续自主工作很久、动辄消耗上百万 Token 的模型,如果还很「废话」,成本会高到没人用得起。

视觉这块的进步更直观。以前的 Claude 玩宝可梦火红版,得靠一整套辅助工具链才能磕磕绊绊地推进;Fable 5 只用最基础的视觉接口,就自己通关了。它还能仅凭几张截图,把一个 Web 应用的源代码还原出来。

Anthropic 内部的蛋白质设计专家,用 Mythos 5 把药物设计流程中的部分环节,加速了大约十倍。第二个更夸张:在一项基因组学研究里,Mythos 5 在几乎完全自主的状态下连续工作了一周多,自己训练出了一个机器学习模型——这个模型的表现,超过了发表在《Science》上的同类模型,而它的体量,只有后者的百分之一。

当一个模型能独立做完一周的科研,还做得比人类发在顶刊上的成果更好,「它会不会被用来设计病毒」就不再是杞人忧天。这正是 Anthropic 给生物化学领域单独上锁的原因——同一种能力,在研究者手里是解药,换一双手可能就是别的东西。


能力和危险,在这里是同一件事的两面。护栏不是因为这个模型不行才加的,恰恰是因为它太行了。

可以看出,Anthropic 把 Mythos 形容成一个需要全程看管的危险品。但官方口径之外,也有不一样的声音。

一位 ID 为 @zekramu 的 X 用户,自称参与了 Mythos 的企业试点,最近发帖分享了用整整一天之后的感受——他的描述,和发布会上的叙事并不完全一致。

据他说,Mythos 确实强,尤其在安全研究类任务上,明显比 Opus 和 GPT-5.5 的最高配更能打,像是专门冲着这类活儿调过的。但「强」和「威胁人类」是两码事。他举了个细节:这个被官方说得神乎其神的模型,在他们公司一套基于 Bazel(一种代码构建工具)、又改了不少自定义逻辑的流程面前卡了壳,最后还得他先把代码编译好,再让模型去跑。


更耐人寻味的是护栏本身。据他描述,Anthropic 随模型一起发来的,不是大家熟悉的 Claude Code,而是一套专门用来「防止模型逃逸」的运行环境——所谓 Project Glasswing,在他看来很大程度上就是这套沙箱。但他觉得这套环境做得相当粗糙,甚至怀疑其中一部分限制根本没真正生效;他还称自己绕开了官方设下的边界,在沙箱之外跑过这个模型。

至于战绩,他说 Mythos 在他们的产品里揪出了大量此前没被发现的安全漏洞,多到足以让团队重新掂量自己的安全策略。

他的结论很值得玩味:这模型在安全攻防上确实有两把刷子,但在他眼里,它更像一个极其昂贵、极其专精的工具,而不是 Anthropic 暗示的那种「悬在所有人头顶」的存在。

说回普通人最关心的事:多少钱,什么时候能用。

价格上,Fable 5 和 Mythos 5 的 API 定价是每百万输入 Token 10 美元、输出 50 美元。横向比一下就有意思了:比起 Mythos Preview 的 25/125 美元,降了六成;但比 Opus 4.8 的 5/25 美元,整整贵了一倍;和 OpenAI 的 GPT-5.5(5/30 美元)相比,输入贵一倍,输出贵约六成七。


换句话说,它是迄今最强的 Claude,也是最贵的 Claude 模型之一。强,但不便宜。

前面提到的 @zekramu 也算个旁证:据他估算,光是企业试点阶段的投入,就到了数百万美元级别;「太贵」是他反复念叨的一句话。


订阅用户还得留意一个时间窗口。从今天到 6 月 22 日,Pro、Max、Team 和企业版用户可以免费用 Fable 5;6 月 23 日起,继续用就得额外买 usage credits 了。

Anthropic 说,等产能跟上,会把 Fable 5 重新做成订阅标配——但没给具体时间。API 和按量付费的企业客户不受这个节奏影响,今天起照常调用。

这个略显别扭的「先免费、再收费、以后再说」,其实透露了一个信号:产能不够。Anthropic 自己也承认,预计 Fable 5 的需求会「非常高、很难预测」。一个对所有人开放的最强模型,先得过算力这一关。

而这次发布里,真正容易被划过去、却最值得停下来看的,是另一条政策。

从 Fable 5 开始,所有 Mythos 级模型的流量都会被强制保留 30 天,覆盖第一方和第三方平台。

Anthropic 承诺不拿这些数据训练模型,只用于安全监控,比如识别新型越狱、以及那种分散在很多次请求里、单看每一条都正常的复杂攻击。为此他们也加了新的隐私保护:记录每一次人工访问、30 天后基本全部删除。

听上去合情合理。但对那些当初正是冲着「零数据保留」才选择 Anthropic 的企业客户来说,这是一个需要重新评估的变化。

你用最强模型的代价,不只是更贵的账单,还包括:你的数据,会在 Anthropic 的服务器上多待一个月。

安全和隐私,在这里被摆上了同一张天平。而 Anthropic 给出的答案是:为了防住前所未有的攻击,得先把所有人的流量都看上 30 天。这笔账划不划算,恐怕每家公司得自己算。

把这些放在一起看,Fable 5 真正的新意,也许不在它有多强,而在 Anthropic 趟出了一条新路——怎么把一个危险到不敢公开的能力,拆成一个所有人都能用的产品。

办法是:用分类器在能力上切一刀,用降级代替拒绝,再用 30 天的留存,当作兜底的监控网。

它不完美。会误伤,会变贵,会让一部分人对自己的数据多一层顾虑。但它至少回答了一个所有前沿实验室迟早都要面对的问题:当你手里的东西强到足以伤人,你是把它锁进只有少数人能进的房间,还是给它装上一道足够结实的护栏,再交到所有人手里?

Anthropic 选了后者。


至于这道护栏到底够不够结实——这一次,替它做压力测试的,不再是那一百多家机构,而是所有人。

*头图来源:ClaudeDEV

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
事发早高峰!上海高架发生离奇事故,网友: 怎能撞成这样…原因找到了!

事发早高峰!上海高架发生离奇事故,网友: 怎能撞成这样…原因找到了!

新浪财经
2026-07-04 08:38:27
马丁内斯能做到吗?世界杯历史上没有主帅率队淘汰自己的祖国

马丁内斯能做到吗?世界杯历史上没有主帅率队淘汰自己的祖国

懂球帝
2026-07-03 15:05:08
安切洛蒂:内马尔已经能踢满90分钟比赛,坐替补他并不开心

安切洛蒂:内马尔已经能踢满90分钟比赛,坐替补他并不开心

懂球帝
2026-07-04 03:05:08
谷歌清华杀妻案再延期!案发两年半凶手家疑砸千万请大律师续命,每次都甩锅遗传精神病?

谷歌清华杀妻案再延期!案发两年半凶手家疑砸千万请大律师续命,每次都甩锅遗传精神病?

英国报姐
2026-07-04 00:28:36
普京宣布俄军已“完全解放”卢甘斯克

普京宣布俄军已“完全解放”卢甘斯克

新华社
2026-07-04 07:38:02
国务院这份教育规划,把“中考55分流”扫进了历史

国务院这份教育规划,把“中考55分流”扫进了历史

解说阿洎
2026-07-04 08:42:27
昆明试验列车撞人致11死2伤,调查报告公布

昆明试验列车撞人致11死2伤,调查报告公布

界面新闻
2026-07-03 17:46:55
西安赛格事件最新!所有商户消费款项,统一流入运营账户,引热议

西安赛格事件最新!所有商户消费款项,统一流入运营账户,引热议

火山詩话
2026-07-03 12:26:19
斯卡洛尼:我们总要看到积极的一面,这支球队永不言弃

斯卡洛尼:我们总要看到积极的一面,这支球队永不言弃

懂球帝
2026-07-04 09:05:07
老板你穿成这样,生意不好是不可能的!有那味了

老板你穿成这样,生意不好是不可能的!有那味了

舞指飞扬
2026-07-04 09:15:07
大跌近0.8元/升,汽柴油“第4跌”创最大降价后,下次7月17日调价

大跌近0.8元/升,汽柴油“第4跌”创最大降价后,下次7月17日调价

猪友巴巴
2026-07-04 10:07:48
中央气象台7月4日06时继续发布暴雨橙色预警

中央气象台7月4日06时继续发布暴雨橙色预警

每日经济新闻
2026-07-04 06:21:05
全国92,95汽油大降950元/吨,95汽油跌回7字头,下次油价或再降

全国92,95汽油大降950元/吨,95汽油跌回7字头,下次油价或再降

猪友巴巴
2026-07-03 18:35:03
世界杯太刺激了:随着阿根廷3-2险胜,16强仅剩最后一个席位

世界杯太刺激了:随着阿根廷3-2险胜,16强仅剩最后一个席位

侧身凌空斩
2026-07-04 08:47:18
医生提醒:若长期一天只吃两顿饭,用不了半年,或患上这4种疾病

医生提醒:若长期一天只吃两顿饭,用不了半年,或患上这4种疾病

路医生健康科普
2026-06-29 12:05:03
华南理工大学再次向中山大学“输送”校长!中央批准:唐洪武同志任中山大学校长(副部长级)

华南理工大学再次向中山大学“输送”校长!中央批准:唐洪武同志任中山大学校长(副部长级)

矿材网
2026-07-04 02:33:44
美媒:伊朗谈判代表乘机回国,伊朗部队通报称以色列计划袭击飞机

美媒:伊朗谈判代表乘机回国,伊朗部队通报称以色列计划袭击飞机

勇士军武闲谈
2026-07-04 08:28:20
贝克汉姆14岁的女儿小七怎么如此成熟了,好像少妇

贝克汉姆14岁的女儿小七怎么如此成熟了,好像少妇

西楼知趣杂谈
2026-06-13 19:52:21
歌手2026第七期帮唱嘉宾出炉,阵容离谱!网友:请不到人就别办

歌手2026第七期帮唱嘉宾出炉,阵容离谱!网友:请不到人就别办

星宿影视鸭
2026-07-03 14:29:23
广西护士被举报 “卖淫” 遭开除,单位可独立认定员工违法失德吗

广西护士被举报 “卖淫” 遭开除,单位可独立认定员工违法失德吗

京都律师事务所
2026-07-03 20:26:16
2026-07-04 10:35:00
极客公园
极客公园
让最棒的创新成为头条
12226文章数 78911关注度
往期回顾 全部

科技要闻

iPhone 18 Pro泄密影响恶劣,印度调查塔塔

头条要闻

阿根廷加时赛3-2绝杀佛得角 世界杯最大黑马昂首出局

头条要闻

阿根廷加时赛3-2绝杀佛得角 世界杯最大黑马昂首出局

体育要闻

今夏最动人告别!世界从此记住佛得角

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

教育
数码
亲子
公开课
军事航空

教育要闻

孩子的10种暑假状态,这不就是我家的现状么

数码要闻

消息称Apple Watch Series 12表带内嵌传感器,支持血糖监测等

亲子要闻

一妇婴领衔全国81家医院共筑“好孕联盟”,破解复发性流产跨区域转诊难题

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄大使馆遇袭 2年多遭袭击次数已超25次

无障碍浏览 进入关怀版