网易首页 > 网易科技 > IT业界 > 正文

Fable 5上线方案公布,Anthropic想给AI越狱定一把尺

0
分享至

7月1日消息,当地时间周二,Anthropic宣布恢复Claude Fable 5访问。公告里的新信息不止模型重新上线:公司第一次系统解释,什么样的AI越狱应被视为严重风险。

Anthropic在官网发布长文称,美国政府已解除对Claude Fable 5和Claude Mythos 5的出口管制。Fable 5将从7月1日起重新面向全球用户开放,覆盖Claude Platform、Claude.ai、Claude Code和Claude Cowork。Pro、Max、Team和部分Enterprise用户在7月7日前可把Fable 5用于最多50% 的每周使用额度;之后将通过用量积分继续使用。Anthropic还称,将尽快在AWS、Google Cloud和Microsoft Foundry上重新启用访问。

Fable 5上线方案公布,Anthropic想给AI越狱定一把尺

Mythos 5则已在美国政府6月26日批准后,先向一批美国机构恢复访问,并将继续与政府协调,扩大到Glasswing项目中的更多国内和国际合作伙伴。

如果只看结果,这像是一场模型下架风波的收尾。但Anthropic这篇文章的重点其实在后半段:它想把 “AI模型越狱到底有多严重” 变成一套行业评分标准,并把前沿模型发布纳入更深的政府预发布测试。

为什么一份越狱报告会让模型下架

这场风波始于6月12日。

Anthropic称,美国政府当天对Fable 5和Mythos 5实施出口管制,要求限制外国国民访问这两款模型。这里的外国国民不只包括美国境外用户,也包括在美国境内的非美国国民。由于指令立即生效,而Anthropic无法实时核验每个用户的国籍,公司最后选择暂停所有用户访问。

政府介入的直接导火索,是一份来自亚马逊研究人员的报告。报告称,研究人员找到一种绕过Fable 5安全防护的方法,让模型识别出若干软件漏洞;其中一个案例里,模型还生成了演示如何利用漏洞的代码。

Anthropic的反驳很明确:这不是Fable 5突然释放出独有的高级攻击能力。

公司称,自己复测后发现,Claude Opus 4.8、GPT-5.5、Kimi K2.7等较低能力模型,也能识别同样漏洞;在生成单个漏洞利用演示时,Haiku、Sonnet、Opus、GPT和Kimi的多个版本也能给出类似结果。Anthropic认为,这更像是Fable 5安全分类器里的一个边界案例,而不是Mythos级别网络攻击能力外泄。

换句话说,争议核心不是 “模型有没有风险”,而是:一个绕过技巧到底严重到什么程度,是否足以让政府要求模型停服。

新防护能拦99% 以上,但代价是误伤

为了恢复访问,Anthropic训练了新的安全分类器,专门拦截亚马逊报告中的绕过行为。公司称,新分类器能在超过99% 的情况下阻止相关技巧;如果Fable 5请求被拦截,系统会把请求转给Claude Opus 4.8处理。

美国商务部下属的AI标准与创新中心也测试了Anthropic的新旧防护。

但这不是一个 “修好就完事” 的问题。Anthropic承认,新分类器会让日常编程和调试任务中更多良性请求被误判。也就是说,用户正常做安全研究、漏洞分析或代码调试时,可能更容易碰到拒答。

这才是前沿模型安全的难点:厂商既要证明模型不会被轻易拿去做攻击,又不能把正常开发者和安全研究人员挡在门外。Fable 5的恢复,实际上是一次能力、可用性和政策风险之间的重新平衡。

Anthropic想给AI越狱分级

这篇文章最有价值的部分,是Anthropic提出的 “AI越狱严重程度框架”。

Fable 5上线方案公布,Anthropic想给AI越狱定一把尺

Anthropic认为,现在行业缺少统一标准。每次有人发现新的绕过方法,厂商不知道该多快修,政府也缺少一致尺度判断是否该介入。

它提出用四个维度判断一个越狱是否严重:能力增益、能力范围、武器化难度和可发现性。

这个框架的意义在于,它把 “AI越狱” 从一个容易引发恐慌的词,拆成了可以排序、可以处置的问题。一个只能触碰安全边界、还需要很多技巧才能复现的越狱,和一个一两句提示就能稳定解锁危险能力的越狱,不应该被同等对待。

Fable 5上线方案公布,Anthropic想给AI越狱定一把尺

Anthropic正在与亚马逊、微软、谷歌和其他Glasswing合作伙伴起草一套框架。它建议从四个维度给越狱风险打分:

第一,能力增益。越狱后,模型能不能做出现有公开工具和较弱模型做不到的事情。如果只是达到其他工具已有能力,风险较低;如果能显著加速专家级攻击,风险就高。

第二,能力范围。同一种越狱方法,是只能解锁一个很窄的任务,还是能覆盖多类攻击目标和技术路线。

第三,武器化难度。把这个越狱转成真实攻击,需要多少人工努力、提示技巧和反复尝试。如果一两次提示就能稳定成功,风险更高。

第四,可发现性。这个方法是需要专业知识才能找到,还是已经在网上广泛传播。

这套框架的意义在于,它试图把 “AI越狱” 从笼统恐慌,拆成可沟通、可排序、可修复的问题。以后模型被发现漏洞时,厂商和政府可以先判断:这是低风险边界案例,还是必须立即部署缓解措施的高危越狱。

Anthropic还计划推出新的HackerOne项目,让安全研究人员提交Fable 5潜在网络安全越狱案例。

前沿模型发布以后更难 “只按产品节奏走”

Fable 5这次恢复访问,也说明前沿模型发布正在多一层外部变量。

Anthropic表示,对涉及国家安全相关前沿能力的模型,将向指定美国政府伙伴提供更早访问权限,让政府在广泛发布前测试模型和配套防护;当出现重要越狱或滥用模式时,也会更快向政府共享信息;同时投入专门团队和算力,参与AI安全评测与研究。

这意味着,前沿模型不再只是 “训练完成、评测通过、上线销售”。越靠近网络安全、生物安全、国家安全这些高风险能力,模型发布越可能进入政府预审、信息共享和风险协商流程。

对用户来说,Fable 5恢复访问是好消息。但对企业客户来说,这件事留下的提醒更现实:最强模型的可用性,不只取决于能力、价格和接口,也取决于政策状态。一款模型即使已经上线,也可能因为安全争议突然暂停,再通过补防护、复测和政府协调恢复。

对Anthropic来说,这次复盘既是在解释下架原因,也是在争夺话语权:公司希望外界相信,Fable 5不是失控模型,而是一个被过度谨慎处理的边界案例;同时,它也希望把行业焦点从 “模型能不能被越狱” 转到 “越狱严重程度该怎么判断”。

所以,这篇公告表面上是在宣布Fable 5重新上线,实际上是在给前沿模型行业立一套新问题:AI越狱该怎么分级,政府该什么时候介入,模型公司又该怎样证明自己既能放出能力,也能管住风险。(易句)

(本文由AI翻译,网易编辑负责校对)

相关推荐
热点推荐
男子带小姐在楼顶缠绵,嫌小姐只付给他100元,2016年他杀死小姐

男子带小姐在楼顶缠绵,嫌小姐只付给他100元,2016年他杀死小姐

汉史趣闻
2026-07-01 08:51:50
外交部:中方一贯主张对伊单边制裁应早日解除

外交部:中方一贯主张对伊单边制裁应早日解除

界面新闻
2026-07-01 15:30:13
世界杯16强已确定7席!1/8决赛3组对决出炉,E、F两组球队全出局

世界杯16强已确定7席!1/8决赛3组对决出炉,E、F两组球队全出局

我爱英超
2026-07-01 12:07:07
微软计划裁员数千人,涉及销售、咨询、游戏部门

微软计划裁员数千人,涉及销售、咨询、游戏部门

澎湃新闻
2026-07-01 15:24:27
优必选全尺寸超仿生机器人11.98万元起:仅限成年人购买

优必选全尺寸超仿生机器人11.98万元起:仅限成年人购买

PChome电脑之家
2026-06-30 18:07:08
詹姆斯正式告别湖人!三大问题浮出水面,潜在下家形势不太乐观

詹姆斯正式告别湖人!三大问题浮出水面,潜在下家形势不太乐观

老梁体育漫谈
2026-07-01 01:20:15
哈兰德:我实在踢不动加时赛了;挪威对阵巴西胜算非常小

哈兰德:我实在踢不动加时赛了;挪威对阵巴西胜算非常小

懂球帝
2026-07-01 07:33:52
135公里刀片刺绳,泰山到底在防谁?

135公里刀片刺绳,泰山到底在防谁?

民言民语
2026-06-30 10:00:28
法国队内讧?9000万新星连续4场替补,赛后对德尚甩脸,拒绝握手

法国队内讧?9000万新星连续4场替补,赛后对德尚甩脸,拒绝握手

小火箭爱体育
2026-07-01 14:19:41
伟伟道来 | 美伊和谈,退步原来是向前

伟伟道来 | 美伊和谈,退步原来是向前

经济观察报
2026-07-01 13:08:10
勇士向詹姆斯提出硬性招募条件:先加盟,才会全力交易戴维斯

勇士向詹姆斯提出硬性招募条件:先加盟,才会全力交易戴维斯

夜白侃球
2026-07-01 12:11:24
我真蠢,我竟然去看了《抓特务》

我真蠢,我竟然去看了《抓特务》

呦呦鹿鸣
2026-06-28 22:42:42
挪威举国庆祝 “测震仪出现明显波动”!时隔28年再度杀入16强,“有哈兰德,但不只有哈兰德”

挪威举国庆祝 “测震仪出现明显波动”!时隔28年再度杀入16强,“有哈兰德,但不只有哈兰德”

澎湃新闻
2026-07-01 14:05:56
哈兰德奉献绝杀,主帅称其为“最伟大的射手” 世界杯球衣背后,揭示了他“吃小孩”的秘密

哈兰德奉献绝杀,主帅称其为“最伟大的射手” 世界杯球衣背后,揭示了他“吃小孩”的秘密

红星新闻
2026-07-01 07:48:30
油价一夜大变!今天7月1日调整后,全国加油站92、95汽油最新售价

油价一夜大变!今天7月1日调整后,全国加油站92、95汽油最新售价

沙雕小琳琳
2026-07-01 09:41:24
曝Anthropic在Claude Code中嵌入隐蔽代码,无声标记中国用户路由信息

曝Anthropic在Claude Code中嵌入隐蔽代码,无声标记中国用户路由信息

西游日记
2026-07-01 07:53:27
7月1日,人社部关于2026年上调退休人员基本养老金通知发布了吗?

7月1日,人社部关于2026年上调退休人员基本养老金通知发布了吗?

小彬说事
2026-07-01 11:06:50
随着墨西哥2-0厄瓜多尔,世界杯16强决出7席!阿根廷争冠形势如下

随着墨西哥2-0厄瓜多尔,世界杯16强决出7席!阿根廷争冠形势如下

小火箭爱体育
2026-07-01 12:21:33
湖人和快船的一个时代,都在今天结束了

湖人和快船的一个时代,都在今天结束了

只关于篮球
2026-07-01 12:13:06
伊布:足坛最强5人有3人在法国,剩下两个名额让大家选

伊布:足坛最强5人有3人在法国,剩下两个名额让大家选

懂球帝
2026-07-01 11:57:50
2026-07-01 15:44:49

科技要闻

AI写了90%代码,大厂程序员的煎熬时刻

头条要闻

嘉峪关一景区NPC被游客掰断手臂:互程中对方突然发力

头条要闻

嘉峪关一景区NPC被游客掰断手臂:互程中对方突然发力

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

罗晋大孤山素颜照,秃顶白发引热议

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

汽车要闻

交付持续攀升再破纪录 零跑6月全球交付93376台

态度原创

游戏
亲子
手机
公开课
军事航空

噬血代码2全新DLC官宣!废弃世界与新战斗就在今夏

亲子要闻

人人皆可烹饪,厨师不分出身

手机要闻

高通骁龙8E6旗舰集体涨价:起步就是6000元 较上代暴涨1000多元

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊代表前往多哈 谈判方式出现"重大倒退"

无障碍浏览 进入关怀版
×