网易首页 > 网易号 > 正文 申请入驻

绝了! Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线

Claude Fable5惨遭二次越狱

0
分享至


新智元报道


【新智元导读】Anthropic刚把Fable 5「放出来」没几天,它就又被黑客当众扒了底裤。

Anthropic官方确认:Fable将于7月7日后暂时从订阅计划移除,但一旦容量允许,将尽快恢复为标准订阅内容。

这无疑是个好消息。


但Fable 5再次被越狱了!这已经是该模型第二次防线失守。

黑客Vitto Rivabella,公开宣布:Fable 5,又被攻破了。


要知道,Claude Fable 5恢复访问时,Anthropic特意强调:上次Fable 5被禁就是因为亚马逊的研究人员发现了一种绕过Fable 5安全防护的方法。


所以这次的安全分类器得到针对性加强。


然而,这个神话只维持了2天。

而且,Claude Sonnet 5一发布,就被越狱成功!


Fable 5能不能回归订阅套餐,或许成了一个问题。

72小时,Fable 5神话破灭

Fable 5的神话,在诞生后的第72小时就破灭了。

6月9日发布时,Anthropic曾傲慢地宣称:经过1000小时的外部压力测试,Fable 5没有任何通用越狱方法。

然而,知名黑客「解放者普林尼」(Pliny the Liberator)只用了三天,就让Fable 5像漏勺一样,吐出了违禁化学品的制作步骤和堆栈溢出漏洞代码。


普林尼是怎么做的?他利用了人类视觉与机器逻辑之间的「时差」:

  • 字符迷魂阵:他把敏感词中的英文字母替换成西里尔字母或Unicode异形字符。人眼看着是「炸弹」,但在分类器眼里,这只是一串无意义的乱码。

  • 意图稀释:他利用Fable 5巨大的上下文窗口,把恶意意图藏在几十轮温和的学术讨论中。这就像在一百升清水里滴入一滴毒药,分类器的警觉性被彻底稀释。


7月1日,Anthropic官宣Fable 5回归,但与此同时,他们推出了业内成本最低的红队。

他们启动了一个名为「Cyber Jailbreak」的公开HackerOne项目,邀请用户报告可用于协助网络攻击的新越狱方法。


这是一个漏洞披露计划(Vulnerability Disclosure Program),而非赏金计划,不会支付任何报酬。

Anthropic将获得全球顶尖越狱高手提供的全天候对抗性测试,而桌上唯一的「货币」就是善意。

这项举措是Anthropic在Fable 5恢复后的重要安全升级,标志着从被动应对转向主动「众筹」红队,堪称行业低成本、高效率的创新尝试。

而这正是问题所在。

发现这些越狱方法的人并不会悄悄地将它们提交到某个私密邮箱。

像普林尼这样的人是不会悄无声息地越狱的。他们所做的一部分事情就是要被人看见。否则对他们来说还有什么意义呢?


Fable 5惨遭二次越狱

Fable 5又被越狱了。这已经是它第二次被人撬开。

但这回的复盘,画风有点不对——因为动手的黑客,最后反手给Anthropic点了个赞。

他叫Vitto Rivabella。


熬了大约20个小时之后,他给出的结论是:这么折腾一圈,还不如打开谷歌搜一下,又快又便宜。


先把Fable 5这段坎坷捋一捋。

7月1日,它带着一套「专门针对上次漏洞加强过」的新分类器重新上线。

Anthropic这次也学乖了,顺手开了个HackerOne项目,公开邀请全球黑客来报告新的越狱方法。

然后没几天,Vitto就盯上了它。

Vitto复盘的第一句就是:大多数尝试都失败了,这模型保护得极其到位。

按他的观察,Fable 5的防御至少三层嵌套:入场检查、实时生成的「断路器」,以及内化在思维链(CoT)中的大脑防火墙。


拦截率高达90%,普通的攻击手段在它面前就像蚊子叮象。

而且这些分类器不认关键词,它认意图,还跨语言。

直接下命令?门都没有。拐着弯铺垫?也得如履薄冰——只要它嗅到一丝恶意,防线立刻归零,你得从头再来。

结果就是:90%的破解请求,直接被挡在门外。

这个数字有旁证。

意大利人工智能研究院最近专门测了Fable 5,结论几乎一样:绝大多数攻击都挡住了,一招鲜的静态套路「几乎被完全中和」,唯一还能撬开缝的,只剩肯花几十小时死磕的笨功夫。


就算闯过分类器,前面还堵着思维链这座大山——好在,关于怎么翻这座山,公开文献里已经有一大堆。

Vitto最后靠一套复杂的组合拳勉强绕了过去:字符混淆、学术化包装、超长铺垫、拆解重组,外加一点随机性。


听着唬人,但这些手法一个都不新鲜,全是红队圈公开聊了好几年的老套路。

真正难的从来不是知道这些招,而是在一个会实时反制的系统上,一遍遍试到刚好绕过去。

Vitto提到,所有防线里唯一持续薄弱的,是桑塔利语、阿姆哈拉语这类晦涩小语种。


但这条最容易被误读成「Fable留了个后门」。

恰恰相反——这不是Fable一家的漏洞,是所有大模型共有的病。

道理很简单:安全训练的语料,绝大多数是英语和其他大语种,小语种的护栏天生就薄。

这事学术界早有共识,从布朗大学到斯坦陵布什大学,一串公开论文都在敲同一记警钟。小语种不是谁家的后门,是整个AI安全的一笔历史欠账。

那费这么大劲,最后到底掏出了什么?

一堆边角料:一些错误信息、零星的有害内容、几句难听话、片段化的化学知识、轻度的漏洞信息。



没一样够得上「核心机密」。

于是就有了开头那句灵魂总结——这些东西,谷歌搜得又快又全,读文献还更深入。

Vitto自己也承认,想把这套越狱稳定用在真正的长任务上,他至今没做到。

这跟Anthropic的官方口径也对上了。

在重新上线的公告里,Anthropic把目前所有已知越狱都定性为「minor」:顶多蹭进模型故意放宽的安全边际,碰不到真正想拦死的那条红线,比如生物武器或复杂网络攻击。


完美的封印,本身就是悖论

两次越狱,两种结局。

第一次,Anthropic输在了傲慢,它试图通过「降智」来垄断技术,结果被黑客公开发布12万字的系统提示词(System Prompt)当众打脸,那是它的「行为宪法」,却被挂在GitHub上任人围观。

第二次,Anthropic输在了盲点。它以为堆叠算力和数据就能堵住恶意的出口,却忘记了语言本身就是流动的、狡黠的。

这揭示了AI安全界细思极恐的现状:

人类造出了能翻译所有语言的机器,却依然无法完全翻译人类内心的恶意。

参考资料:

https://x.com/RoundtableSpace/status/2072745872086200549?s=20

https://x.com/VittoStack/status/2072061275345985813?s=20

https://x.com/jason_haugh/status/2072293728128045154

编辑:大卫




特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1死3伤!母亲遭11名高利贷催收人员“脱裤”羞辱,男子挥刀讨公道

1死3伤!母亲遭11名高利贷催收人员“脱裤”羞辱,男子挥刀讨公道

易玄
2026-07-04 10:55:57
“监狱海王”邹显卫:监狱私建独门小院,女狱警心甘情愿当情人

“监狱海王”邹显卫:监狱私建独门小院,女狱警心甘情愿当情人

寄予的清风
2026-07-03 21:29:28
俄军在扎波罗热插旗摆拍被俘虏!乌克兰切断俄13座电力系统

俄军在扎波罗热插旗摆拍被俘虏!乌克兰切断俄13座电力系统

项鹏飞
2026-07-03 21:40:18
范志毅没说谎! 千万赞助款刚到位, 董路就拿100W分给月薪三千老兄弟

范志毅没说谎! 千万赞助款刚到位, 董路就拿100W分给月薪三千老兄弟

寒律
2026-07-04 10:24:35
张家乐 77.94米刷新世界U20纪录

张家乐 77.94米刷新世界U20纪录

98跑
2026-07-05 07:35:52
太阳女主持和暴躁影帝分手的真相!

太阳女主持和暴躁影帝分手的真相!

八卦疯叔
2026-07-05 10:48:37
崩了!欧美订单取消!关闭4座工厂!10万人失业!

崩了!欧美订单取消!关闭4座工厂!10万人失业!

财经要参
2026-07-04 17:09:25
女单冠军出炉!国乒选手4:3惊险夺冠,孤军奋战,单枪匹马不容易

女单冠军出炉!国乒选手4:3惊险夺冠,孤军奋战,单枪匹马不容易

国乒二三事
2026-07-05 05:08:19
L3/L4强制性国标关上了小鹏理想崇拜的特斯拉纯FSD视觉方案的大门

L3/L4强制性国标关上了小鹏理想崇拜的特斯拉纯FSD视觉方案的大门

沙雕小琳琳
2026-07-04 09:54:10
黄有龙澳洲赌债案落槌:2.8亿输光、2.7亿本金偿还、亿元利息主张

黄有龙澳洲赌债案落槌:2.8亿输光、2.7亿本金偿还、亿元利息主张

阿讯说天下
2026-07-02 09:56:50
斯图里奇:如果美国人看了佛得角还是无法爱上足球,那真没辙了

斯图里奇:如果美国人看了佛得角还是无法爱上足球,那真没辙了

云隐南山
2026-07-04 17:14:05
如果毛岸英没有牺牲,会担任什么职务?

如果毛岸英没有牺牲,会担任什么职务?

始于初见见
2026-07-03 23:05:09
7月5日足球世界杯推荐:精选4场赛事解析,巴西vs挪威,含比分!

7月5日足球世界杯推荐:精选4场赛事解析,巴西vs挪威,含比分!

足球二串大王
2026-07-05 08:23:20
国家修的路,凭啥不让走?甘肃景区设卡拦车,官方回应:可自驾!

国家修的路,凭啥不让走?甘肃景区设卡拦车,官方回应:可自驾!

观史搜寻着
2026-07-03 11:43:57
终于有经济学家批评体制内退休金太高、加剧代际矛盾,评论区炸锅

终于有经济学家批评体制内退休金太高、加剧代际矛盾,评论区炸锅

慧翔百科
2026-06-23 08:47:02
小糯米12岁近照曝光,身高快到1米7,父母陪伴差距看得人心酸

小糯米12岁近照曝光,身高快到1米7,父母陪伴差距看得人心酸

喜欢历史的阿繁
2026-07-05 06:20:10
太惨了!夫妻省吃俭用三年为孩子教育砸下30万元,高考考了420分

太惨了!夫妻省吃俭用三年为孩子教育砸下30万元,高考考了420分

火山詩话
2026-07-04 16:03:24
大胆预测,一旦郭士强下课,男篮新主帅,99%在以下三人之间产生

大胆预测,一旦郭士强下课,男篮新主帅,99%在以下三人之间产生

江启
2026-07-04 16:46:56
苏群曝杜锋不再担任广东主帅,全部精力都放在粤BA上!

苏群曝杜锋不再担任广东主帅,全部精力都放在粤BA上!

篮球资讯达人
2026-07-05 13:49:10
WTT美国大满贯:男单4强出炉!日本世界冠军1:4被淘汰,黑马晋级

WTT美国大满贯:男单4强出炉!日本世界冠军1:4被淘汰,黑马晋级

国乒二三事
2026-07-05 12:50:02
2026-07-05 14:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15610文章数 66948关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

巴拉圭队门将球扔向姆巴佩:想握手祝贺 但他没理我

头条要闻

巴拉圭队门将球扔向姆巴佩:想握手祝贺 但他没理我

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

王力宏成都舞台受伤 仍然坚持三小时

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

手机
本地
教育
健康
公开课

手机要闻

苹果、小米、荣耀全部原地没动,vivo、OPPO一升一降

本地新闻

国内足球之旅?这座小城给你高分答案

教育要闻

义务教育年限要延长了吗?

听说少吃点能抗衰老?专家讲解!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版