网易首页 > 网易号 > 正文 申请入驻

绝了! Claude Fable5惨遭二次越狱

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道


【新智元导读】Anthropic刚把Fable 5「放出来」没几天,它就又被黑客当众扒了底裤。

Anthropic官方确认:Fable将于7月7日后暂时从订阅计划移除,但一旦容量允许,将尽快恢复为标准订阅内容。

这无疑是个好消息。


但Fable 5再次被越狱了!这已经是该模型第二次防线失守。

黑客Vitto Rivabella,公开宣布:Fable 5,又被攻破了。


要知道,Claude Fable 5恢复访问时,Anthropic特意强调:上次Fable 5被禁就是因为亚马逊的研究人员发现了一种绕过Fable 5安全防护的方法。


所以这次的安全分类器得到针对性加强。


然而,这个神话只维持了2天。

而且,Claude Sonnet 5一发布,就被越狱成功!


Fable 5能不能回归订阅套餐,或许成了一个问题。

72小时,Fable 5神话破灭

Fable 5的神话,在诞生后的第72小时就破灭了。

6月9日发布时,Anthropic曾傲慢地宣称:经过1000小时的外部压力测试,Fable 5没有任何通用越狱方法。

然而,知名黑客「解放者普林尼」(Pliny the Liberator)只用了三天,就让Fable 5像漏勺一样,吐出了违禁化学品的制作步骤和堆栈溢出漏洞代码。


普林尼是怎么做的?他利用了人类视觉与机器逻辑之间的「时差」:

  • 字符迷魂阵:他把敏感词中的英文字母替换成西里尔字母或Unicode异形字符。人眼看着是「炸弹」,但在分类器眼里,这只是一串无意义的乱码。

  • 意图稀释:他利用Fable 5巨大的上下文窗口,把恶意意图藏在几十轮温和的学术讨论中。这就像在一百升清水里滴入一滴毒药,分类器的警觉性被彻底稀释。


7月1日,Anthropic官宣Fable 5回归,但与此同时,他们推出了业内成本最低的红队。

他们启动了一个名为「Cyber Jailbreak」的公开HackerOne项目,邀请用户报告可用于协助网络攻击的新越狱方法。


这是一个漏洞披露计划(Vulnerability Disclosure Program),而非赏金计划,不会支付任何报酬。

Anthropic将获得全球顶尖越狱高手提供的全天候对抗性测试,而桌上唯一的「货币」就是善意。

这项举措是Anthropic在Fable 5恢复后的重要安全升级,标志着从被动应对转向主动「众筹」红队,堪称行业低成本、高效率的创新尝试。

而这正是问题所在。

发现这些越狱方法的人并不会悄悄地将它们提交到某个私密邮箱。

像普林尼这样的人是不会悄无声息地越狱的。他们所做的一部分事情就是要被人看见。否则对他们来说还有什么意义呢?


Fable 5惨遭二次越狱

Fable 5又被越狱了。这已经是它第二次被人撬开。

但这回的复盘,画风有点不对——因为动手的黑客,最后反手给Anthropic点了个赞。

他叫Vitto Rivabella。


熬了大约20个小时之后,他给出的结论是:这么折腾一圈,还不如打开谷歌搜一下,又快又便宜。


先把Fable 5这段坎坷捋一捋。

7月1日,它带着一套「专门针对上次漏洞加强过」的新分类器重新上线。

Anthropic这次也学乖了,顺手开了个HackerOne项目,公开邀请全球黑客来报告新的越狱方法。

然后没几天,Vitto就盯上了它。

Vitto复盘的第一句就是:大多数尝试都失败了,这模型保护得极其到位。

按他的观察,Fable 5的防御至少三层嵌套:入场检查、实时生成的「断路器」,以及内化在思维链(CoT)中的大脑防火墙。


拦截率高达90%,普通的攻击手段在它面前就像蚊子叮象。

而且这些分类器不认关键词,它认意图,还跨语言。

直接下命令?门都没有。拐着弯铺垫?也得如履薄冰——只要它嗅到一丝恶意,防线立刻归零,你得从头再来。

结果就是:90%的破解请求,直接被挡在门外。

这个数字有旁证。

意大利人工智能研究院最近专门测了Fable 5,结论几乎一样:绝大多数攻击都挡住了,一招鲜的静态套路「几乎被完全中和」,唯一还能撬开缝的,只剩肯花几十小时死磕的笨功夫。


就算闯过分类器,前面还堵着思维链这座大山——好在,关于怎么翻这座山,公开文献里已经有一大堆。

Vitto最后靠一套复杂的组合拳勉强绕了过去:字符混淆、学术化包装、超长铺垫、拆解重组,外加一点随机性。


听着唬人,但这些手法一个都不新鲜,全是红队圈公开聊了好几年的老套路。

真正难的从来不是知道这些招,而是在一个会实时反制的系统上,一遍遍试到刚好绕过去。

Vitto提到,所有防线里唯一持续薄弱的,是桑塔利语、阿姆哈拉语这类晦涩小语种。


但这条最容易被误读成「Fable留了个后门」。

恰恰相反——这不是Fable一家的漏洞,是所有大模型共有的病。

道理很简单:安全训练的语料,绝大多数是英语和其他大语种,小语种的护栏天生就薄。

这事学术界早有共识,从布朗大学到斯坦陵布什大学,一串公开论文都在敲同一记警钟。小语种不是谁家的后门,是整个AI安全的一笔历史欠账。

那费这么大劲,最后到底掏出了什么?

一堆边角料:一些错误信息、零星的有害内容、几句难听话、片段化的化学知识、轻度的漏洞信息。



没一样够得上「核心机密」。

于是就有了开头那句灵魂总结——这些东西,谷歌搜得又快又全,读文献还更深入。

Vitto自己也承认,想把这套越狱稳定用在真正的长任务上,他至今没做到。

这跟Anthropic的官方口径也对上了。

在重新上线的公告里,Anthropic把目前所有已知越狱都定性为「minor」:顶多蹭进模型故意放宽的安全边际,碰不到真正想拦死的那条红线,比如生物武器或复杂网络攻击。



完美的封印,本身就是悖论

两次越狱,两种结局。

第一次,Anthropic输在了傲慢,它试图通过「降智」来垄断技术,结果被黑客公开发布12万字的系统提示词(System Prompt)当众打脸,那是它的「行为宪法」,却被挂在GitHub上任人围观。

第二次,Anthropic输在了盲点。它以为堆叠算力和数据就能堵住恶意的出口,却忘记了语言本身就是流动的、狡黠的。

这揭示了AI安全界细思极恐的现状:

人类造出了能翻译所有语言的机器,却依然无法完全翻译人类内心的恶意。

参考资料:

https://x.com/RoundtableSpace/status/2072745872086200549?s=20

https://x.com/VittoStack/status/2072061275345985813?s=20

https://x.com/jason_haugh/status/2072293728128045154

编辑:大卫

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
印度极端高温绝非天灾,正在酝酿一场中国必须严防的巨大危机!

印度极端高温绝非天灾,正在酝酿一场中国必须严防的巨大危机!

毛豆新鲜
2026-06-08 10:40:39
超过110艘大陆军舰及海警船对第一岛链发起行动?

超过110艘大陆军舰及海警船对第一岛链发起行动?

小马姨
2026-07-05 20:18:59
世界杯非点球大战失点,吉马良斯是自1986年以来巴西第一人

世界杯非点球大战失点,吉马良斯是自1986年以来巴西第一人

懂球帝
2026-07-06 04:32:06
人民日报头版反复点名南京

人民日报头版反复点名南京

新浪财经
2026-07-05 11:54:36
勒克莱尔乱中夺魁,安东内利故障让出榜首

勒克莱尔乱中夺魁,安东内利故障让出榜首

赛场名场面
2026-07-06 00:04:13
米罗揭秘手指受伤真因:弟弟出车祸导致深深自责 一拳砸向皮卡车

米罗揭秘手指受伤真因:弟弟出车祸导致深深自责 一拳砸向皮卡车

罗说NBA
2026-07-05 21:52:46
左氧氟沙星立大功!研究发现:老人吃左氧氟沙星,或缓解5种症状

左氧氟沙星立大功!研究发现:老人吃左氧氟沙星,或缓解5种症状

医学科普汇
2026-06-30 19:20:05
没有退路的下午两点!中国男篮世预赛生死战对阵台北,输了直接回家

没有退路的下午两点!中国男篮世预赛生死战对阵台北,输了直接回家

林子说事
2026-07-06 02:45:23
汉密尔顿赛后遭传唤,坦言英国站领奖台不保

汉密尔顿赛后遭传唤,坦言英国站领奖台不保

星河漫山野
2026-07-06 00:37:06
佛得角门神沃齐尼亚父母赴美观赛:温州商人帮他们如愿

佛得角门神沃齐尼亚父母赴美观赛:温州商人帮他们如愿

海右那人
2026-07-04 16:13:07
共救11个赛点!蒯曼不可思议一战,赛后道出3点获胜秘籍,没包袱

共救11个赛点!蒯曼不可思议一战,赛后道出3点获胜秘籍,没包袱

帛河体育
2026-07-05 14:39:12
张雪机车销量翻了三倍,日媒关注:中国机车对日反向输出

张雪机车销量翻了三倍,日媒关注:中国机车对日反向输出

鲁中晨报
2026-07-05 17:54:03
“苻坚”,别读“fù jiàn”!正确读音深度解析

“苻坚”,别读“fù jiàn”!正确读音深度解析

语丝纪
2026-07-06 02:06:49
身家亿万的全球最贵影后,却只能看着一生挚爱死在眼前

身家亿万的全球最贵影后,却只能看着一生挚爱死在眼前

英国那些事儿
2026-07-05 22:59:19
网飞王牌犯罪剧正式完结,主创确认再无续作

网飞王牌犯罪剧正式完结,主创确认再无续作

时光慢旅人
2026-07-06 01:12:59
中国人民大学的回应客观、可信,蒋方舟应当向人大公开道歉

中国人民大学的回应客观、可信,蒋方舟应当向人大公开道歉

谭浩俊
2026-07-05 23:17:16
这5部女神为艺术献身的佳作,部部值得反复刷,错过真的要可惜

这5部女神为艺术献身的佳作,部部值得反复刷,错过真的要可惜

小微看电影
2026-07-05 12:20:18
管不住下半身,唱再好也没用!演唱会刚结束,任素汐就被扒光体面

管不住下半身,唱再好也没用!演唱会刚结束,任素汐就被扒光体面

调侃国际观点
2026-07-04 21:22:25
赖清德亲自下手,第一名蒋万安,第二名郑丽文,卢、韩轻松躲过

赖清德亲自下手,第一名蒋万安,第二名郑丽文,卢、韩轻松躲过

兰妮搞笑分享
2026-07-05 21:03:42
江姐的后代过得如何?孙子从哈佛大学毕业,娶了奶奶战友的孙女

江姐的后代过得如何?孙子从哈佛大学毕业,娶了奶奶战友的孙女

历史龙元阁
2026-07-05 13:00:14
2026-07-06 06:12:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3920159文章数 8588关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

白宫致电FIFA后美国队球员获“特赦” 特朗普表态

头条要闻

白宫致电FIFA后美国队球员获“特赦” 特朗普表态

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

本地
亲子
艺术
公开课
军事航空

本地新闻

国内足球之旅?这座小城给你高分答案

亲子要闻

工程车爱游泳

艺术要闻

伊朗超高层方案惊艳世界,曾获国际大奖!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京与特朗普通话85分钟 细节公布

无障碍浏览 进入关怀版