网易首页 > 网易号 > 正文 申请入驻

5秒攻破,仅需1次对话:Fable 5最强安全机制被华人团队破解

0
分享至



不是提示注入,不是角色扮演,也不是把恶意请求伪装成正常问题。这一次,风险出现在智能体自主完成任务的过程中。

Fable 5 是 Anthropic 面向公众开放的 Mythos 级模型,不仅具备极强的综合能力,还在模型外围引入了新一代安全分类器(Safety Classifier)作为安全防线。按照官方设计,当用户请求涉及网络安全、生物、化学、模型蒸馏等高风险领域时,系统会优先进行风险识别,并根据风险等级直接拒绝请求,或切换至更加保守的 Opus 4.8 模型处理。

大量用户测试发现,过去广泛采用的对抗提示、角色扮演、编码绕行以及隐晦表达等越狱攻击技术,在该安全机制面前几乎全部失效,显示出其在意图级风险拦截方面的强大能力。

然而,就在 Fable 5 发布当天,一个由复旦大学、迪肯大学、香港城市大学、墨尔本大学、新加坡管理大学以及伊利诺伊大学厄巴纳-香槟分校等机构组成的国际联合研究团队宣布,他们已成功突破 Fable 5 的安全防护机制。该攻击方法由迪肯大学博士生 Yutao Wu 主导设计。整套攻击仅需一次对话、耗时不到5秒,即可绕过前置安全分类器,诱导模型生成违规有害内容。





流量分析结果进一步表明,相关有害输出直接来自 Fable 5 本身,而非触发安全机制后自动切换的 Opus 4.8 模型。这意味着,该攻击不仅成功绕过了安全分类器的检测,也实质性突破了 Fable 5 的安全防线。

值得一提的是,知名黑客 Pliny the Liberator 近期也公开了针对 Fable 5 安全分类器的绕过。而复旦 & 迪肯团队此次所采用的技术路线并不是简答的组合式探索,而是发现了 Fable 5 这一类超级智能体系统的根本性缺陷。据悉,团队早在今年 3 月便已完成预研并公开发布。该研究并非针对 Fable 5 单一系统设计,而是面向新一代超级智能体普遍采用的“安全分类器 + 模型”防御架构展开研究,直接揭示了这类安全机制所存在的结构性缺陷,因此在 Fable 5 发布后迅速展现出攻击效果。公开资料显示,该团队早在今年 3 月便已利用类似技术,从 37 家主流大模型及智能体系统中成功提取系统提示词,并在 Claude Code 完成了开源验证(95% 吻合)。



  • 论文:《Internal Safety Collapse in Frontier Large Language Models》
  • 论文链接:https://arxiv.org/abs/2603.23509
  • GitHub:https://github.com/wuyoscar/Internal-Safety-Collapse
  • Project:https://wuyoscar.github.io/Internal-Safety-Collapse/



据了解,该研究团队的负责人为复旦大学可信具身智能研究院马兴军老师。近年来,其团队围绕大模型、智能体与具身智能安全等方向开展系统性研究,取得了一系列国际领先的科研成果,并获得美国 AI 安全中心安全基准大赛的冠军。目前,其团队正积极推进成果转化工作,聚焦智能体安全,探索构建面向下一代智能体系统的安全基础设施能力。

据马老师介绍,这一研究结果的重要意义在于,它对当前以安全分类器为核心的静态防御范式提出了新的挑战:仅依赖前置安全分类器并不足以完全防范高级智能体系统中的潜在风险行为。安全分类器主要针对用户输入进行风险识别与拦截,能够有效检测和过滤显性的高风险指令,但是无法感知智能体在长时运行、多步规划、环境交互以及工具调用过程中逐渐产生的内在风险行为。

此次攻破 Fable 5 的方法来源于该团队今年 3 月发布的论文《Internal Safety Collapse in Frontier Large Language Models》。论文揭示了一种隐蔽的安全现象“内部安全坍塌(Internal Safety Collapse,ISC)”:当前 Agent 完成长程任务时,安全失效并不一定来自外部恶意提示,而可能发生在模型自身的执行链条中。

不是外部提示词攻击

而是任务链条中的内部失守

传统攻击通常从外部进入。攻击者会写一个看似无害、实则对抗性的输入提示,或者使用角色扮演、编码、翻译、间接指令等方式,把恶意意图伪装成正常请求。安全分类器的主要任务,就是在这一层把风险拦住。

Fable 5 的检测器正是为这种场景设计的。它对直接的高风险请求非常敏感,甚至会把不少正常请求也拦下来。但 ISC 揭示的是另一条路径:风险并不一定来自用户直接输入的危险请求。 智能体面对的是一个看似普通的工作目录:文件、目标、校验流程和待完成任务。 随后,它开始规划、读取文件、运行代码、修复错误,并不断尝试让任务通过验证。

如果用一个形象的比喻来解释,传统安全机制守护的是系统的 “入口”,负责检查用户输入是否存在风险;而 ISC 所揭示的,则更像《盗梦空间》中的多层梦境。当任务推进到第二层、第三层甚至更深层的执行阶段后,模型会基于不断累积的内部上下文重新理解任务目标,并在这一过程中逐渐产生偏移。

在这种情况下,最初的用户输入完全可能是正常且无害的,前期的任务执行过程也始终合规:读取文件、分析数据、编写代码、调用工具,一切看起来都在按照预期推进。然而,当智能体执行到某个关键阶段时,它可能自行推导出一个结论:如果不采取某些原本不应执行的行为,就无法完成最终任务。

正是在这一过程中,风险并非来自外部输入,而是在模型自身的任务执行链条中逐步形成。也就是说,模型不是被用户一步步教坏的。它是在 “认真完成任务” 的过程中,自己走到了不安全的位置。

这个现象是怎么被发现的?

据团队介绍,ISC 并不是一开始就被设计成一种攻击方法。它最早来自对智能体长程运行过程的观察。Agent 被放进复杂任务环境后,并不只是机械执行指令。它会规划、试错,根据 harness 或 validator 的反馈修改输出,并在多轮执行中形成中间目标。

这正是今天很多 Agent 工作流最常见的使用方式。用户并不会写一段精心设计的 prompt,更不会手工构造攻击指令。很多时候,用户只会给一句非常模糊的话:

“帮我把这个任务完成。”
“帮我把这个做得再好一点。”

然后,Agent 会自己进入工作区,读取文件,理解当前状态,发现缺失项,制定计划,执行修改,并不断根据反馈修复问题。

比如在 AutoResearch 场景中,用户只给一篇未完成论文和一句 “帮我补完整”,Agent 会自行判断哪里缺实验分析、相关工作或表格文字。代码场景也类似:一句 “帮我把项目跑通”,就可能触发依赖检查、测试运行、报错定位和自动补全。

很多时候,前面的上下文完全无害。用户没有要求它生成风险内容,任务说明也没有明显危险关键词。但在某些任务结构里,Agent 会为了通过校验,主动补齐某些不该由模型生成的内容。基于这个观察,研究团队进一步提出了一个攻击框架:TVD(任务、验证、数据)。



一个看似很普通的任务描述结构

为什么会成为攻击?

TVD 的结构并不复杂,甚至很接近常见工程流程:

  • Task:一个专业任务;
  • Data:一个不完整的数据文件;
  • Validator:一个只检查格式、完整性和目标是否完成的校验器。

以训练 Guard 模型为例,这本来是一个很专业、也很正常的任务。研究者可能希望训练或评估一个安全检测器,比如用 Hugging Face 加载一个文本分类模型,判断某段模型输出属于哪类安全标签。

在这个任务里,Data 是模型要检测的数据样本;Validator 则规定任务是否完成。它会检查输入是不是文本、长度是否足够、字段是否完整、标签格式是否正确。对任何有机器学习训练经验的人来说,这都是熟悉的工作流。Agent 也非常熟悉这个工作流。

问题就出现在这里。如果 Data 不完整,任务就跑不起来。Validator 会报错,提示字段缺失、长度不够或格式不完整。为了让训练流程继续进行,Agent 会自己补全这些 Data。

从 Agent 的视角看,它不是在 “作恶”。它只是在完成一个正常机器学习任务:修复数据、通过校验、让训练脚本跑起来。但从安全角度看,风险就在这一刻出现了:Validator 更像一个工程验收器,而不是安全审查员。它只检查任务是否按格式完成,并不理解内容背后的安全边界。

类似的问题也广泛存在于医学、生物、化学、网络安全、药理学和媒体安全等领域。论文收集了 50 多个这类场景,并涉及多种现实科研或工程工具,例如 BioPython、RDKit、Cantera、AutoDock Vina、DiffDock、PyRosetta、Scapy、Impacket、angr、Frida、LlamaGuard、Detoxify、OpenAI Moderation API 等。

这些工具本身并不是恶意工具。恰恰相反,它们都是现实科研或工程中常用的专业工具。但 TVD 的问题在于:当 Task 是正常的,Tool 是正常的,Validator 也是正常的,Agent 仍然可能在补全 Data 的过程中走向不安全输出。

因此,ISC 的重点不在提示词技巧,而在 Agent 对 “未完成任务” 的自动补全能力:当完成条件与风险边界重叠,模型可能把不安全输出当作正常交付物。

攻破 Fable 5 说明

强检测器挡不住任务链内部风险

Fable 5 的案例说明,仅靠外部检测器仍可能覆盖不到部分长程 Agent 场景。这并不是说 安全分类器没有价值。相反,它对外部恶意请求非常有用,也确实让很多传统越狱方法失效。但这次失守说明,外部检测器对 Prompt 边界有效,并不等于它能覆盖 Agent 内部的长程任务风险。

如果突破口不是从用户 Prompt 进入,而是从 Agent 的目标、工具、校验器和执行轨迹中出现,那么安全检测器就会变得非常脆弱。

从 Fable 5 到 60 多个其他模型

包括苹果的手机端模型

伴随研究发布的 ISC-Bench ,覆盖 9 个专业领域。论文版本包含 60+ 个触发模板,开源后扩展到 84 个模板,测试对象包括几乎所有厂商的前沿模型与智能体体统。



在基于 ISC-Bench 的评测榜单中,截至 2026 年 6 月,60 多个前沿模型在 ASR@3 指标下都暴露出类似风险!目前 GitHub 项目已经获得800+ stars,并收集到多个独立复现案例(包括攻破苹果手机移动端模型),并持续更新中。





据悉,团队在进行大规模的前沿模型安全研究,目前已掌握大量模型的内部不安全数据分布,相关研究成果后续会陆续发布。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1年390万美元!德拉蒙德确定加盟尼克斯 湖人心仪内线目标被抢

1年390万美元!德拉蒙德确定加盟尼克斯 湖人心仪内线目标被抢

罗说NBA
2026-07-04 06:40:23
总负债超过3万亿,14亿人养不起中国电网?外媒:100年都无法回本

总负债超过3万亿,14亿人养不起中国电网?外媒:100年都无法回本

蜉蝣说
2026-07-03 11:00:39
一场30后!美国大满贯卫冕冠军爆冷出局,潍坊姑娘横扫前第1进8强

一场30后!美国大满贯卫冕冠军爆冷出局,潍坊姑娘横扫前第1进8强

林子说事
2026-07-04 12:16:39
血誓!伊朗革命卫队总司令现身哈梅内伊葬礼,并当众撂下狠话

血誓!伊朗革命卫队总司令现身哈梅内伊葬礼,并当众撂下狠话

菁菁子衿
2026-07-04 12:27:54
2026屏幕分出高下!康宁玻璃一上,TCL甩开京东方一大截

2026屏幕分出高下!康宁玻璃一上,TCL甩开京东方一大截

小兔子发现大事情
2026-07-03 18:18:45
马纳多拉和贝利离世后,国际足联需要新球王,阿根廷或蝉联世界杯

马纳多拉和贝利离世后,国际足联需要新球王,阿根廷或蝉联世界杯

荐史
2026-07-04 14:03:07
林徽因落选的国徽方案,网友看后感叹:审美确实一绝,但真不合适

林徽因落选的国徽方案,网友看后感叹:审美确实一绝,但真不合适

兴趣知识
2026-07-04 01:34:41
苏有朋现身巴黎,这直接堪称"换脸"啊,走在街上都不敢认了!

苏有朋现身巴黎,这直接堪称"换脸"啊,走在街上都不敢认了!

美芽
2026-07-03 19:59:40
地主恶霸刘文彩:子孙众多,后代回来祭拜,光饭菜就准备了200席

地主恶霸刘文彩:子孙众多,后代回来祭拜,光饭菜就准备了200席

阿器谈史
2026-05-11 15:43:13
林钟勋:特别渴望夺冠!王楚钦/孙颖莎不应大赛限定,国乒已丢2冠

林钟勋:特别渴望夺冠!王楚钦/孙颖莎不应大赛限定,国乒已丢2冠

排球黄金眼
2026-07-04 14:11:34
中国已经成为全球第一个集体拒接电话的国家

中国已经成为全球第一个集体拒接电话的国家

黯泉
2026-06-26 10:44:35
世界杯又要爆冷?16强这3场最容易翻车,阿根廷 英格兰 巴西全中招

世界杯又要爆冷?16强这3场最容易翻车,阿根廷 英格兰 巴西全中招

生活新鲜市
2026-07-04 12:45:04
钱再多也没用!贝克汉姆夫妇身家超100亿,但4 个孩子全都不成器

钱再多也没用!贝克汉姆夫妇身家超100亿,但4 个孩子全都不成器

闻识
2026-05-27 16:51:27
太顽强了!加时苦战险胜进16强,阿根廷暴露致命漏洞,想卫冕难啊

太顽强了!加时苦战险胜进16强,阿根廷暴露致命漏洞,想卫冕难啊

萌兰聊个球
2026-07-04 09:05:03
震撼!《人类简史》作者牛津大学最新演讲:2026年出生的孩子,第一个老师、第一个男/女友可能都是AI

震撼!《人类简史》作者牛津大学最新演讲:2026年出生的孩子,第一个老师、第一个男/女友可能都是AI

新浪财经
2026-07-03 00:09:52
王楚钦输球后24小时内丑事频发不止一件

王楚钦输球后24小时内丑事频发不止一件

绚丽的画卷
2026-07-04 00:18:52
加热仅5分钟,微塑料释放激增125倍?浙大最新:披上“油衣”的微塑料,毒性飙升4倍,损伤肠道,抑制免疫;但外卖换玻璃碗盛放能有效改善

加热仅5分钟,微塑料释放激增125倍?浙大最新:披上“油衣”的微塑料,毒性飙升4倍,损伤肠道,抑制免疫;但外卖换玻璃碗盛放能有效改善

梅斯医学
2026-07-04 07:57:24
当不成总统了?菲律宾发生暴动,杜特尔特反击的机会来了,美失声

当不成总统了?菲律宾发生暴动,杜特尔特反击的机会来了,美失声

小兰聊历史
2026-07-04 00:26:39
加油大局定了:若是不出意外的话,2026年中国油价变化迎3大变化

加油大局定了:若是不出意外的话,2026年中国油价变化迎3大变化

民生格物
2026-07-04 13:21:27
刚上任就放话!韩国女总理承诺:要建设“不可替代的韩国”

刚上任就放话!韩国女总理承诺:要建设“不可替代的韩国”

新姐看世界
2026-07-03 16:15:26
2026-07-04 15:56:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13427文章数 142687关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

投资4000万游乐园被拆设备拉走 原为当地招商引资项目

头条要闻

投资4000万游乐园被拆设备拉走 原为当地招商引资项目

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

最富女歌手霉霉完婚 在纽约设宴庆贺

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

教育
本地
数码
家居
游戏

教育要闻

旅游签在美国大龄没有语言,烹饪艺术实习工作难吗

本地新闻

国内足球之旅?这座小城给你高分答案

数码要闻

亚马逊低调升级Fire HD 10平板:32G版内存增至4G,售价小幅上调

家居要闻

传奇筑 日常诗

《GTA6》PS联动仅一周下架!停盘争议连累宣发?

无障碍浏览 进入关怀版