Anthropic扔出Mythos Preview：32步网络攻击，人类要20小时|快照|网络安全|mythos|preview

Anthropic扔出Mythos Preview：32步网络攻击，人类要20小时

2026-04-14 16:00:41　来源: 爬虫饲养员

北京举报

分享至

73%的专家级CTF任务成功率，32步企业网络渗透测试3次完整通关。英国AI安全研究所（AISI）4月14日发布的这份评估报告，把Anthropic最新模型Claude Mythos Preview的网络安全能力摊在了桌上。

这不是实验室里的玩具演示。AISI从2023年开始跟踪AI网络能力，评估难度从聊天式探测一路升级到夺旗赛（CTF），再到多步骤攻击模拟。两年前顶尖模型连入门级任务都搞不定，现在Mythos Preview在受控环境下能自主发现漏洞、执行多阶段攻击——这些活儿人类专业人员得干上好几天。

夺旗赛：从0到73%的两年跃迁

CTF挑战是网络安全界的标准考题：AI需要识别目标系统弱点，找到并提取隐藏的"flag"。AISI的测试套件按难度分级，Mythos Preview在专家级任务上的成功率达到73%。

这个数字的分量在于时间线。AISI在报告里明确标注：2025年4月之前，没有任何模型能完成专家级CTF任务。Mythos Preview是第一个破局的。

但CTF有个天然局限——它测的是孤立技能。真实网络攻击需要跨多台主机、多个网段串联几十步操作，人类专家得花数小时到数周才能完成。AISI为此搭建了更复杂的考场。

"The Last Ones"：32步企业网络渗透测试

AISI把这个新测试场叫做"The Last Ones"（TLO）。场景设计很完整：从初始侦察到完全控制企业网络，共32个步骤，AISI估计人类完成需要20小时。

Mythos Preview 10次尝试中3次从头跑到尾。平均完成22步，而Claude Opus 4.6作为表现第二好的模型，平均只完成16步。

这是第一个跑通TLO全程的模型，差距不是量变是断层。

测试预算给得很足：1亿token的推理额度。AISI备注说，如果继续增加计算资源，表现还可能提升——这话放在这儿，像是给后续模型留的台阶，也像是对当前结果的保守确认。

OT环境的磕绊：Cooling Tower测试

Mythos Preview并非全线飘红。在面向运营技术（OT）的网络测试"Cooling Tower"上，模型没能完成。但AISI的措辞很谨慎：这不一定说明模型不擅长OT环境攻击，问题出在测试的IT环节卡住了。

OT指工业控制系统、电力电网、制造流水线这类关键基础设施。IT环节受阻意味着模型在常规企业网络操作里遇到了障碍，而非OT特有的技术壁垒。这个区分很重要——它划清了能力边界的位置。

评估框架本身也在进化。AISI从2023年的聊天探测起步，2024年引入CTF，2025年上线TLO这类多步骤模拟。难度迭代的速度追着模型能力提升跑，这种动态调整本身就是信号：网络AI能力的进步节奏，已经快到需要持续加码测试才能跟上。

Anthropic的发布时间线

Mythos Preview的发布日期是4月7日，AISI评估报告发布于4月14日。一周间隔，节奏紧凑。Preview版本的定位通常是功能预览+安全测试，正式版的能力边界可能还会有调整。

AISI的测试方法论有个特点：模型被"明确引导"并获得网络访问权限。这不是让AI在黑暗里摸索，而是给定目标、提供工具、观察执行。这种设计测的是"被定向后的能力上限"，而非自主发现目标的主动性。

即便如此，32步攻击链的完成度依然超出预期。人类20小时的工作压缩到模型运行时间，这个效率比本身比成功率数字更值得玩味。

报告里埋了一个未完成的句子："We expect that performance on our evaluations would continue to improve with more inference compute: we ran the cyber ranges with a 100M token budget; Mythos Preview's performance contin"——原文在这里截断，但意图很明显：1亿token不是天花板，加钱还能更强。

网络安全能力的AI化，核心矛盾从来不在"能不能做"，而在"做到什么程度需要人类介入"。Mythos Preview的测试结果显示，多步骤复杂攻击的自主执行门槛正在被快速推高。红队（攻击方）工具的智能化进度，明显跑在蓝队（防御方）自动化响应的前面。

AISI没有给出防御侧的对照数据。他们的评估聚焦模型攻击能力，这种单向测试的局限性报告本身也承认：真实场景里，攻击者要面对的是动态防御、日志审计、行为检测，而非静态靶场。

但靶场成绩的意义在于建立基准线。73%专家CTF成功率、TLO首次通关、22/32步平均进度——这些数字给后续模型提供了可比的坐标。AISI说他们会"继续构建 progressively harder evaluations"， progressively harder 这个自造词组，暗示测试难度和模型能力之间的军备竞赛已经常态化。

Claude系列的网络能力跃升有个背景：Anthropic在2024年多次强调AI安全研究，包括红队测试、模型可解释性、有害输出过滤。Mythos Preview的发布节奏和评估透明度，某种程度上是这种安全话语的延续——先让第三方机构测完，再谈能力边界。

对比其他前沿模型，OpenAI的GPT-4系列、Google的Gemini在网络安全评估上的公开数据相对零散。AISI这份报告的价值在于方法论一致性：同一套CTF套件、同一类TLO场景，可以横向对比不同代际、不同厂商模型的进步曲线。

报告末尾没有总结性判断，也没有政策建议。AISI的定位是技术评估机构，不是监管方。但数据本身会说话：当模型能在20小时人类工作量的攻击链里自主完成大部分步骤，"AI辅助网络攻击"这个概念的内涵，已经和两年前的脚本小子工具不在一个维度。

Mythos Preview目前还是Preview版本。正式版的能力调整方向、安全限制加固程度、API开放策略，这些变量还没落定。AISI的评估是快照，不是预言。

但快照已经够清晰了。网络攻防的自动化水平正在经历一次结构性抬升，而测试机构被迫用" progressively harder "的方式追赶——这个动态本身，可能比任何单一数字都更能说明问题。

如果1亿token预算下的表现只是起点，那么当推理计算继续加码，下一个版本的通关率会停在多少？AISI在报告截断处留下的那个"contin"，是留给读者的开放式接口。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.