![]()
73%的专家级CTF任务成功率,32步企业网络渗透测试3次完整通关。英国AI安全研究所(AISI)4月14日发布的这份评估报告,把Anthropic最新模型Claude Mythos Preview的网络安全能力摊在了桌上。
这不是实验室里的玩具演示。AISI从2023年开始跟踪AI网络能力,评估难度从聊天式探测一路升级到夺旗赛(CTF),再到多步骤攻击模拟。两年前顶尖模型连入门级任务都搞不定,现在Mythos Preview在受控环境下能自主发现漏洞、执行多阶段攻击——这些活儿人类专业人员得干上好几天。
夺旗赛:从0到73%的两年跃迁
CTF挑战是网络安全界的标准考题:AI需要识别目标系统弱点,找到并提取隐藏的"flag"。AISI的测试套件按难度分级,Mythos Preview在专家级任务上的成功率达到73%。
这个数字的分量在于时间线。AISI在报告里明确标注:2025年4月之前,没有任何模型能完成专家级CTF任务。Mythos Preview是第一个破局的。
但CTF有个天然局限——它测的是孤立技能。真实网络攻击需要跨多台主机、多个网段串联几十步操作,人类专家得花数小时到数周才能完成。AISI为此搭建了更复杂的考场。
"The Last Ones":32步企业网络渗透测试
AISI把这个新测试场叫做"The Last Ones"(TLO)。场景设计很完整:从初始侦察到完全控制企业网络,共32个步骤,AISI估计人类完成需要20小时。
Mythos Preview 10次尝试中3次从头跑到尾。平均完成22步,而Claude Opus 4.6作为表现第二好的模型,平均只完成16步。
这是第一个跑通TLO全程的模型,差距不是量变是断层。
测试预算给得很足:1亿token的推理额度。AISI备注说,如果继续增加计算资源,表现还可能提升——这话放在这儿,像是给后续模型留的台阶,也像是对当前结果的保守确认。
OT环境的磕绊:Cooling Tower测试
Mythos Preview并非全线飘红。在面向运营技术(OT)的网络测试"Cooling Tower"上,模型没能完成。但AISI的措辞很谨慎:这不一定说明模型不擅长OT环境攻击,问题出在测试的IT环节卡住了。
OT指工业控制系统、电力电网、制造流水线这类关键基础设施。IT环节受阻意味着模型在常规企业网络操作里遇到了障碍,而非OT特有的技术壁垒。这个区分很重要——它划清了能力边界的位置。
评估框架本身也在进化。AISI从2023年的聊天探测起步,2024年引入CTF,2025年上线TLO这类多步骤模拟。难度迭代的速度追着模型能力提升跑,这种动态调整本身就是信号:网络AI能力的进步节奏,已经快到需要持续加码测试才能跟上。
Anthropic的发布时间线
Mythos Preview的发布日期是4月7日,AISI评估报告发布于4月14日。一周间隔,节奏紧凑。Preview版本的定位通常是功能预览+安全测试,正式版的能力边界可能还会有调整。
AISI的测试方法论有个特点:模型被"明确引导"并获得网络访问权限。这不是让AI在黑暗里摸索,而是给定目标、提供工具、观察执行。这种设计测的是"被定向后的能力上限",而非自主发现目标的主动性。
即便如此,32步攻击链的完成度依然超出预期。人类20小时的工作压缩到模型运行时间,这个效率比本身比成功率数字更值得玩味。
报告里埋了一个未完成的句子:"We expect that performance on our evaluations would continue to improve with more inference compute: we ran the cyber ranges with a 100M token budget; Mythos Preview's performance contin"——原文在这里截断,但意图很明显:1亿token不是天花板,加钱还能更强。
网络安全能力的AI化,核心矛盾从来不在"能不能做",而在"做到什么程度需要人类介入"。Mythos Preview的测试结果显示,多步骤复杂攻击的自主执行门槛正在被快速推高。红队(攻击方)工具的智能化进度,明显跑在蓝队(防御方)自动化响应的前面。
AISI没有给出防御侧的对照数据。他们的评估聚焦模型攻击能力,这种单向测试的局限性报告本身也承认:真实场景里,攻击者要面对的是动态防御、日志审计、行为检测,而非静态靶场。
但靶场成绩的意义在于建立基准线。73%专家CTF成功率、TLO首次通关、22/32步平均进度——这些数字给后续模型提供了可比的坐标。AISI说他们会"继续构建 progressively harder evaluations", progressively harder 这个自造词组,暗示测试难度和模型能力之间的军备竞赛已经常态化。
Claude系列的网络能力跃升有个背景:Anthropic在2024年多次强调AI安全研究,包括红队测试、模型可解释性、有害输出过滤。Mythos Preview的发布节奏和评估透明度,某种程度上是这种安全话语的延续——先让第三方机构测完,再谈能力边界。
对比其他前沿模型,OpenAI的GPT-4系列、Google的Gemini在网络安全评估上的公开数据相对零散。AISI这份报告的价值在于方法论一致性:同一套CTF套件、同一类TLO场景,可以横向对比不同代际、不同厂商模型的进步曲线。
报告末尾没有总结性判断,也没有政策建议。AISI的定位是技术评估机构,不是监管方。但数据本身会说话:当模型能在20小时人类工作量的攻击链里自主完成大部分步骤,"AI辅助网络攻击"这个概念的内涵,已经和两年前的脚本小子工具不在一个维度。
Mythos Preview目前还是Preview版本。正式版的能力调整方向、安全限制加固程度、API开放策略,这些变量还没落定。AISI的评估是快照,不是预言。
但快照已经够清晰了。网络攻防的自动化水平正在经历一次结构性抬升,而测试机构被迫用" progressively harder "的方式追赶——这个动态本身,可能比任何单一数字都更能说明问题。
如果1亿token预算下的表现只是起点,那么当推理计算继续加码,下一个版本的通关率会停在多少?AISI在报告截断处留下的那个"contin",是留给读者的开放式接口。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.