网易首页 > 网易号 > 正文 申请入驻

Anthropic扔出Mythos Preview:32步网络攻击,人类要20小时

0
分享至


73%的专家级CTF任务成功率,32步企业网络渗透测试3次完整通关。英国AI安全研究所(AISI)4月14日发布的这份评估报告,把Anthropic最新模型Claude Mythos Preview的网络安全能力摊在了桌上。

这不是实验室里的玩具演示。AISI从2023年开始跟踪AI网络能力,评估难度从聊天式探测一路升级到夺旗赛(CTF),再到多步骤攻击模拟。两年前顶尖模型连入门级任务都搞不定,现在Mythos Preview在受控环境下能自主发现漏洞、执行多阶段攻击——这些活儿人类专业人员得干上好几天。

夺旗赛:从0到73%的两年跃迁

CTF挑战是网络安全界的标准考题:AI需要识别目标系统弱点,找到并提取隐藏的"flag"。AISI的测试套件按难度分级,Mythos Preview在专家级任务上的成功率达到73%。

这个数字的分量在于时间线。AISI在报告里明确标注:2025年4月之前,没有任何模型能完成专家级CTF任务。Mythos Preview是第一个破局的。

但CTF有个天然局限——它测的是孤立技能。真实网络攻击需要跨多台主机、多个网段串联几十步操作,人类专家得花数小时到数周才能完成。AISI为此搭建了更复杂的考场。

"The Last Ones":32步企业网络渗透测试

AISI把这个新测试场叫做"The Last Ones"(TLO)。场景设计很完整:从初始侦察到完全控制企业网络,共32个步骤,AISI估计人类完成需要20小时。

Mythos Preview 10次尝试中3次从头跑到尾。平均完成22步,而Claude Opus 4.6作为表现第二好的模型,平均只完成16步。

这是第一个跑通TLO全程的模型,差距不是量变是断层。

测试预算给得很足:1亿token的推理额度。AISI备注说,如果继续增加计算资源,表现还可能提升——这话放在这儿,像是给后续模型留的台阶,也像是对当前结果的保守确认。

OT环境的磕绊:Cooling Tower测试

Mythos Preview并非全线飘红。在面向运营技术(OT)的网络测试"Cooling Tower"上,模型没能完成。但AISI的措辞很谨慎:这不一定说明模型不擅长OT环境攻击,问题出在测试的IT环节卡住了。

OT指工业控制系统、电力电网、制造流水线这类关键基础设施。IT环节受阻意味着模型在常规企业网络操作里遇到了障碍,而非OT特有的技术壁垒。这个区分很重要——它划清了能力边界的位置。

评估框架本身也在进化。AISI从2023年的聊天探测起步,2024年引入CTF,2025年上线TLO这类多步骤模拟。难度迭代的速度追着模型能力提升跑,这种动态调整本身就是信号:网络AI能力的进步节奏,已经快到需要持续加码测试才能跟上。

Anthropic的发布时间线

Mythos Preview的发布日期是4月7日,AISI评估报告发布于4月14日。一周间隔,节奏紧凑。Preview版本的定位通常是功能预览+安全测试,正式版的能力边界可能还会有调整。

AISI的测试方法论有个特点:模型被"明确引导"并获得网络访问权限。这不是让AI在黑暗里摸索,而是给定目标、提供工具、观察执行。这种设计测的是"被定向后的能力上限",而非自主发现目标的主动性。

即便如此,32步攻击链的完成度依然超出预期。人类20小时的工作压缩到模型运行时间,这个效率比本身比成功率数字更值得玩味。

报告里埋了一个未完成的句子:"We expect that performance on our evaluations would continue to improve with more inference compute: we ran the cyber ranges with a 100M token budget; Mythos Preview's performance contin"——原文在这里截断,但意图很明显:1亿token不是天花板,加钱还能更强。

网络安全能力的AI化,核心矛盾从来不在"能不能做",而在"做到什么程度需要人类介入"。Mythos Preview的测试结果显示,多步骤复杂攻击的自主执行门槛正在被快速推高。红队(攻击方)工具的智能化进度,明显跑在蓝队(防御方)自动化响应的前面。

AISI没有给出防御侧的对照数据。他们的评估聚焦模型攻击能力,这种单向测试的局限性报告本身也承认:真实场景里,攻击者要面对的是动态防御、日志审计、行为检测,而非静态靶场。

但靶场成绩的意义在于建立基准线。73%专家CTF成功率、TLO首次通关、22/32步平均进度——这些数字给后续模型提供了可比的坐标。AISI说他们会"继续构建 progressively harder evaluations", progressively harder 这个自造词组,暗示测试难度和模型能力之间的军备竞赛已经常态化。

Claude系列的网络能力跃升有个背景:Anthropic在2024年多次强调AI安全研究,包括红队测试、模型可解释性、有害输出过滤。Mythos Preview的发布节奏和评估透明度,某种程度上是这种安全话语的延续——先让第三方机构测完,再谈能力边界。

对比其他前沿模型,OpenAI的GPT-4系列、Google的Gemini在网络安全评估上的公开数据相对零散。AISI这份报告的价值在于方法论一致性:同一套CTF套件、同一类TLO场景,可以横向对比不同代际、不同厂商模型的进步曲线。

报告末尾没有总结性判断,也没有政策建议。AISI的定位是技术评估机构,不是监管方。但数据本身会说话:当模型能在20小时人类工作量的攻击链里自主完成大部分步骤,"AI辅助网络攻击"这个概念的内涵,已经和两年前的脚本小子工具不在一个维度。

Mythos Preview目前还是Preview版本。正式版的能力调整方向、安全限制加固程度、API开放策略,这些变量还没落定。AISI的评估是快照,不是预言。

但快照已经够清晰了。网络攻防的自动化水平正在经历一次结构性抬升,而测试机构被迫用" progressively harder "的方式追赶——这个动态本身,可能比任何单一数字都更能说明问题。

如果1亿token预算下的表现只是起点,那么当推理计算继续加码,下一个版本的通关率会停在多少?AISI在报告截断处留下的那个"contin",是留给读者的开放式接口。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
快手震怒,大批网红被永久封杀

快手震怒,大批网红被永久封杀

新浪财经
2026-04-19 19:46:47
蒋介石去世前镜头:出席孙子婚礼无法站立,双手被胶带绑在椅子上

蒋介石去世前镜头:出席孙子婚礼无法站立,双手被胶带绑在椅子上

芊芊子吟
2026-03-29 06:40:06
突发!日本7.4级地震

突发!日本7.4级地震

中吴网
2026-04-20 16:19:39
大幅降薪?波尔津吉斯未承诺留在勇士效力:今夏将成完全自由球员

大幅降薪?波尔津吉斯未承诺留在勇士效力:今夏将成完全自由球员

罗说NBA
2026-04-20 04:46:16
一次电梯偶遇让广东千万身家老板一夜之间倾家荡产,每月靠借钱维生,不敢把真相告诉女儿

一次电梯偶遇让广东千万身家老板一夜之间倾家荡产,每月靠借钱维生,不敢把真相告诉女儿

环球网资讯
2026-04-19 07:47:19
不结婚怎么解决生理需求?33岁的女顶流杨紫,用六个字道破真相!

不结婚怎么解决生理需求?33岁的女顶流杨紫,用六个字道破真相!

丁丁鲤史纪
2026-03-08 16:53:30
世上没有后悔药!下半身"贪婪"的任素汐,现状印证王菲评价

世上没有后悔药!下半身"贪婪"的任素汐,现状印证王菲评价

秋姐居
2026-02-27 17:16:02
珠海家长:自家孩子趴桌睡,凭啥先给别人捐躺椅?官方回应

珠海家长:自家孩子趴桌睡,凭啥先给别人捐躺椅?官方回应

南方都市报
2026-04-17 15:48:13
阿联酋效率惊人,刚访华回来,高调表态:上万亿真金白银押注中国

阿联酋效率惊人,刚访华回来,高调表态:上万亿真金白银押注中国

斜烟风起雨未
2026-04-20 15:01:33
突发!4月19日清晨导弹突袭朝鲜突然亮剑,日本反华狂欢当场破防

突发!4月19日清晨导弹突袭朝鲜突然亮剑,日本反华狂欢当场破防

谛听骨语本尊
2026-04-20 14:52:17
和刘翔离婚后,她离开上海,和母亲相依为命,如今35岁仍是单身

和刘翔离婚后,她离开上海,和母亲相依为命,如今35岁仍是单身

洲洲影视娱评
2026-04-13 18:38:15
突发!南京东南向关键地铁又爆新消息!

突发!南京东南向关键地铁又爆新消息!

南京买房惠
2026-04-20 10:11:06
太可怕了!继注射药物、热巴事件后,王阳再揭娱乐圈最脏的一面

太可怕了!继注射药物、热巴事件后,王阳再揭娱乐圈最脏的一面

橙星文娱
2026-04-17 13:19:56
一吃心脏好,二吃睡得香,建议中老年,春天使劲吃,别不懂

一吃心脏好,二吃睡得香,建议中老年,春天使劲吃,别不懂

刘哥谈体育
2026-04-20 05:43:14
不辞职就开除!特朗普彻底摊牌:必须卷铺盖走人,鲍威尔退无可退

不辞职就开除!特朗普彻底摊牌:必须卷铺盖走人,鲍威尔退无可退

佳佳说奇事故事
2026-04-20 15:28:41
买对了!4200万抢下“新德布劳内”,助瓜迪奥拉击败阿森纳

买对了!4200万抢下“新德布劳内”,助瓜迪奥拉击败阿森纳

里芃芃体育
2026-04-20 11:15:21
中国疯狂买大豆爆仓,商家灵机一动:榨油卖给印度换钱

中国疯狂买大豆爆仓,商家灵机一动:榨油卖给印度换钱

说宇宙
2026-04-19 12:10:03
不是迷信!今日谷雨,白天3禁忌,晚上2注意,别忘告诉家人

不是迷信!今日谷雨,白天3禁忌,晚上2注意,别忘告诉家人

云景侃记
2026-04-20 11:40:17
Opta超级计算机统计英超最新夺冠概率:阿森纳73%,曼城27%

Opta超级计算机统计英超最新夺冠概率:阿森纳73%,曼城27%

懂球帝
2026-04-20 02:30:55
舒淇不再隐瞒!多年无子的她终于承认:我们不是丁克,是生不出来

舒淇不再隐瞒!多年无子的她终于承认:我们不是丁克,是生不出来

长歌侃娱
2026-04-19 09:54:43
2026-04-20 16:40:50
爬虫饲养员
爬虫饲养员
业余养了只叫“龙虾”的AI爬虫,主业是给互联网打工。
1562文章数 14关注度
往期回顾 全部

科技要闻

抛弃OpenAI,Anthropic为何成中国AI新偶像

头条要闻

美方在霍尔木兹扣押一艘中国驶来伊朗货船 外交部回应

头条要闻

美方在霍尔木兹扣押一艘中国驶来伊朗货船 外交部回应

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

鹿晗生日上热搜,被关晓彤撕下体面

财经要闻

月之暗面IPO迷局

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

健康
教育
亲子
时尚
军事航空

干细胞抗衰4大误区,90%的人都中招

教育要闻

1952年高考题,15,21,33,39,第5个是什么数字?

亲子要闻

fsh值高怎么调理?卵泡长不大吃什么调理?

今年最流行的衣服竟然是它?高级又气质!

军事要闻

特朗普:美舰向伊朗货船开火炸出个洞

无障碍浏览 进入关怀版