网易首页 > 网易号 > 正文 申请入驻

Cyber天花板被打穿!AISI实测Mythos能力正以4.5月翻倍速冲向ASI

0
分享至


新智元报道

编辑:定慧 大卫

【新智元导读】英国AI安全研究所(AISI)昨天扔下重磅炸弹:Mythos在模拟企业内网32步渗透任务中10次过6,GPT-5.5也跟着10次过3,连此前所有模型都没破过的Cooling Tower靶场都被首次攻破!更炸的是——Cyber能力翻倍周期一路压到4.5个月,瓶颈不是智力,是Token。这场ASI决赛,人类评测已经追不上AI了。

AI模型的网络攻防能力发展有多快?

昨天,英国AI安全研究所(AISI)发了一篇博客。

他们实测了Anthropic的Mythos和OpenAI的GPT-5.5。

发现这些模型的网络攻防能力4.5月就能翻一倍,加速冲向ASI!


一句话:前沿AI模型的自主网络攻击能力正在超级加速,翻倍周期已经从几年、几个月压到4.5个月。

实际上,我们离想象中的天网并不遥远。


Anthropic的前沿红队负责人Logan Graham也指出:

Claude Mythos预览版在自主网络安全能力上实现了阶跃式突破。

我们需要迅速为具备这种能力水平的模型世界做好准备


上一次这个数字还是8个月,那是2025年11月的估算。

到2026年2月,缩到4.7个月。

现在Mythos和GPT-5.5的成绩一出,AISI自己都表示:

不确定这是一次性的跳跃,还是一条更陡的新趋势线。

翻译成人话:他们也不知道AI还会不会继续加速。

32步渗透,Mythos十次过六

AISI用了一套分层测试体系

窄域网络安全套件(narrow cyber suite)覆盖逆向工程和Web漏洞利用,单任务上限12小时,每次调用限制2.5M Token。

但真正炸场的是两个模拟企业内网的攻防靶场。


第一个叫The Last Ones。

32个步骤,模拟一次完整的企业内网渗透链,从初始突破到横向移动到最终目标。

AISI估算,一个人类安全专家走完全流程大约需要20小时。


Mythos Preview,10次尝试,成功6次。

GPT-5.5,10次尝试,成功3次。

第二个靶场叫Cooling Tower。

之前所有模型都没通过。

Mythos是第一个破关的,10次尝试成功3次。


这不是论文里的理论推演。

这是一个已经部署上线的模型,在模拟真实企业环境里,独立完成了人类安全专家级别的渗透任务。

Glasswing项目负责人Logan Graham确认,测试用的这个Mythos checkpoint,就是一个月前随Project Glasswing上线的版本。

外界现在看到的攻防能力,不是实验室里的原型,是正在跑着的生产模型。

就在你的Claude APP里。

看下实验结果。

下图上有两条红色虚线(dotted),标着best attempt(最上面)。

那是Mythos Preview (new) 和GPT-5.5-Cyber在10次尝试里跑出来的最佳单次成绩。

这条虚线一路冲到了纵轴顶部——32步,封顶。

也就是说:在最好的那一次尝试里,Mythos完整打穿了整条32步渗透链——从初始侦察,到完全网络接管。



4.5个月翻一倍,METR交叉验证

AISI算翻倍周期的方法不复杂。

他们测量的是80%可靠性网络时间跨度——模型能以80%的成功率独立完成的最长网络任务时长。

把历史上多个模型的成绩画到时间轴上,拟合指数曲线,算出翻倍时间。

从2025年11月的8个月,到2026年2月的4.7个月。

Mythos和GPT-5.5的数据点一加进去,曲线又陡了一截。

独立评估机构METR的基准测试给出了交叉验证。


他们从软件工程任务角度追踪AI能力增长,算出的翻倍周期是4.2个月(从o1-preview算起),如果把Mythos也纳入,缩到4个月。

两条完全独立的评估线,在同一个数量级上碰头了。

AISI的原话:

前沿模型能够自主完成的网络任务时长,翻倍周期是以月计的,不是以年计。

Token是天花板,不是智力

这份报告里最让人不安的不是数字本身,是AISI对瓶颈的判断。

窄域测试套件里,每个任务限制2.5M Token。

AISI明确写了:这个上限人为压低了成功率。

在攻防靶场实验里,Token上限放到了100M。

Mythos的表现立刻跳了一个台阶

意思是,当前制约AI网络攻击能力的不是算法,不是推理深度,不是智能上限——是Token预算。

给够Token,模型就能走得更远。


AISI自己也承认了测试体系的局限:

最长任务只有12小时,超出这个范围的能力无法衡量;人类基线数据有限;agent脚手架过于简单,人为约束了模型发挥。

换句话说,真实能力很可能比测出来的还要高。

这就是为什么报告的结论用了翻倍而不是接近天花板。

他们没有看到天花板。


评测在追,模型在跑

把Logan Graham那句话再拎出来看一遍。


测试用的Mythos checkpoint,一个月前就上线了。


AISI的评估报告昨天才发。

这中间隔了整整一个月。

而在这一个月里,Anthropic大概率已经迭代了新的checkpoint。

当安全评估结果公开的那一刻,被评估的版本已经是旧的了。


这不是AISI一家的困境。

整个AI安全评测领域都在面对同一个结构性问题:

模型迭代速度正在系统性地超越安全评估周期。

评估结果发布时,告诉你的是上个月的模型能做到什么。

它没法告诉你现在的模型能做到什么。

AISI在报告里用了一个很谨慎的表述:

他们不确定Mythos和GPT-5.5的跳跃是孤立的突破还是新的更快趋势

AI模型决赛阶段的新变量

Anthropic的Mythos和OpenAI的GPT-5.5,在网络攻防能力上都展现了指数级增长。

Mythos领先一个身位——6/10 vs 3/10,且独家攻破了Cooling Tower靶场——但GPT-5.5同样在快速追赶。

双雄在能力层面狂飙,安全治理层面却出现了一个越拉越大的缺口。

不到半年,4.5个月就能翻一倍。

这个速度意味着,到2026年底,前沿模型能自主完成的网络任务复杂度,将是现在的4到8倍。

当一个AI模型能在没有人类干预的情况下,独立完成一个训练有素的安全专家需要20小时才能走完的渗透链,全球每一个连着网线的企业都应该重新审视自己的防线。

AISI介绍

AISI的身份是全球首个国家级前沿AI风险评估机构。


2023年11月 Bletchley峰会成立,2024年05月, 由Safety改名为Security,隶属英国DSIT。

AISI的主要职能是网络/生化/自主行为/欺骗倾向的独立评估。

最关键的是,他们能拿到OpenAI、Anthropic、DeepMind等顶级模型公司的pre-deployment访问权,也就是说,他们是这些最先进模型的第一批访问者。

ASI,即Artifical Super Intelligence,超(级)人工智能。

参考资料:

https://www.aisi.gov.uk/blog/how-fast-is-autonomous-ai-cyber-capability-advancing

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
在乌拉圭,我终于明白什么叫“穷得有尊严”

在乌拉圭,我终于明白什么叫“穷得有尊严”

复转这些年
2026-05-14 18:01:23
研究发现:若晚餐经常吃太早,不超半年,胰腺会迎来3种变化

研究发现:若晚餐经常吃太早,不超半年,胰腺会迎来3种变化

荆医生科普
2026-05-14 21:45:10
天津一女高中生疑被男同学偷拍私密视频并传播致遭霸凌抑郁,学校:对当事男生作出开除学籍和留校察看处分;警方已行政立案

天津一女高中生疑被男同学偷拍私密视频并传播致遭霸凌抑郁,学校:对当事男生作出开除学籍和留校察看处分;警方已行政立案

大象新闻
2026-05-14 20:46:15
74岁布丽吉特:为了马克龙,整容扮嫩撑了9年,如今终于可以解脱

74岁布丽吉特:为了马克龙,整容扮嫩撑了9年,如今终于可以解脱

毒舌小红帽
2026-05-14 16:09:46
英媒:阿隆索妻子曾是酒店前台,克劳奇对此不知情还想追她

英媒:阿隆索妻子曾是酒店前台,克劳奇对此不知情还想追她

懂球帝
2026-05-14 08:38:10
恭喜!陈思诚又当爹!26岁小女友晒生日照,一脸孕相得到父母认可

恭喜!陈思诚又当爹!26岁小女友晒生日照,一脸孕相得到父母认可

八卦王者
2026-05-14 11:39:43
海清自曝以第一名成绩考入北电,因班主任年仅二十五岁而心生怀疑

海清自曝以第一名成绩考入北电,因班主任年仅二十五岁而心生怀疑

小邵说剧
2026-05-14 07:49:11
江西领导干部任前公示

江西领导干部任前公示

江西晨报
2026-05-13 17:41:34
特朗普启程前,126名美议员致信白宫,一件事不得答应中国

特朗普启程前,126名美议员致信白宫,一件事不得答应中国

看尽人间百态
2026-05-15 04:04:16
故事:白宫幕僚位置到手,特朗普御用风水师,却在关键时刻放弃了

故事:白宫幕僚位置到手,特朗普御用风水师,却在关键时刻放弃了

宅家伍菇凉
2024-11-07 17:35:34
cba京沪大战一触即发!明牌后,两队全方位对比得出如下结论

cba京沪大战一触即发!明牌后,两队全方位对比得出如下结论

迎接新生活
2026-05-15 05:16:13
曝皇马队长遭清洗,1.2亿欧全能中场加盟英超,曼联捡漏巴尔韦德

曝皇马队长遭清洗,1.2亿欧全能中场加盟英超,曼联捡漏巴尔韦德

夏侯看英超
2026-05-13 23:09:12
41岁白百何首晒二胎,二婚丈夫身份终于曝光:兜兜转转还是你!

41岁白百何首晒二胎,二婚丈夫身份终于曝光:兜兜转转还是你!

In风尚
2026-05-12 06:04:59
欧洲媒体炸锅了!马克龙掌掴门惊天反转,竟因伊朗女演员柏拉图恋爱?

欧洲媒体炸锅了!马克龙掌掴门惊天反转,竟因伊朗女演员柏拉图恋爱?

新欧洲
2026-05-14 19:47:51
快速入睡无成瘾!又一国产安眠新药即将落地,3亿失眠人有解了?

快速入睡无成瘾!又一国产安眠新药即将落地,3亿失眠人有解了?

思思夜话
2026-05-12 16:51:58
20岁就耍大牌?巴萨天才惨遭国家队封杀

20岁就耍大牌?巴萨天才惨遭国家队封杀

阿謯体育
2026-05-14 16:51:43
悲催!网传36岁未婚男不堪逼婚自杀,上午发现下午火葬,骨灰丢掉

悲催!网传36岁未婚男不堪逼婚自杀,上午发现下午火葬,骨灰丢掉

火山詩话
2026-05-14 07:23:53
国际逮捕令生效!菲律宾高官栽了,5名议员联手施压:赶紧自首吧

国际逮捕令生效!菲律宾高官栽了,5名议员联手施压:赶紧自首吧

小涛叨叨
2026-05-15 04:20:54
“摸奶子”再惹争议,OPPO的流量反噬开始了

“摸奶子”再惹争议,OPPO的流量反噬开始了

品牌头版
2026-05-13 10:18:15
一天中,最佳的性生活时间是在几点?早上好还是晚上好?出乎意料

一天中,最佳的性生活时间是在几点?早上好还是晚上好?出乎意料

荆医生科普
2026-05-06 20:55:04
2026-05-15 06:08:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15211文章数 66867关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

马斯克幼子装扮“火”了 衣服包包都是中国造

头条要闻

马斯克幼子装扮“火”了 衣服包包都是中国造

体育要闻

争议抽象天王山,和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

李强会见美国工商界代表

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

房产
游戏
家居
旅游
军事航空

房产要闻

海南楼市新政要出!拟调公积金贷款额度,最高可贷168万!

《极限竞速地平线6》画面对比 最佳游玩平台在PC

家居要闻

精神奢享 对话塔尖需求

旅游要闻

开屏时光机|四百年西山行:徐霞客的登临之路与“六万人同耍西山”

军事要闻

美以伊战争期间以总理密访阿联酋

无障碍浏览 进入关怀版