网易首页 > 网易号 > 正文 申请入驻

OpenAI把3.1小时攻防战压缩到1秒,红队饭碗悬了

0
分享至


2019年,顶尖AI攻破一道CTF题目需要人类专家花8小时。2026年4月,这个数字变成3.1小时——而且模型思考时间以秒计。METR最新研究给出的 doubling time(能力翻倍周期)是9.8个月,但2024年后的模型把这个周期压缩到5.7个月。换句话说,AI攻陷系统的速度,正在以快过摩尔定律的节奏狂奔。

这不是实验室玩具。GPT-5.3 Codex 和 Opus 4.6 已经能稳定拿下需要人类专家3小时以上才能完成的攻防任务,成功率50%。

时间线:从"能跑"到"能赢"的加速度

METR的评估框架很直白:给AI一个网络安全任务,记录它花多少token、能不能成功,然后对标人类专家完成同样任务需要的时间。2019年的模型,P50时间地平线(50%成功率对应的人类耗时)还在1小时以下徘徊。2023年GPT-4发布时,这个数字摸到2小时边缘。

真正的跃迁发生在2024年后。Claude 3.5 Sonnet、o1、o3-mini 陆续把标杆推高到2.5小时、2.8小时。今年3月的 GPT-5.3 Codex 和 Opus 4.6 直接站上3.1小时和3.2小时——而且这还是在"限速"状态下跑出来的成绩。

研究团队用了固定的200万token预算做基准测试。这个设定在2024年前还算公平,但新模型的胃口已经变了。英国AISI(人工智能安全研究所)发现,2025年11月后的模型在更大token预算下没有性能瓶颈。METR自己复测:把GPT-5.3 Codex的失败案例重新放到1000万token预算下跑,P50从3.1小时飙到10.5小时。


3.1小时只是地板,不是天花板。研究团队的原话是:"我们的数据集已经饱和。"

开源追上来了,差5.7个月

GLM-5是这份报告里唯一被点名的开源权重模型。它的表现恰好落在闭源前沿模型的5.7个月延迟线上——正好对上了2024年后的能力翻倍周期。这个对齐有点微妙:开源社区拿到顶尖攻防能力的时间窗口,正在从"年"缩短到"季度"。

5.7个月意味着什么?2024年初能攻破2小时任务的闭源模型,开源版本在同年夏天就能复现。2026年初的3小时任务能力,可能秋天就会出现在Hugging Face的下载榜上。

扩散速度本身在加速。这不是线性追赶,是周期同步。

但别急着喊"终结者来了"


METR在结论部分给自己打了三重补丁。第一,所有数字都来自7个开源基准测试,测的是"有边界、可验证的攻击子任务",不是真实的APT(高级持续性威胁)全流程。第二,291道题目虽然请了10位专业红队成员标注耗时,但样本结构偏向CTF竞赛风格,和真实企业网络的复杂度不在一个量级。

第三,也是最扎心的:AI在"发现漏洞"和"利用漏洞"之间的鸿沟,可能比数字显示的更深。3.1小时的人类耗时里,大量时间花在信息搜集、权限维持、横向移动——这些环节在基准测试里被简化成了明确的flag捕获。

研究团队的原话很克制:"生态效度有限。"翻译成人话:实验室里的3.1小时,不等于实战中的3.1小时。

但这句免责声明本身也在失效。基准测试的简化是双向的:AI少了真实环境的噪音,但也少了真实环境的辅助信息。如果token预算继续膨胀,模型开始像人类一样"边打边搜",现在的测试框架可能反而低估了它们。

10.5小时的复测数据已经暗示了这个方向。当AI被允许"想得更久",它的表现不是线性提升,是跳阶。

红队成员怎么看待这个趋势?METR的人类研究里没直接引用,但291个任务的标注过程本身说明了一点:专家们在评估"这道题值几小时"时,已经开始下意识考虑"如果AI来做,需要多久"。这个参照系的转移,可能比任何 doubling time 数字都更值得玩味。

GLM-5的5.7个月延迟,会在下一个周期被压缩到4个月、3个月吗?当开源模型也能稳定拿下10小时人类任务,企业安全团队的防御策略要从哪里开始重构?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
孙杨无证驾驶再上热搜,全体拘留人员当时被迫陪他吃素

孙杨无证驾驶再上热搜,全体拘留人员当时被迫陪他吃素

映射生活的身影
2026-05-03 02:46:28
张敬轩风波后续!开唱一场就因病退出,英皇不再死保争议艺人?

张敬轩风波后续!开唱一场就因病退出,英皇不再死保争议艺人?

林大师热点
2026-05-04 13:22:44
2026年藏10层也白搭!大数据1秒穿透全家资产,百姓:早该这样查

2026年藏10层也白搭!大数据1秒穿透全家资产,百姓:早该这样查

音乐时光的娱乐
2026-05-05 11:37:50
CCTV5+直播!广东男篮客战北京,胡明轩对位赵睿,三大劣势明显!

CCTV5+直播!广东男篮客战北京,胡明轩对位赵睿,三大劣势明显!

中国篮坛快讯
2026-05-05 10:15:22
陈慧琳”太丰满了,穿抹胸都兜不住好身材,我感慨自律女人真美

陈慧琳”太丰满了,穿抹胸都兜不住好身材,我感慨自律女人真美

章眽八卦
2026-03-08 15:36:53
“五一”期间上海反诈中心劝阻5000余人,避免损失超4200万元

“五一”期间上海反诈中心劝阻5000余人,避免损失超4200万元

澎湃新闻
2026-05-05 12:46:27
艺人严浩翔生父连续两天发难,先宣布断绝父子关系,又晒聊天记录

艺人严浩翔生父连续两天发难,先宣布断绝父子关系,又晒聊天记录

露珠聊影视
2026-05-03 00:17:34
西方国家为什么都不喜欢中国?英国专家:中国有一个“老问题”

西方国家为什么都不喜欢中国?英国专家:中国有一个“老问题”

宋诉搞笑配音
2026-04-13 17:16:15
比导弹便宜万倍!中国 LW30 一出场,无人机当场变废铁

比导弹便宜万倍!中国 LW30 一出场,无人机当场变废铁

小兰聊历史
2026-04-18 14:25:14
断了海路改走陆路?伊朗根本运不起也活不旺!

断了海路改走陆路?伊朗根本运不起也活不旺!

寰球经纬所
2026-05-02 15:21:14
59岁单身阿姨感慨:恢复自由后,我才发现没有男人的日子就没麻烦

59岁单身阿姨感慨:恢复自由后,我才发现没有男人的日子就没麻烦

惟来
2026-05-04 10:24:20
特斯拉FSD在欧遭遇监管质疑

特斯拉FSD在欧遭遇监管质疑

财闻
2026-05-05 13:16:10
有人问,若是国民党当年赢了,老蒋统治中国,那中国的未来会如何

有人问,若是国民党当年赢了,老蒋统治中国,那中国的未来会如何

浩渺青史
2026-04-27 17:06:59
海航推66666元“顺心卡”:可379元飞全国,余额要求严苛被指“变相无息融资”

海航推66666元“顺心卡”:可379元飞全国,余额要求严苛被指“变相无息融资”

红星资本局
2026-05-04 19:39:14
悲情 43岁墨菲5进决赛仅夺1冠+遭4连败 紧抱吴宜泽:我已弹尽粮绝

悲情 43岁墨菲5进决赛仅夺1冠+遭4连败 紧抱吴宜泽:我已弹尽粮绝

风过乡
2026-05-05 07:06:34
毫无征兆!茅台突降“5.5重磅王炸”,代售会所一夜席卷催生新富

毫无征兆!茅台突降“5.5重磅王炸”,代售会所一夜席卷催生新富

奇思妙想生活家
2026-05-05 11:43:16
英皇演唱会风波不断!张敬轩成弃将,家族演出敷衍,全场大喊退票

英皇演唱会风波不断!张敬轩成弃将,家族演出敷衍,全场大喊退票

萌神木木
2026-05-05 13:02:25
官方回应刘晓庆风波!王婆说话阴阳怪气,网友:庆奶75了还想怎样

官方回应刘晓庆风波!王婆说话阴阳怪气,网友:庆奶75了还想怎样

天天热点见闻
2026-05-02 17:15:14
巴基斯坦宇航员穿中国航天服照片流出,神舟二十三号5月出征太空

巴基斯坦宇航员穿中国航天服照片流出,神舟二十三号5月出征太空

风云圈天气
2026-05-03 11:31:03
离婚后只字不提李琳!输给了经超后才发现,原来他们不是同类人

离婚后只字不提李琳!输给了经超后才发现,原来他们不是同类人

小兰聊历史
2026-04-27 15:10:56
2026-05-05 13:55:00
字节漫游指南
字节漫游指南
有态度网友ytd
3198文章数 36关注度
往期回顾 全部

科技要闻

OpenAI/Anthropic同日被曝拉拢华尔街建合资公司

头条要闻

吴宜泽18-17夺冠:1家3口"兵分两路"10年 已押上一切

头条要闻

吴宜泽18-17夺冠:1家3口"兵分两路"10年 已押上一切

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

英皇25周年演唱会 张敬轩被救护车拉走

财经要闻

五一假期,中国年轻人的“首尔病”犯了

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

游戏
本地
数码
旅游
公开课

索尼大招藏不住了!PS6自研帧生成技术曝光

本地新闻

用青花瓷的方式,打开西溪湿地

数码要闻

苹果正考虑与英特尔和三星合作 为其生产主要设备芯片

旅游要闻

十载筑梦向新行 乐享初夏梦享券——2026上海国际旅游度假区第二轮“梦享券”开抢在即

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版